ByteDance Vidi2: ذكاء اصطناعي يفهم الفيديو كمحرر محترف
أطلقت ByteDance نموذج Vidi2 مفتوح المصدر بـ12 مليار معامل، يفهم محتوى الفيديو بعمق كافٍ لتحرير ساعات من اللقطات تلقائياً وتحويلها إلى مقاطع محترفة. يشغّل بالفعل خاصية TikTok Smart Split.

بينما ينشغل الجميع بتوليد الفيديو، حلّت ByteDance مشكلة مختلفة بصمت: جعل الذكاء الاصطناعي يفهم الفيديو كمحرر محترف. يستطيع Vidi2 مشاهدة ساعات من اللقطات الخام واستخراج ما يهم بالضبط.
المشكلة التي لا يتحدث عنها أحد
نملك الآن مولّدات فيديو مذهلة بالذكاء الاصطناعي. Runway Gen-4.5 يتصدر مقاييس الجودة. Kling O1 يولّد صوتاً متزامناً. لكن إليكم السر المخفي في إنتاج الفيديو: معظم الوقت يُصرف في التحرير، وليس الإنشاء.
مصوّر حفلات الزفاف يسجل 8 ساعات للحصول على فيديو تذكاري مدته 5 دقائق. منشئ المحتوى يسجل 45 دقيقة لإنتاج فيديو TikTok مدته 60 ثانية. فريق مؤسسي لديه 200 ساعة من مقاطع التدريب المدفونة في SharePoint.
توليد الفيديو يحظى بالعناوين الرئيسية. فهم الفيديو ينجز العمل الفعلي.
يعالج Vidi2 هذه الفجوة. ليس مجرد مولّد آخر. إنه ذكاء اصطناعي يشاهد الفيديو، ويستوعب ما يحدث، ويساعدك على العمل مع هذا المحتوى على نطاق واسع.
ما يفعله Vidi2 فعلياً
تصف ByteDance نموذج Vidi2 بأنه "نموذج كبير متعدد الوسائط لفهم وإنشاء الفيديو." يتفوق النموذج ذو 12 مليار معامل في:
التحديد الزماني-المكاني
العثور على أي كائن في الفيديو وتتبعه عبر الزمن. ليس فقط "هناك قطة عند 0:32" بل "تدخل القطة عند 0:32، تتحرك إلى الأريكة عند 0:45، وتخرج من الإطار عند 1:12."
التحرير الذكي
تحليل اللقطات واقتراح القصّات بناءً على المحتوى. العثور على أفضل اللحظات، تحديد حدود المشاهد، فهم التوقيت.
تحليل المحتوى
وصف ما يحدث في الفيديو بتفاصيل كافية لتكون مفيدة. ليس "شخصان يتحدثان" بل "مقطع مقابلة، ضيف يشرح مزايا المنتج، لحظة تفاعل عالية عند 3:45."
تتبع الكائنات
تتبع الكائنات كـ"أنابيب" مستمرة عبر الفيديو، حتى عندما تخرج وتعود للإطار. يتيح ذلك اختياراً دقيقاً للمؤثرات أو الإزالة أو التركيز.
الابتكار التقني: التحديد الزماني-المكاني
الذكاء الاصطناعي للفيديو السابق عمل في بعدين: المكان (ما في هذا الإطار) أو الزمان (متى يحدث شيء). يجمع Vidi2 كلاهما فيما تسميه ByteDance "التحديد الزماني-المكاني" (STG).
النهج التقليدي:
- مكاني: "السيارة عند إحداثيات بكسل (450، 320)"
- زماني: "تظهر سيارة عند الطابع الزمني 0:15"
- النتيجة: معلومات منفصلة تتطلب ربطاً يدوياً
Vidi2 STG:
- مدمج: "السيارة الحمراء عند (450، 320) عند 0:15، تتحرك إلى (890، 340) عند 0:18، تخرج يميناً عند 0:22"
- النتيجة: مسار كامل للكائن عبر المكان والزمان
هذا مهم لأن مهام التحرير الحقيقية تتطلب كلا البعدين. "إزالة ميكروفون الازدهار" يحتاج معرفة أين يظهر (مكاني) وإلى متى (زماني). يتعامل Vidi2 مع هذا كاستعلام واحد.
المعايير القياسية: التفوق على العمالقة
هنا يصبح الأمر مثيراً. في معيار VUE-STG الخاص بـByteDance للتحديد الزماني-المكاني، يتفوق Vidi2 على كل من Gemini 2.0 Flash وGPT-4o، رغم امتلاكه معاملات أقل من كليهما.
تحذير: هذه المعايير أنشأتها ByteDance. التحقق المستقل على معايير طرف ثالث سيعزز هذه الادعاءات. مع ذلك، نهج البنية المتخصصة سليم.
تشير نتائج المعايير إلى أن فهم الفيديو يستفيد من التصميم المتخصص أكثر من الحجم الخام. نموذج مبني للفيديو من الأساس يمكنه التفوق على نماذج أكبر متعددة الأغراض تعامل الفيديو كامتداد لفهم الصور.
بالفعل في الإنتاج: TikTok Smart Split
هذا ليس مجرد وعود. يشغّل Vidi2 خاصية "Smart Split" في TikTok، والتي:
- ✓تستخرج النقاط البارزة تلقائياً من الفيديوهات الطويلة
- ✓تولّد ترجمات متزامنة مع الكلام
- ✓تعيد بناء التخطيط لنسب عرض مختلفة
- ✓تحدد نقاط القص المثلى بناءً على المحتوى
يستخدم الملايين من المنشئين Smart Split يومياً. النموذج مُثبت على نطاق واسع، وليس نظرياً.
مفتوح المصدر: شغّله بنفسك
أطلقت ByteDance نموذج Vidi2 على GitHub تحت ترخيص CC BY-NC 4.0. يعني ذلك مجاناً للبحث والتعليم والمشاريع الشخصية، لكن الاستخدام التجاري يتطلب ترخيصاً منفصلاً. التداعيات:
للمطورين:
- بناء خطوط معالجة تحليل فيديو مخصصة
- دمج الفهم في الأدوات الموجودة
- ضبط دقيق لمجالات محددة
- لا تكاليف API على نطاق واسع
للمؤسسات:
- معالجة اللقطات الحساسة محلياً
- بناء سير عمل تحرير خاص
- تجنب الارتباط بالموردين
- تخصيص لأنواع المحتوى الداخلية
يتبع الإصدار مفتوح المصدر نمطاً رأيناه مع LTX Video ومختبرات ذكاء اصطناعي صينية أخرى: إطلاق نماذج قوية بشكل مفتوح بينما تبقي المنافسون الغربيون نماذجهم خاصة.
التطبيقات العملية
دعوني أوضح بعض سير العمل الحقيقية التي يتيحها Vidi2:
إعادة استخدام المحتوى
المدخل: تسجيل بودكاست مدته ساعتان المخرج: 10 مقاطع قصيرة من أفضل اللحظات، كل منها بقصّات مقدمة/خاتمة مناسبة
يحدد النموذج اللحظات الجذابة، يجد نقاط القص الطبيعية، ويستخرج مقاطع تعمل كمحتوى مستقل.
إدارة فيديوهات التدريب
المدخل: 500 ساعة من لقطات تدريب الشركات الاستعلام: "ابحث عن جميع المقاطع التي تشرح سير عمل CRM الجديد"
بدلاً من الفرك اليدوي أو الاعتماد على بيانات وصفية غير موثوقة، يشاهد Vidi2 ويفهم المحتوى فعلياً.
نقاط الرياضة البارزة
المدخل: تسجيل مباراة كاملة المخرج: فيديو بارز بجميع لحظات التسجيل، والمواقف الحرجة، والاحتفالات
يفهم النموذج سياق الرياضة بما يكفي لتحديد اللحظات المهمة، وليس الحركة فقط.
مراجعة المراقبة
المدخل: 24 ساعة من لقطات الأمان الاستعلام: "ابحث عن جميع حالات دخول الأشخاص عبر الباب الجانبي بعد الساعة 6 مساءً"
التحديد الزماني-المكاني يعني إجابات دقيقة مع طوابع زمنية ومواقع دقيقة.
كيف يقارن بنماذج التوليد
- يعمل مع اللقطات الموجودة
- يوفر وقت التحرير، وليس وقت التوليد
- يتسع لمكتبات فيديو ضخمة
- لا يتطلب مطالبات إبداعية
- عملي للمؤسسات فوراً
- يخلق محتوى جديداً من لا شيء
- أداة تعبير إبداعي
- تطبيقات التسويق والإعلان
- جودة متزايدة بسرعة
- مثير لكن حالة استخدام مختلفة
هذه ليست تقنيات متنافسة. تحل مشاكل مختلفة. سير عمل فيديو كامل بالذكاء الاصطناعي يحتاج كليهما: التوليد لإنشاء محتوى جديد، والفهم للعمل مع المحتوى الموجود.
الصورة الأكبر
فهم الفيديو هو حيث ينتقل الذكاء الاصطناعي من "عرض مبهر" إلى "أداة يومية." التوليد يلفت الانتباه. الفهم ينجز العمل.
تأملوا ما يتيحه هذا:
- كل مؤسسة لديها محتوى فيديو محبوس في الأرشيفات
- كل منشئ يقضي وقتاً في التحرير أكثر من التصوير
- كل منصة تحتاج إشراف واكتشاف محتوى أفضل
- كل باحث لديه لقطات لا يستطيع تحليلها بكفاءة
يعالج Vidi2 كل هذه. الإصدار مفتوح المصدر يعني أن هذه القدرات متاحة الآن لأي شخص لديه حوسبة كافية.
البدء
النموذج متاح على GitHub مع التوثيق والعروض التوضيحية. المتطلبات:
- GPU من NVIDIA بذاكرة 24GB على الأقل VRAM للنموذج الكامل
- إصدارات مضغوطة متاحة لـGPU أصغر
- Python 3.10+ مع PyTorch 2.0+
البدء السريع:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"التوثيق بالإنجليزية أساساً رغم أن ByteDance شركة صينية، مما يعكس الجمهور المستهدف العالمي.
ما يعنيه هذا للصناعة
مشهد فيديو الذكاء الاصطناعي لديه الآن مساران متميزان:
| المسار | القادة | التركيز | القيمة |
|---|---|---|---|
| التوليد | Runway، Sora، Veo، Kling | إنشاء فيديو جديد | التعبير الإبداعي |
| الفهم | Vidi2، (آخرون ناشئون) | تحليل الفيديو الموجود | الإنتاجية |
كلاهما سينضج. كلاهما سيتكامل. حزمة فيديو الذكاء الاصطناعي الكاملة لعام 2026 ستولّد وتحرّر وتفهم بسلاسة.
في الوقت الحالي، يمثل Vidi2 الخيار الأكثر قدرة مفتوح المصدر لفهم الفيديو. إذا كان لديك لقطات للتحليل، أو تحرير للأتمتة، أو محتوى للتنظيم، فهذا هو النموذج للاستكشاف.
رأيي الشخصي
قضيت سنوات في بناء خطوط معالجة الفيديو. الفرق قبل وبعد نماذج مثل Vidi2 واضح جداً. مهام تطلبت حزم رؤية حاسوبية مخصصة، وتعليقات يدوية، وإرشادات هشة يمكن الآن حلها بمطالبة.
أفضل أدوات الذكاء الاصطناعي لا تستبدل الحكم البشري. تزيل العمل الممل الذي يمنع البشر من تطبيق الحكم على نطاق واسع.
لا يستبدل Vidi2 المحررين. يمنح المحررين قدرات كانت مستحيلة سابقاً على نطاق واسع. ومع الوصول المفتوح (للاستخدام غير التجاري)، هذه القدرات متاحة لأي شخص راغب في إعداد البنية التحتية.
مستقبل الفيديو ليس فقط التوليد. إنه الفهم. وهذا المستقبل الآن مفتوح المصدر.
المصادر
هل كان هذا المقال مفيداً؟

Damien
مطور ذكاء اصطناعيمطور ذكاء اصطناعي من ليون يحب تحويل مفاهيم التعلم الآلي المعقدة إلى وصفات بسيطة. عندما لا يكون منشغلاً في تصحيح النماذج، ستجده يقود الدراجة في وادي الرون.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

ByteDance Seedance 1.5 Pro: النموذج الذي يولد الصوت والفيديو معاً
تطلق ByteDance نموذج Seedance 1.5 Pro مع توليد صوتي بصري أصلي، وضوابط كاميرا سينمائية، ومزامنة شفاه متعددة اللغات. متاح مجاناً على CapCut.

Sora 2: أوبن إيه آي تُعلن "لحظة GPT-3.5" لتوليد الفيديو بالذكاء الاصطناعي
يمثل Sora 2 من أوبن إيه آي لحظة محورية في توليد الفيديو بالذكاء الاصطناعي، حيث يقدم محاكاة دقيقة للفيزياء وصوتاً متزامناً وتحكماً إبداعياً لا مثيل له لصناع الفيديو. نستكشف ما يجعل هذا الإصدار ثورياً وكيف يغيّر مشهد إنتاج المحتوى.

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي
يمثل GWM-1 من Runway نقلة نوعية من توليد مقاطع الفيديو إلى محاكاة العوالم. اكتشف كيف يُنشئ هذا النموذج التسلسلي بيئات قابلة للاستكشاف، وأفاتارات واقعية، ومحاكيات لتدريب الروبوتات.