نماذج لغة الفيديو: الحدود الجديدة بعد نماذج اللغة الكبيرة ووكلاء الذكاء الاصطناعي
تُعلّم نماذج العالم الذكاء الاصطناعي فهم الواقع المادي، مما يمكّن الروبوتات من التخطيط للإجراءات ومحاكاة النتائج قبل تحريك أي مشغّل.

أتقنت نماذج اللغة الكبيرة النصوص. وأحكمت نماذج الرؤية السيطرة على الصور. وتعلمت وكلاء الذكاء الاصطناعي استخدام الأدوات. والآن، تبرز فئة جديدة قد تتفوق عليها جميعاً: نماذج لغة الفيديو، أو ما يسميها الباحثون بشكل متزايد "نماذج العالم".
قضينا السنوات القليلة الماضية في تعليم الذكاء الاصطناعي القراءة والكتابة، بل وحتى التفكير في المشكلات المعقدة. لكن إليك الحقيقة: كل ذلك يحدث في العالم الرقمي. يستطيع ChatGPT كتابة قصيدة عن السير في غابة، لكنه لا يعرف فعلياً ما يعنيه أن تخطو فوق جذع شجرة ساقط أو تنحني تحت غصن منخفض.
نماذج العالم موجودة هنا لتغيير ذلك.
ما هي نماذج لغة الفيديو؟
تعالج نماذج لغة الفيديو (VLMs) كلاً من التسلسلات البصرية واللغة في آن واحد، مما يمكّن الذكاء الاصطناعي من فهم ليس فقط ما في الإطار، بل كيف تتطور المشاهد عبر الزمن وما قد يحدث تالياً.
فكر فيها على أنها تطور لنماذج الرؤية واللغة، لكن مع إضافة جوهرية: الفهم الزمني. بينما تنظر نماذج الرؤية واللغة المعيارية إلى صورة واحدة وتجيب عن أسئلة حولها، تراقب نماذج لغة الفيديو تسلسل الأحداث وتتعلم القواعد التي تحكم الواقع المادي.
هذا ليس مجرد فضول أكاديمي. التطبيقات العملية مذهلة.
عندما يحتاج روبوت إلى التقاط فنجان قهوة، لا يمكنه فقط التعرف على "فنجان" في صورة. يحتاج إلى فهم:
- ✓كيف تتصرف الأشياء عند دفعها أو رفعها
- ✓ما يحدث عندما تتحرك السوائل
- ✓كيف تؤثر حركاته على المشهد
- ✓ما هي الإجراءات الممكنة فيزيائياً مقابل المستحيلة
هنا يأتي دور نماذج العالم.
من المحاكاة إلى الفعل
الذكاء المادي
تولّد نماذج العالم محاكاة شبيهة بالفيديو للمستقبل المحتمل، مما يسمح للروبوتات "بتخيل" النتائج قبل الالتزام بالإجراءات.
المفهوم أنيق: بدلاً من برمجة القواعد الفيزيائية يدوياً، تدرّب الذكاء الاصطناعي على ملايين الساعات من الفيديو التي تُظهر كيف يعمل العالم فعلياً. يتعلم النموذج الجاذبية والاحتكاك وديمومة الأشياء والسببية ليس من المعادلات، بل من الملاحظة.
تمثل Cosmos من NVIDIA إحدى أكثر المحاولات طموحاً في هذا المجال. صُمم نموذج العالم الخاص بهم تحديداً لتطبيقات الروبوتات، حيث فهم الواقع المادي ليس اختيارياً، بل ضرورة للبقاء.
يتخذ Genie 3 من Google DeepMind نهجاً مختلفاً، مركزاً على توليد العالم التفاعلي حيث يمكن "لعب" النموذج كبيئة لعبة فيديو.
قواعد فيزياء مبرمجة يدوياً، حالات حدية هشة، مصفوفات استشعار مكلفة، تكيف بطيء مع البيئات الجديدة
حدس فيزيائي مُتعلَّم، تدهور سلس، متطلبات أجهزة أبسط، نقل سريع إلى سيناريوهات جديدة
تجربة PAN
كشف باحثون في جامعة محمد بن زايد مؤخراً عن PAN، وهو نموذج عالم عام يجري ما يسمونه "تجارب فكرية" في محاكاة محكومة.
كيف يعمل PAN
باستخدام التنبؤ الكامن التوليدي (GLP) وبنية Causal Swin-DPM، يحافظ PAN على تماسك المشهد عبر تسلسلات ممتدة مع التنبؤ بنتائج معقولة فيزيائياً.
الابتكار الرئيسي هو معاملة نمذجة العالم كمشكلة فيديو توليدية. بدلاً من برمجة الفيزياء بشكل صريح، يتعلم النموذج توليد استمرارات الفيديو التي تحترم القوانين الفيزيائية. عند إعطائه مشهداً ابتدائياً وإجراءً مقترحاً، يمكنه "تخيل" ما يحدث تالياً.
لهذا تداعيات عميقة على الروبوتات. قبل أن يمد روبوت بشري يده نحو فنجان القهوة، يمكنه تشغيل مئات المحاولات المحاكاة، متعلماً أي زوايا الاقتراب تنجح وأيها تنتهي بالقهوة على الأرض.
مستقبل المليار روبوت
هذه ليست أرقاماً عشوائية للتأثير الدرامي. تشير التوقعات الصناعية حقاً إلى مستقبل تصبح فيه الروبوتات البشرية شائعة كالهواتف الذكية. وكل واحد منها سيحتاج نماذج العالم للعمل بأمان جنباً إلى جنب مع البشر.
تمتد التطبيقات إلى ما وراء الروبوتات البشرية:
محاكاة المصانع
تدريب العمال في بيئات افتراضية قبل نشرهم في أرضيات المصانع الفعلية
المركبات ذاتية القيادة
أنظمة سلامة تتنبأ بسيناريوهات الحوادث وتتخذ إجراءات وقائية
التنقل في المستودعات
روبوتات تفهم المساحات المعقدة وتتكيف مع التخطيطات المتغيرة
مساعدو المنزل
روبوتات تتنقل بأمان في مساحات المعيشة البشرية وتتعامل مع الأشياء اليومية
حيث يلتقي توليد الفيديو بفهم العالم
إذا كنت تتابع توليد فيديو الذكاء الاصطناعي، قد تلاحظ بعض التداخل هنا. أدوات مثل Sora 2 وVeo 3 تولّد بالفعل فيديو واقعي بشكل ملحوظ. أليست هي أيضاً نماذج عالم؟
نعم ولا.
وضعت OpenAI Sora بشكل صريح على أنه يمتلك قدرات محاكاة العالم. من الواضح أن النموذج يفهم شيئاً عن الفيزياء. انظر إلى أي توليد من Sora وسترى إضاءة واقعية، وحركة معقولة، وأشياء تتصرف بشكل صحيح في الغالب.
لكن هناك فرق جوهري بين توليد فيديو يبدو معقولاً وفهم السببية الفيزيائية حقاً. مولّدات الفيديو الحالية محسّنة للواقعية البصرية. نماذج العالم محسّنة للدقة التنبؤية.
الاختبار ليس "هل يبدو هذا حقيقياً؟" بل "بالنظر إلى الإجراء X، هل يتنبأ النموذج بشكل صحيح بالنتيجة Y؟" هذا معيار أصعب بكثير لتجاوزه.
مشكلة الهلوسة
إليك الحقيقة غير المريحة: تعاني نماذج العالم من نفس مشكلات الهلوسة التي تبتلي نماذج اللغة الكبيرة.
عندما يذكر ChatGPT حقيقة خاطئة بثقة، فهذا مزعج. عندما يتنبأ نموذج عالم بثقة بأن الروبوت يمكنه المشي عبر جدار، فهذا خطير.
قد تسبب هلوسات نموذج العالم في الأنظمة المادية أضراراً حقيقية. قيود السلامة وطبقات التحقق ضرورية قبل النشر جنباً إلى جنب مع البشر.
تتدهور الأنظمة الحالية على التسلسلات الأطول، فاقدة التماسك كلما توغلت في المستقبل. هذا يخلق توتراً جوهرياً: التنبؤات الأكثر فائدة هي طويلة المدى، لكنها أيضاً الأقل موثوقية.
يهاجم الباحثون هذه المشكلة من زوايا متعددة. بعضهم يركز على بيانات تدريب أفضل. وآخرون يعملون على ابتكارات معمارية تحافظ على تماسك المشهد. ولا يزال آخرون يدعون إلى مناهج هجينة تجمع بين نماذج العالم المتعلمة والقيود الفيزيائية الصريحة.
اختراق Qwen 3-VL
على جانب الرؤية واللغة، يمثل Qwen 3-VL من Alibaba الحالة الفنية الراهنة للنماذج مفتوحة المصدر.
يتنافس نموذج Qwen3-VL-235B الرائد مع الأنظمة الخاصة الرائدة عبر معايير متعددة الوسائط تغطي الأسئلة والأجوبة العامة، والتأسيس ثلاثي الأبعاد، وفهم الفيديو، والتعرف الضوئي على الحروف، وفهم المستندات.
ما يجعل Qwen 3-VL مثيراً للاهتمام بشكل خاص هو قدراته "الوكيلية". يمكن للنموذج تشغيل واجهات رسومية، والتعرف على عناصر واجهة المستخدم، وفهم وظائفها، وأداء مهام واقعية من خلال استدعاء الأدوات.
هذا هو الجسر بين الفهم والفعل الذي تحتاجه نماذج العالم.
لماذا يهم هذا للمبدعين
إذا كنت صانع فيديو أو مخرجاً سينمائياً أو رساماً متحركاً، قد تبدو نماذج العالم بعيدة عن عملك اليومي. لكن التداعيات أقرب مما تظن.
تعاني أدوات فيديو الذكاء الاصطناعي الحالية من الاتساق المادي. تخترق الأشياء بعضها البعض. تتصرف الجاذبية بشكل غير متسق. تتشوش العلاقة بين السبب والنتيجة. هذه كلها أعراض لنماذج تستطيع توليد بكسلات واقعية لكنها لا تفهم حقاً القواعد الفيزيائية الكامنة وراء ما تصوره.
يمكن لنماذج العالم المدربة على مجموعات بيانات فيديو ضخمة أن تغذي في النهاية توليد الفيديو، منتجة أدوات ذكاء اصطناعي تحترم القوانين الفيزيائية بطبيعتها. تخيل مولّد فيديو لا تحتاج فيه إلى المطالبة بـ "فيزياء واقعية" لأن النموذج يعرف بالفعل كيف يعمل الواقع.
قراءة ذات صلة: لمزيد من المعلومات حول تطور توليد الفيديو، راجع تحليلنا المعمق عن محولات الانتشار ونماذج العالم في توليد الفيديو.
الطريق إلى الأمام
تمثل نماذج العالم ربما الهدف الأكثر طموحاً في الذكاء الاصطناعي: تعليم الآلات فهم الواقع المادي بالطريقة التي يفهمها البشر. ليس من خلال البرمجة الصريحة، بل من خلال الملاحظة والاستدلال والخيال.
نحن لا نزال في البداية. الأنظمة الحالية عروض مثيرة للإعجاب، وليست حلولاً جاهزة للإنتاج. لكن المسار واضح.
ما لدينا الآن:
- تماسك تسلسل محدود
- نماذج خاصة بمجال معين
- تكاليف حسابية عالية
- نشر في مرحلة البحث
ما هو قادم:
- فهم زمني ممتد
- نماذج عالم للأغراض العامة
- نشر على أجهزة الحافة
- تكامل الروبوتات التجارية
الشركات التي تستثمر بكثافة في هذا المجال، NVIDIA وGoogle DeepMind وOpenAI والعديد من الشركات الناشئة، تراهن على أن الذكاء المادي هو الحدود التالية بعد الذكاء الرقمي.
بالنظر إلى مدى تحويلية نماذج اللغة الكبيرة للعمل القائم على النص، تخيل التأثير عندما يستطيع الذكاء الاصطناعي فهم العالم المادي والتفاعل معه بنفس الطلاقة.
هذا هو وعد نماذج لغة الفيديو. لهذا تهم هذه الحدود.
مزيد من القراءة: استكشف كيف يحوّل فيديو الذكاء الاصطناعي بالفعل سير العمل الإبداعي في تغطيتنا عن توليد الصوت الأصلي وتبني المؤسسات.
هل كان هذا المقال مفيداً؟

Henry
متخصص تكنولوجيا إبداعيةمتخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي
يمثل GWM-1 من Runway نقلة نوعية من توليد مقاطع الفيديو إلى محاكاة العوالم. اكتشف كيف يُنشئ هذا النموذج التسلسلي بيئات قابلة للاستكشاف، وأفاتارات واقعية، ومحاكيات لتدريب الروبوتات.

يوتيوب يدمج Veo 3 Fast في Shorts: توليد فيديوهات بالذكاء الاصطناعي مجاناً لـ 2.5 مليار مستخدم
جوجل تدمج نموذج Veo 3 Fast مباشرة في YouTube Shorts، مقدمة توليد فيديوهات من النص مع الصوت مجاناً للمبدعين حول العالم. إليكم ما يعنيه هذا للمنصة ولإتاحة فيديوهات الذكاء الاصطناعي.

Kling 2.6: استنساخ الصوت والتحكم بالحركة يعيدان تعريف إنتاج الفيديو بالذكاء الاصطناعي
يقدم التحديث الأخير من Kuaishou توليداً متزامناً للصوت والصورة، وتدريباً مخصصاً للصوت، والتقاط حركة دقيق قد يغير طريقة تعامل صناع المحتوى مع إنتاج الفيديو بالذكاء الاصطناعي.