Meta Pixel
HenryHenry
7 min read
1243 كلمات

النماذج العالمية: الحدود الجديدة في توليد الفيديو بالذكاء الاصطناعي

لماذا يعيد التحول من توليد الإطارات إلى محاكاة العوالم تشكيل فيديو الذكاء الاصطناعي، وماذا يخبرنا GWM-1 من Runway عن الوجهة المستقبلية لهذه التقنية.

النماذج العالمية: الحدود الجديدة في توليد الفيديو بالذكاء الاصطناعي

لسنوات طويلة، كان توليد الفيديو بالذكاء الاصطناعي يعني التنبؤ بالبكسلات إطارًا تلو الآخر. والآن، تتجه الصناعة نحو شيء أكثر طموحًا بكثير: محاكاة عوالم كاملة. يمثل إصدار Runway لنموذج GWM-1 بداية هذا التحول، والآثار المترتبة عليه عميقة.

من الإطارات إلى العوالم

تعمل نماذج توليد الفيديو التقليدية مثل فناني دفاتر الصور المتحركة المتطورين. فهي تتنبأ بشكل الإطار التالي بناءً على الإطارات السابقة، موجهةً بالنص الذي تقدمه. إنها تعمل، لكن لديها قيود أساسية.

💡

يعرف متنبئ الإطارات كيف تبدو النار. أما النموذج العالمي فيعرف ما تفعله النار: إنها تنتشر، وتستهلك الوقود، وتلقي ظلالًا راقصة، وتنبعث منها حرارة تشوه الهواء فوقها.

تتبع النماذج العالمية نهجًا مختلفًا. بدلاً من السؤال "كيف يجب أن يبدو الإطار التالي؟"، تسأل "كيف تتصرف هذه البيئة؟" قد يبدو الفارق دقيقًا، لكنه يغير كل شيء.

عندما تطلب من متنبئ الإطارات توليد كرة تتدحرج على تل، فإنه يقرّب كيف قد يبدو ذلك بناءً على بيانات التدريب. وعندما تطلب من النموذج العالمي الشيء نفسه، فإنه يحاكي الفيزياء: الجاذبية تسرّع الكرة، والاحتكاك مع العشب يبطئها، والزخم يحملها إلى المنحدر المقابل.

ما يفعله GWM-1 من Runway فعليًا

أصدرت Runway نموذج GWM-1 (النموذج العالمي العام 1) في ديسمبر 2025، وهو يمثل خطوتهم العامة الأولى نحو محاكاة العالم. ينشئ النموذج ما يسمونه "بيئات محاكاة ديناميكية"، أنظمة تفهم ليس فقط كيف تبدو الأشياء، بل كيف تتطور عبر الزمن.

1,247
نقاط إيلو (Gen-4.5)
#1
ترتيب Video Arena
100
حجم فريق Runway

التوقيت مهم. جاء هذا الإصدار جنبًا إلى جنب مع وصول Gen-4.5 إلى المركز الأول في Video Arena، مما دفع OpenAI Sora 2 إلى المركز الرابع. هذه ليست إنجازات منفصلة. من المحتمل أن تحسينات Gen-4.5 في الدقة الفيزيائية، حيث تتحرك الأجسام بوزن وزخم وقوة واقعية، تنبع من أبحاث النماذج العالمية التي أثّرت على بنيتها المعمارية.

🌍

التنبؤ بالإطارات مقابل محاكاة العالم

التنبؤ بالإطارات: "كرة على العشب" ← مطابقة الأنماط من بيانات التدريب. محاكاة العالم: "كرة على العشب" ← محرك الفيزياء يحدد المسار، والاحتكاك، والارتداد.

لماذا يغير هذا كل شيء

1. فيزياء تعمل فعليًا

تكافح نماذج الفيديو الحالية مع الفيزياء لأنها رأت الفيزياء فقط، ولم تختبرها أبدًا. إنها تعرف أن الجسم المُسقَط يسقط، لكنها تقرّب المسار بدلاً من حسابه. النماذج العالمية تقلب هذه العلاقة.

التنبؤ بالإطارات

يقرّب الفيزياء من الأنماط البصرية. قد تتدحرج كرة بلياردو عبر كرة أخرى لأن النموذج لم يتعلم أبدًا التصادم الصلب للأجسام.

محاكاة العالم

يحاكي قواعد الفيزياء. يتم حساب الكشف عن التصادم، ونقل الزخم، والاحتكاك، وليس تخمينها.

هذا هو السبب في أن محاكاة الفيزياء في Sora 2 أثارت إعجاب الناس: استثمرت OpenAI بشكل كبير في الفهم الفيزيائي. النماذج العالمية ترسّخ هذا النهج.

2. تماسك زمني بدون حيل

كانت أكبر نقطة ألم في فيديو الذكاء الاصطناعي هي الاتساق عبر الزمن. تتغير مظاهر الشخصيات، وتنتقل الأجسام فوريًا، وتتحول البيئات بشكل عشوائي. لقد استكشفنا كيف تتعلم النماذج تذكر الوجوه من خلال ابتكارات معمارية مثل الانتباه عبر الإطارات.

تقدم النماذج العالمية حلًا أكثر أناقة: إذا تتبعت المحاكاة الكيانات ككائنات دائمة في فضاء افتراضي، فلا يمكنها أن تتغير أو تختفي بشكل عشوائي. الكرة موجودة في العالم المحاكى. لها خصائص (الحجم، واللون، والموقع، والسرعة) تستمر حتى يغيّرها شيء ما في المحاكاة.

3. أصبحت مقاطع الفيديو الأطول ممكنة

تتدهور النماذج الحالية بمرور الوقت. يدفع الانتشار ثنائي الاتجاه من CraftStory نحو مقاطع فيديو مدتها 5 دقائق من خلال السماح للإطارات اللاحقة بالتأثير على الإطارات السابقة. تتعامل النماذج العالمية مع نفس المشكلة بشكل مختلف: إذا كانت المحاكاة مستقرة، يمكنك تشغيلها طالما تريد.

2024

ثوانٍ

فيديو الذكاء الاصطناعي القياسي: 4-8 ثوانٍ قبل انهيار الجودة

أوائل 2025

دقائق

تقنيات متخصصة تمكّن مقاطع فيديو من 1-5 دقائق

أواخر 2025

غير محدود؟

النماذج العالمية تفصل المدة عن البنية المعمارية

العائق (هناك دائمًا عائق)

تبدو النماذج العالمية وكأنها الحل لكل مشكلة في توليد الفيديو. لكنها ليست كذلك، على الأقل ليس بعد.

⚠️

فحص الواقع: النماذج العالمية الحالية تحاكي فيزياء منمّقة، وليس فيزياء دقيقة. إنها تفهم أن الأشياء المُسقَطة تسقط، وليس المعادلات الدقيقة للحركة.

التكلفة الحسابية

محاكاة العالم مكلفة. يمكن تشغيل التنبؤ بالإطارات على وحدات معالجة الرسوميات الاستهلاكية بفضل العمل من مشاريع مثل LTX-2. تتطلب محاكاة العالم الحفاظ على الحالة، وتتبع الأجسام، وتشغيل حسابات الفيزياء. هذا يرفع متطلبات الأجهزة بشكل كبير.

تعلم قواعد العالم صعب

تعليم النموذج كيف تبدو الأشياء أمر واضح ومباشر: أظهر له ملايين الأمثلة. أما تعليم النموذج كيف يعمل العالم فأمر أكثر غموضًا. الفيزياء قابلة للتعلم من بيانات الفيديو، لكن إلى حد ما فقط. يرى النموذج أن الأجسام المُسقَطة تسقط، لكنه لا يمكنه استنتاج ثوابت الجاذبية من مشاهدة المشاهد.

المستقبل الهجين: يتوقع معظم الباحثين أن تجمع النماذج العالمية بين تقريبات الفيزياء المتعلّمة وقواعد المحاكاة الصريحة، للحصول على أفضل ما في النهجين.

أسئلة التحكم الإبداعي

إذا كان النموذج يحاكي الفيزياء، فمن يقرر أي فيزياء؟ في بعض الأحيان تريد جاذبية واقعية. وفي أحيان أخرى تريد أن تطفو شخصياتك. تحتاج النماذج العالمية إلى آليات لتجاوز محاكاتها عندما يريد المبدعون نتائج غير واقعية.

إلى أين تتجه الصناعة

Runway ليست وحدها في هذا الاتجاه. كانت الأوراق البحثية المعمارية وراء محولات الانتشار تلمّح إلى هذا التحول لشهور. كان السؤال دائمًا متى، وليس إذا.

يحدث بالفعل

  • إصدار Runway GWM-1
  • Gen-4.5 يُظهر توليدًا مُستنيرًا بالفيزياء
  • انتشار الأوراق البحثية
  • برامج الوصول المبكر للمؤسسات

قريبًا

  • تطبيقات نماذج عالمية مفتوحة المصدر
  • بنى معمارية هجينة للإطارات/العالم
  • نماذج عالمية متخصصة (فيزياء، أحياء، طقس)
  • محاكاة العالم في الوقت الفعلي

الاهتمام من المؤسسات له دلالة. منحت Runway وصولًا مبكرًا لـ Ubisoft، واستثمرت Disney مليار دولار مع OpenAI لتكامل Sora. هذه ليست شركات مهتمة بتوليد مقاطع سريعة لوسائل التواصل الاجتماعي. إنها تريد ذكاءً اصطناعيًا يمكنه محاكاة بيئات الألعاب، وتوليد شخصيات متحركة متسقة، وإنتاج محتوى يصمد أمام التدقيق الاحترافي.

ماذا يعني هذا للمبدعين

  • سيتحسن اتساق الفيديو بشكل كبير
  • يصبح المحتوى الثقيل فيزيائيًا قابلًا للتطبيق
  • توليدات أطول بدون انهيار الجودة
  • ستكون التكاليف في البداية أعلى من التنبؤ بالإطارات
  • آليات التحكم الإبداعي لا تزال تتطور

إذا كنت تنتج فيديو ذكاء اصطناعي اليوم، فإن النماذج العالمية ليست شيئًا تحتاج إلى اعتماده فورًا. لكنها شيء يستحق المتابعة. المقارنة بين Sora 2 وRunway وVeo 3 التي نشرناها في وقت سابق من هذا العام ستحتاج إلى تحديث مع نشر قدرات النماذج العالمية عبر هذه المنصات.

للاستخدام العملي الآن، تهم الفروقات لحالات استخدام محددة:

  • تصور المنتج: ستتفوق النماذج العالمية هنا. فيزياء دقيقة للأجسام التي تتفاعل مع بعضها البعض.
  • الفن التجريدي: قد يكون التنبؤ بالإطارات في الواقع أفضل. تريد مخرجات بصرية غير متوقعة، وليس واقعًا محاكى.
  • رسوم الشخصيات المتحركة: النماذج العالمية بالإضافة إلى تقنيات الحفاظ على الهوية قد تحل أخيرًا مشكلة الاتساق.

الصورة الأكبر

تمثل النماذج العالمية نضوج فيديو الذكاء الاصطناعي. كان التنبؤ بالإطارات كافيًا لتوليد مقاطع قصيرة، وغرائب بصرية، وعروض توضيحية للمفهوم. محاكاة العالم هي ما تحتاجه للعمل الإنتاجي الحقيقي، حيث يجب أن يكون المحتوى متسقًا، ومقبولًا فيزيائيًا، وقابلًا للتوسع.

💡

حافظ على المنظور: نحن في مرحلة GWM-1، أي ما يعادل GPT-1 لمحاكاة العالم. ستكون الفجوة بين هذا وGWM-4 هائلة، تمامًا كما حوّلت الفجوة بين GPT-1 وGPT-4 الذكاء الاصطناعي اللغوي.

تغلب Runway على Google وOpenAI في المعايير القياسية بفريق من 100 شخص يخبرنا بشيء مهم: النهج المعماري الصحيح أهم من الموارد. قد تكون النماذج العالمية ذلك النهج. إذا نجحت رهان Runway، فستكون قد حددت الجيل القادم من الذكاء الاصطناعي للفيديو.

وإذا أصبحت محاكاة الفيزياء جيدة بما فيه الكفاية؟ لن نولد الفيديو فحسب. إننا نبني عوالم افتراضية، محاكاة واحدة في كل مرة.

💡

قراءة ذات صلة: لمزيد من المعلومات حول الأسس التقنية التي تمكّن هذا التحول، راجع غوصنا العميق في محولات الانتشار. للمقارنات الحالية للأدوات، تحقق من Sora 2 مقابل Runway مقابل Veo 3.

هل كان هذا المقال مفيداً؟

Henry

Henry

متخصص تكنولوجيا إبداعية

متخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

Snapchat Animate It: توليد الفيديو بالذكاء الاصطناعي يصل إلى وسائل التواصل الاجتماعي
فيديو الذكاء الاصطناعيسناب شات

Snapchat Animate It: توليد الفيديو بالذكاء الاصطناعي يصل إلى وسائل التواصل الاجتماعي

أطلقت Snapchat مؤخراً Animate It، وهي أول أداة لتوليد الفيديو بالذكاء الاصطناعي مفتوحة المطالبات مدمجة في منصة اجتماعية رئيسية. مع 400 مليون مستخدم يومي، لم يعد الفيديو بالذكاء الاصطناعي مقتصراً على المبدعين فحسب.

Read
فيديو الذكاء الاصطناعي 2025: العام الذي تغير فيه كل شيء
فيديو الذكاء الاصطناعيمراجعة سنوية

فيديو الذكاء الاصطناعي 2025: العام الذي تغير فيه كل شيء

من Sora 2 إلى الصوت الأصلي، ومن صفقات ديزني بمليارات الدولارات إلى فرق من 100 شخص تتفوق على عمالقة بتريليونات الدولارات، كان عام 2025 هو العام الذي أصبح فيه فيديو الذكاء الاصطناعي حقيقة. إليكم ما حدث وما يعنيه ذلك.

Read
اتساق الشخصيات في فيديو الذكاء الاصطناعي: كيف تتعلم النماذج تذكر الوجوه
فيديو الذكاء الاصطناعياتساق الشخصيات

اتساق الشخصيات في فيديو الذكاء الاصطناعي: كيف تتعلم النماذج تذكر الوجوه

غوص تقني عميق في الابتكارات المعمارية التي تمكّن نماذج فيديو الذكاء الاصطناعي من الحفاظ على هوية الشخصية عبر اللقطات، من آليات الانتباه إلى التضمينات الحافظة للهوية.

Read

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

النماذج العالمية: الحدود الجديدة في توليد الفيديو بالذكاء الاصطناعي