محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع
من كرات السلة التي تتنقل آنياً إلى الارتدادات الواقعية, نماذج فيديو الذكاء الاصطناعي الآن تفهم الجاذبية والزخم وديناميكيات المواد. نستكشف الاختراقات التقنية التي جعلت هذا ممكناً.

لسنوات عديدة, عانت مقاطع الفيديو المُنتَجة بالذكاء الاصطناعي من مشكلة فيزيائية جوهرية. كانت كرات السلة تخطئ الطوق ثم تتنقل آنياً إلى داخله. كان الماء يتدفق نحو الأعلى. وكانت الأجسام تمر عبر بعضها البعض كالأشباح. في عام 2025 ومطلع 2026, تغير شيء جذري. الجيل الأحدث من نماذج الفيديو تعلم احترام القوانين الأساسية للعالم المادي.
مشكلة كرة السلة
وصفتها OpenAI وصفاً دقيقاً عند إطلاق Sora 2: في النماذج السابقة, إذا أخطأت كرة السلة الطوق, كانت ببساطة تتجسد داخل الشبكة على أي حال. كان النموذج يعرف النتيجة السردية (الكرة تدخل السلة) لكنه لم يملك أي مفهوم للقيود الفيزيائية التي يجب أن تحكم الرحلة.
لم تكن هذه مجرد خلل بسيط. كانت عرَضاً لقصور معماري جوهري. نماذج توليد الفيديو المبكرة تفوقت في مطابقة الأنماط البصرية, متعلمةً توليد إطارات تبدو معقولة بشكل فردي بينما تظل غير متسقة فيزيائياً عند مشاهدتها في تسلسل.
أدرجت OpenAI صراحةً قيود "تحويل الكائن" كمشكلة رئيسية صُمم Sora 2 لحلها. هذه الفجوة المعمارية أحبطت الباحثين والمبدعين على حد سواء.
الركائز الثلاث للفهم الفيزيائي
يرتكز الاختراق في محاكاة الفيزياء على ثلاثة تطورات مترابطة: نمذجة العالم, والتفكير التسلسلي, وآليات الانتباه الزمني المحسّنة.
نماذج العالم مقابل التنبؤ بالإطارات
عاملت توليد الفيديو التقليدي المهمة كتنبؤ متسلسل بالإطارات: بمعطى الإطارات من 1 إلى N, تنبأ بالإطار N+1. هذا النهج يعاني بطبيعته مع الفيزياء لأنه لا يملك تمثيلاً صريحاً للحالة الفيزيائية الأساسية.
نماذج العالم تتخذ نهجاً مختلفاً جذرياً. بدلاً من التنبؤ بالبكسلات مباشرة, تبني أولاً تمثيلاً داخلياً للحالة الفيزيائية للمشهد, بما في ذلك مواقع الأجسام وسرعاتها وموادها وتفاعلاتها. عندها فقط تُصيّر هذه الحالة إلى إطارات مرئية. هذا النهج, الذي استُكشف بعمق في تحليلنا لنماذج العالم, يمثل نقلة نوعية في كيفية تفكيرنا في توليد الفيديو.
يتنبأ بالبكسلات من البكسلات. لا فيزياء صريحة. عرضة للتنقل الآني وأخطاء المرور عبر الأجسام وانتهاكات الجاذبية. سريع لكن غير متسق فيزيائياً.
تحاكي الحالة الفيزيائية أولاً. تتبع صريح للأجسام. تحترم قوانين الحفظ وديناميكيات التصادم. أثقل حسابياً لكن مؤسسة فيزيائياً.
سلسلة التفكير للفيديو
قدم Kling O1, الذي صدر في أواخر 2025, التفكير التسلسلي لتوليد الفيديو. قبل توليد الإطارات, يفكر النموذج صراحةً فيما يجب أن يحدث فيزيائياً في المشهد.
لمشهد كوب يسقط من على الطاولة, يفكر النموذج أولاً:
- الكوب له سرعة ابتدائية صفر, موقعه على حافة الطاولة
- الجاذبية تُسرّع الكوب نحو الأسفل بمقدار 9.8 م/ث²
- الكوب يلامس الأرض بعد حوالي 0.45 ثانية
- مادة الكوب هشة, الأرضية سطح صلب
- الصدمة تتجاوز عتبة الكسر, الكوب يتحطم
- الشظايا تتناثر مع حفظ الزخم
خطوة التفكير الصريحة هذه تحدث في الفضاء الكامن للنموذج قبل توليد أي بكسلات. النتيجة هي فيديو يحترم ليس فقط الجماليات البصرية بل السلاسل السببية.
الانتباه الزمني على نطاق واسع
الأساس المعماري الذي يمكّن هذه التطورات هو الانتباه الزمني, الآلية التي تحافظ بها نماذج الفيديو على الاتساق عبر الإطارات. بنية محول الانتشار التي تشغّل نماذج الفيديو الحديثة تعالج الفيديو كرقع زمكانية, مما يسمح للانتباه بالتدفق مكانياً داخل الإطارات وزمنياً عبرها.
نماذج الفيديو الحديثة تعالج ملايين الرقع الزمكانية لكل فيديو, مع رؤوس انتباه متخصصة مكرسة للاتساق الفيزيائي. هذا الحجم يسمح للنماذج بتتبع هوية الجسم وحالته الفيزيائية عبر مئات الإطارات, محافظةً على تماسك كان مستحيلاً مع البنى السابقة.
معايير الفيزياء في العالم الحقيقي
كيف نقيس فعلياً جودة محاكاة الفيزياء؟ طور المجال عدة اختبارات موحدة:
| المعيار | يختبر | الرواد |
|---|---|---|
| دوام الأجسام | الأجسام تستمر عند حجبها | Sora 2, Veo 3 |
| اتساق الجاذبية | تسارع السقوط الحر منتظم | Kling O1, Runway Gen-4.5 |
| واقعية التصادم | الأجسام ترتد أو تتشوه أو تنكسر بشكل مناسب | Sora 2, Veo 3.1 |
| ديناميكيات الموائع | الماء والدخان والقماش يُحاكون بواقعية | Kling 2.6 |
| حفظ الزخم | الحركة تنتقل بشكل صحيح بين الأجسام | Sora 2 |
نماذج Kling تفوقت باستمرار في ديناميكيات الموائع, مع محاكاة مائية وفيزياء قماشية مذهلة بشكل خاص. Sora 2 من OpenAI يتصدر في واقعية التصادم وحفظ الزخم, معالجاً التفاعلات المعقدة متعددة الأجسام بدقة مثيرة للإعجاب.
لمحاكاة الماء والدخان والقماش, نماذج Kling تقدم حالياً الفيزياء الأكثر واقعية. للتصادمات المعقدة متعددة الأجسام والسيناريوهات الرياضية, Sora 2 هو الخيار الأقوى.
اختبار لاعب الجمباز
أحد أكثر معايير الفيزياء تطلباً يتضمن الجمباز الأولمبي. لاعب الجمباز المتدحرج يخضع لديناميكيات دورانية معقدة: حفظ الزخم الزاوي, عزم القصور الذاتي المتغير مع امتداد وانقباض الأطراف, والتوقيت الدقيق لتطبيق القوة في الانطلاق والهبوط.
نماذج الفيديو المبكرة كانت تولد إطارات فردية مذهلة للاعبي الجمباز في الهواء لكنها تفشل فشلاً ذريعاً في الفيزياء. كانت الدورات تتسارع أو تتباطأ عشوائياً. كانت عمليات الهبوط تحدث في مواقع مستحيلة. وكان الجسم يتشوه بطرق تنتهك القيود التشريحية.
Sora 2 أبرز صراحةً الجمباز الأولمبي كمعيار يعالجه الآن بشكل صحيح. النموذج يتتبع الزخم الزاوي للاعب الجمباز عبر الروتين بأكمله, مُسرّعاً الدوران عند انسحاب الأطراف (تأثير دوران المتزلج على الجليد) ومُبطّئاً عند امتدادها.
فهم المواد
محاكاة الفيزياء تمتد إلى ما وراء الحركة لتشمل خصائص المواد. كيف يعرف النموذج أن الزجاج يتحطم بينما المطاط يرتد؟ أن الماء يتناثر بينما الزيت يتجمع؟ أن المعدن يتشوه بلاستيكياً بينما الخشب ينكسر؟
الإجابة تكمن في بيانات التدريب والمسبقات المتعلمة للنموذج. بالتدريب على ملايين الفيديوهات التي تُظهر المواد تتفاعل مع العالم, تطور النماذج فهماً ضمنياً للمواد. كوب يسقط على الخرسانة ينتج نتيجة مختلفة عن كوب يسقط على السجاد, والنماذج الحديثة تلتقط هذا التمييز.
تصنيف المواد
النماذج الآن تصنف ضمنياً الأجسام حسب خصائص المواد: هش مقابل مطيل, مرن مقابل بلاستيكي, قابل للانضغاط مقابل غير قابل للانضغاط.
أنواع الموائع
لزوجات السوائل المختلفة والتوترات السطحية تُعالج بشكل صحيح: الماء يتناثر, العسل يسيل, الدخان يتصاعد.
فيزياء الاحتراق
النار والانفجارات تتبع انتشار حرارة واقعي وديناميكيات غازية بدلاً من تأثيرات جسيمات بسيطة.
القيود والحالات الحدية
رغم هذه التطورات, تظل محاكاة الفيزياء في فيديو الذكاء الاصطناعي غير مثالية. عدة قيود معروفة تستمر:
الاستقرار طويل المدى: تظل الفيزياء دقيقة لمدة 5-10 ثوانٍ لكنها قد تنحرف على فترات أطول. الفيديوهات الممتدة قد تنتهك قوانين الحفظ تدريجياً.
الأنظمة المعقدة متعددة الأجسام: بينما يعمل تصادم جسمين بشكل جيد, المشاهد التي تحتوي عشرات الأجسام المتفاعلة (مثل برج جينغا يسقط) قد تنتج أخطاء.
المواد غير المألوفة: تحيزات بيانات التدريب تعني أن المواد الشائعة (الماء, الزجاج, المعدن) تُحاكى أفضل من المواد الغريبة (السوائل غير النيوتونية, المواد المغناطيسية).
الظروف القصوى: الفيزياء على مقاييس صغيرة جداً (جزيئية), أو كبيرة جداً (فلكية), أو ظروف قصوى (قرب سرعة الضوء) غالباً ما تفشل.
تتدهور دقة محاكاة الفيزياء بشكل ملحوظ للفيديوهات الأطول من 30 ثانية. للمحتوى الطويل, فكر في استخدام تقنيات تمديد الفيديو مع الانتباه الدقيق للاستمرارية الفيزيائية عند الحدود.
التأثيرات على المبدعين
ماذا تعني محاكاة الفيزياء المحسنة لمبدعي الفيديو؟
أولاً, تقلل بشكل كبير الحاجة لإصلاحات ما بعد الإنتاج. المشاهد التي كانت تتطلب سابقاً تحريراً دقيقاً لتصحيح الاستحالات الفيزيائية تُولَّد الآن بشكل صحيح من المرة الأولى.
ثانياً, تمكّن إمكانيات إبداعية جديدة. محاكاة الفيزياء الدقيقة تعني أن آلات روب غولدبرغ, ومقاطع الرياضة, ومشاهد الحركة يمكن توليدها دون تصحيح يدوي شاق.
ثالثاً, تحسن إدراك المشاهد. المشاهدون يكتشفون لا شعورياً انتهاكات الفيزياء, مما يجعل الفيديوهات الدقيقة فيزيائياً تبدو أكثر واقعية حتى عندما يصعب التعبير عن الفرق.
الطريق أمامنا
ستستمر محاكاة الفيزياء في التحسن على عدة محاور:
اتساق زمني أطول: النماذج الحالية تحافظ على الفيزياء لثوانٍ, النماذج المستقبلية ستحافظ عليها لدقائق.
تفاعلات أكثر تعقيداً: المشاهد التي تحتوي مئات الأجسام المتفاعلة ستصبح ممكنة.
محركات فيزياء متعلمة: بدلاً من الفيزياء الضمنية من بيانات التدريب, النماذج المستقبلية قد تدمج محاكاة فيزيائية صريحة كمكون.
فيزياء الوقت الحقيقي: حالياً التوليد الواعي بالفيزياء بطيء, لكن التحسين يمكن أن يمكّن التوليد في الوقت الحقيقي مع الدقة الفيزيائية.
الرحلة من كرات السلة المتنقلة آنياً إلى الارتدادات الواقعية تمثل أحد أهم التطورات في توليد فيديو الذكاء الاصطناعي. النماذج تعلمت, إن لم يكن فهم الفيزياء بالطريقة التي يفهمها البشر, على الأقل احترام قيودها. للمبدعين, هذا يعني تصحيحات أقل, وإمكانيات أكثر, وفيديوهات تبدو ببساطة أكثر واقعية.
جربه بنفسك: Bonega.ai يستخدم Veo 3, الذي يدمج محاكاة فيزيائية متقدمة لديناميكيات أجسام واقعية. ولّد مشاهد بفيزياء معقدة وانظر كيف يتعامل النموذج مع الجاذبية والتصادمات وتفاعلات المواد.
هل كان هذا المقال مفيداً؟

Alexis
مهندس ذكاء اصطناعيمهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

نماذج العالم بعد الفيديو: لماذا الألعاب والروبوتات هي ساحات الاختبار الحقيقية للذكاء العام
من نظام Genie من DeepMind إلى AMI Labs، أصبحت نماذج العالم بهدوء أساس الذكاء الاصطناعي الذي يفهم الفيزياء حقاً. قد يكون سوق الألعاب بقيمة 500 مليار دولار هو المكان الذي يثبتون فيه أنفسهم أولاً.

سباق الفيديو الذكي يشتد: OpenAI و Google و Kuaishou تتنافس على الهيمنة في 2026
ثلاث عمالقة تقنية تعيد تشكيل إنتاج الفيديو من خلال صفقات بمليارات الدولارات وميزات ثورية وملايين المستخدمين. إليك كيفية تسارع المنافسة.

Runway Gen-4.5 على NVIDIA Rubin: مستقبل فيديو الذكاء الاصطناعي هنا
تتعاون Runway مع NVIDIA لتشغيل Gen-4.5 على منصة Rubin من الجيل التالي، مما يحدد معايير جديدة لجودة فيديو الذكاء الاصطناعي والسرعة وتوليد الصوت الأصلي.