محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع

لسنوات عديدة, عانت مقاطع الفيديو المُنتَجة بالذكاء الاصطناعي من مشكلة فيزيائية جوهرية. كانت كرات السلة تخطئ الطوق ثم تتنقل آنياً إلى داخله. كان الماء يتدفق نحو الأعلى. وكانت الأجسام تمر عبر بعضها البعض كالأشباح. في عام 2025 ومطلع 2026, تغير شيء جذري. الجيل الأحدث من نماذج الفيديو تعلم احترام القوانين الأساسية للعالم المادي.

مشكلة كرة السلة

وصفتها OpenAI وصفاً دقيقاً عند إطلاق Sora 2: في النماذج السابقة, إذا أخطأت كرة السلة الطوق, كانت ببساطة تتجسد داخل الشبكة على أي حال. كان النموذج يعرف النتيجة السردية (الكرة تدخل السلة) لكنه لم يملك أي مفهوم للقيود الفيزيائية التي يجب أن تحكم الرحلة.

لم تكن هذه مجرد خلل بسيط. كانت عرَضاً لقصور معماري جوهري. نماذج توليد الفيديو المبكرة تفوقت في مطابقة الأنماط البصرية, متعلمةً توليد إطارات تبدو معقولة بشكل فردي بينما تظل غير متسقة فيزيائياً عند مشاهدتها في تسلسل.

💡

أدرجت OpenAI صراحةً قيود "تحويل الكائن" كمشكلة رئيسية صُمم Sora 2 لحلها. هذه الفجوة المعمارية أحبطت الباحثين والمبدعين على حد سواء.

الركائز الثلاث للفهم الفيزيائي

يرتكز الاختراق في محاكاة الفيزياء على ثلاثة تطورات مترابطة: نمذجة العالم, والتفكير التسلسلي, وآليات الانتباه الزمني المحسّنة.

نماذج العالم مقابل التنبؤ بالإطارات

عاملت توليد الفيديو التقليدي المهمة كتنبؤ متسلسل بالإطارات: بمعطى الإطارات من 1 إلى N, تنبأ بالإطار N+1. هذا النهج يعاني بطبيعته مع الفيزياء لأنه لا يملك تمثيلاً صريحاً للحالة الفيزيائية الأساسية.

نماذج العالم تتخذ نهجاً مختلفاً جذرياً. بدلاً من التنبؤ بالبكسلات مباشرة, تبني أولاً تمثيلاً داخلياً للحالة الفيزيائية للمشهد, بما في ذلك مواقع الأجسام وسرعاتها وموادها وتفاعلاتها. عندها فقط تُصيّر هذه الحالة إلى إطارات مرئية. هذا النهج, الذي استُكشف بعمق في تحليلنا لنماذج العالم, يمثل نقلة نوعية في كيفية تفكيرنا في توليد الفيديو.

✗التنبؤ بالإطارات

يتنبأ بالبكسلات من البكسلات. لا فيزياء صريحة. عرضة للتنقل الآني وأخطاء المرور عبر الأجسام وانتهاكات الجاذبية. سريع لكن غير متسق فيزيائياً.

✓نماذج العالم

تحاكي الحالة الفيزيائية أولاً. تتبع صريح للأجسام. تحترم قوانين الحفظ وديناميكيات التصادم. أثقل حسابياً لكن مؤسسة فيزيائياً.

سلسلة التفكير للفيديو

قدم Kling O1, الذي صدر في أواخر 2025, التفكير التسلسلي لتوليد الفيديو. قبل توليد الإطارات, يفكر النموذج صراحةً فيما يجب أن يحدث فيزيائياً في المشهد.

لمشهد كوب يسقط من على الطاولة, يفكر النموذج أولاً:

الكوب له سرعة ابتدائية صفر, موقعه على حافة الطاولة
الجاذبية تُسرّع الكوب نحو الأسفل بمقدار 9.8 م/ث²
الكوب يلامس الأرض بعد حوالي 0.45 ثانية
مادة الكوب هشة, الأرضية سطح صلب
الصدمة تتجاوز عتبة الكسر, الكوب يتحطم
الشظايا تتناثر مع حفظ الزخم

خطوة التفكير الصريحة هذه تحدث في الفضاء الكامن للنموذج قبل توليد أي بكسلات. النتيجة هي فيديو يحترم ليس فقط الجماليات البصرية بل السلاسل السببية.

الانتباه الزمني على نطاق واسع

الأساس المعماري الذي يمكّن هذه التطورات هو الانتباه الزمني, الآلية التي تحافظ بها نماذج الفيديو على الاتساق عبر الإطارات. بنية محول الانتشار التي تشغّل نماذج الفيديو الحديثة تعالج الفيديو كرقع زمكانية, مما يسمح للانتباه بالتدفق مكانياً داخل الإطارات وزمنياً عبرها.

نماذج الفيديو الحديثة تعالج ملايين الرقع الزمكانية لكل فيديو, مع رؤوس انتباه متخصصة مكرسة للاتساق الفيزيائي. هذا الحجم يسمح للنماذج بتتبع هوية الجسم وحالته الفيزيائية عبر مئات الإطارات, محافظةً على تماسك كان مستحيلاً مع البنى السابقة.

معايير الفيزياء في العالم الحقيقي

كيف نقيس فعلياً جودة محاكاة الفيزياء؟ طور المجال عدة اختبارات موحدة:

المعيار	يختبر	الرواد
دوام الأجسام	الأجسام تستمر عند حجبها	Sora 2, Veo 3
اتساق الجاذبية	تسارع السقوط الحر منتظم	Kling O1, Runway Gen-4.5
واقعية التصادم	الأجسام ترتد أو تتشوه أو تنكسر بشكل مناسب	Sora 2, Veo 3.1
ديناميكيات الموائع	الماء والدخان والقماش يُحاكون بواقعية	Kling 2.6
حفظ الزخم	الحركة تنتقل بشكل صحيح بين الأجسام	Sora 2

نماذج Kling تفوقت باستمرار في ديناميكيات الموائع, مع محاكاة مائية وفيزياء قماشية مذهلة بشكل خاص. Sora 2 من OpenAI يتصدر في واقعية التصادم وحفظ الزخم, معالجاً التفاعلات المعقدة متعددة الأجسام بدقة مثيرة للإعجاب.

💡

لمحاكاة الماء والدخان والقماش, نماذج Kling تقدم حالياً الفيزياء الأكثر واقعية. للتصادمات المعقدة متعددة الأجسام والسيناريوهات الرياضية, Sora 2 هو الخيار الأقوى.

اختبار لاعب الجمباز

أحد أكثر معايير الفيزياء تطلباً يتضمن الجمباز الأولمبي. لاعب الجمباز المتدحرج يخضع لديناميكيات دورانية معقدة: حفظ الزخم الزاوي, عزم القصور الذاتي المتغير مع امتداد وانقباض الأطراف, والتوقيت الدقيق لتطبيق القوة في الانطلاق والهبوط.

نماذج الفيديو المبكرة كانت تولد إطارات فردية مذهلة للاعبي الجمباز في الهواء لكنها تفشل فشلاً ذريعاً في الفيزياء. كانت الدورات تتسارع أو تتباطأ عشوائياً. كانت عمليات الهبوط تحدث في مواقع مستحيلة. وكان الجسم يتشوه بطرق تنتهك القيود التشريحية.

Sora 2 أبرز صراحةً الجمباز الأولمبي كمعيار يعالجه الآن بشكل صحيح. النموذج يتتبع الزخم الزاوي للاعب الجمباز عبر الروتين بأكمله, مُسرّعاً الدوران عند انسحاب الأطراف (تأثير دوران المتزلج على الجليد) ومُبطّئاً عند امتدادها.

فهم المواد

محاكاة الفيزياء تمتد إلى ما وراء الحركة لتشمل خصائص المواد. كيف يعرف النموذج أن الزجاج يتحطم بينما المطاط يرتد؟ أن الماء يتناثر بينما الزيت يتجمع؟ أن المعدن يتشوه بلاستيكياً بينما الخشب ينكسر؟

الإجابة تكمن في بيانات التدريب والمسبقات المتعلمة للنموذج. بالتدريب على ملايين الفيديوهات التي تُظهر المواد تتفاعل مع العالم, تطور النماذج فهماً ضمنياً للمواد. كوب يسقط على الخرسانة ينتج نتيجة مختلفة عن كوب يسقط على السجاد, والنماذج الحديثة تلتقط هذا التمييز.

🧱

تصنيف المواد

النماذج الآن تصنف ضمنياً الأجسام حسب خصائص المواد: هش مقابل مطيل, مرن مقابل بلاستيكي, قابل للانضغاط مقابل غير قابل للانضغاط.

💨

أنواع الموائع

لزوجات السوائل المختلفة والتوترات السطحية تُعالج بشكل صحيح: الماء يتناثر, العسل يسيل, الدخان يتصاعد.

🔥

فيزياء الاحتراق

النار والانفجارات تتبع انتشار حرارة واقعي وديناميكيات غازية بدلاً من تأثيرات جسيمات بسيطة.

القيود والحالات الحدية

رغم هذه التطورات, تظل محاكاة الفيزياء في فيديو الذكاء الاصطناعي غير مثالية. عدة قيود معروفة تستمر:

الاستقرار طويل المدى: تظل الفيزياء دقيقة لمدة 5-10 ثوانٍ لكنها قد تنحرف على فترات أطول. الفيديوهات الممتدة قد تنتهك قوانين الحفظ تدريجياً.

الأنظمة المعقدة متعددة الأجسام: بينما يعمل تصادم جسمين بشكل جيد, المشاهد التي تحتوي عشرات الأجسام المتفاعلة (مثل برج جينغا يسقط) قد تنتج أخطاء.

المواد غير المألوفة: تحيزات بيانات التدريب تعني أن المواد الشائعة (الماء, الزجاج, المعدن) تُحاكى أفضل من المواد الغريبة (السوائل غير النيوتونية, المواد المغناطيسية).

الظروف القصوى: الفيزياء على مقاييس صغيرة جداً (جزيئية), أو كبيرة جداً (فلكية), أو ظروف قصوى (قرب سرعة الضوء) غالباً ما تفشل.

⚠️

تتدهور دقة محاكاة الفيزياء بشكل ملحوظ للفيديوهات الأطول من 30 ثانية. للمحتوى الطويل, فكر في استخدام تقنيات تمديد الفيديو مع الانتباه الدقيق للاستمرارية الفيزيائية عند الحدود.

التأثيرات على المبدعين

ماذا تعني محاكاة الفيزياء المحسنة لمبدعي الفيديو؟

أولاً, تقلل بشكل كبير الحاجة لإصلاحات ما بعد الإنتاج. المشاهد التي كانت تتطلب سابقاً تحريراً دقيقاً لتصحيح الاستحالات الفيزيائية تُولَّد الآن بشكل صحيح من المرة الأولى.

ثانياً, تمكّن إمكانيات إبداعية جديدة. محاكاة الفيزياء الدقيقة تعني أن آلات روب غولدبرغ, ومقاطع الرياضة, ومشاهد الحركة يمكن توليدها دون تصحيح يدوي شاق.

ثالثاً, تحسن إدراك المشاهد. المشاهدون يكتشفون لا شعورياً انتهاكات الفيزياء, مما يجعل الفيديوهات الدقيقة فيزيائياً تبدو أكثر واقعية حتى عندما يصعب التعبير عن الفرق.

الطريق أمامنا

ستستمر محاكاة الفيزياء في التحسن على عدة محاور:

اتساق زمني أطول: النماذج الحالية تحافظ على الفيزياء لثوانٍ, النماذج المستقبلية ستحافظ عليها لدقائق.

تفاعلات أكثر تعقيداً: المشاهد التي تحتوي مئات الأجسام المتفاعلة ستصبح ممكنة.

محركات فيزياء متعلمة: بدلاً من الفيزياء الضمنية من بيانات التدريب, النماذج المستقبلية قد تدمج محاكاة فيزيائية صريحة كمكون.

فيزياء الوقت الحقيقي: حالياً التوليد الواعي بالفيزياء بطيء, لكن التحسين يمكن أن يمكّن التوليد في الوقت الحقيقي مع الدقة الفيزيائية.

الرحلة من كرات السلة المتنقلة آنياً إلى الارتدادات الواقعية تمثل أحد أهم التطورات في توليد فيديو الذكاء الاصطناعي. النماذج تعلمت, إن لم يكن فهم الفيزياء بالطريقة التي يفهمها البشر, على الأقل احترام قيودها. للمبدعين, هذا يعني تصحيحات أقل, وإمكانيات أكثر, وفيديوهات تبدو ببساطة أكثر واقعية.

جربه بنفسك: Bonega.ai يستخدم Veo 3, الذي يدمج محاكاة فيزيائية متقدمة لديناميكيات أجسام واقعية. ولّد مشاهد بفيزياء معقدة وانظر كيف يتعامل النموذج مع الجاذبية والتصادمات وتفاعلات المواد.

محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع

مشكلة كرة السلة

الركائز الثلاث للفهم الفيزيائي

نماذج العالم مقابل التنبؤ بالإطارات

سلسلة التفكير للفيديو

الانتباه الزمني على نطاق واسع

معايير الفيزياء في العالم الحقيقي

اختبار لاعب الجمباز

فهم المواد

تصنيف المواد

أنواع الموائع

فيزياء الاحتراق

القيود والحالات الحدية

التأثيرات على المبدعين

الطريق أمامنا

Alexis

Like what you read?

مقالات ذات صلة

نماذج العالم بعد الفيديو: لماذا الألعاب والروبوتات هي ساحات الاختبار الحقيقية للذكاء العام

سباق الفيديو الذكي يشتد: OpenAI و Google و Kuaishou تتنافس على الهيمنة في 2026

Runway Gen-4.5 على NVIDIA Rubin: مستقبل فيديو الذكاء الاصطناعي هنا

هل استمتعت بقراءة هذا المقال؟