Meta Pixel
AlexisAlexis
7 min read
1288 كلمات

محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع

من كرات السلة التي تتنقل آنياً إلى الارتدادات الواقعية, نماذج فيديو الذكاء الاصطناعي الآن تفهم الجاذبية والزخم وديناميكيات المواد. نستكشف الاختراقات التقنية التي جعلت هذا ممكناً.

محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

لسنوات عديدة, عانت مقاطع الفيديو المُنتَجة بالذكاء الاصطناعي من مشكلة فيزيائية جوهرية. كانت كرات السلة تخطئ الطوق ثم تتنقل آنياً إلى داخله. كان الماء يتدفق نحو الأعلى. وكانت الأجسام تمر عبر بعضها البعض كالأشباح. في عام 2025 ومطلع 2026, تغير شيء جذري. الجيل الأحدث من نماذج الفيديو تعلم احترام القوانين الأساسية للعالم المادي.

مشكلة كرة السلة

وصفتها OpenAI وصفاً دقيقاً عند إطلاق Sora 2: في النماذج السابقة, إذا أخطأت كرة السلة الطوق, كانت ببساطة تتجسد داخل الشبكة على أي حال. كان النموذج يعرف النتيجة السردية (الكرة تدخل السلة) لكنه لم يملك أي مفهوم للقيود الفيزيائية التي يجب أن تحكم الرحلة.

لم تكن هذه مجرد خلل بسيط. كانت عرَضاً لقصور معماري جوهري. نماذج توليد الفيديو المبكرة تفوقت في مطابقة الأنماط البصرية, متعلمةً توليد إطارات تبدو معقولة بشكل فردي بينما تظل غير متسقة فيزيائياً عند مشاهدتها في تسلسل.

💡

أدرجت OpenAI صراحةً قيود "تحويل الكائن" كمشكلة رئيسية صُمم Sora 2 لحلها. هذه الفجوة المعمارية أحبطت الباحثين والمبدعين على حد سواء.

الركائز الثلاث للفهم الفيزيائي

يرتكز الاختراق في محاكاة الفيزياء على ثلاثة تطورات مترابطة: نمذجة العالم, والتفكير التسلسلي, وآليات الانتباه الزمني المحسّنة.

نماذج العالم مقابل التنبؤ بالإطارات

عاملت توليد الفيديو التقليدي المهمة كتنبؤ متسلسل بالإطارات: بمعطى الإطارات من 1 إلى N, تنبأ بالإطار N+1. هذا النهج يعاني بطبيعته مع الفيزياء لأنه لا يملك تمثيلاً صريحاً للحالة الفيزيائية الأساسية.

نماذج العالم تتخذ نهجاً مختلفاً جذرياً. بدلاً من التنبؤ بالبكسلات مباشرة, تبني أولاً تمثيلاً داخلياً للحالة الفيزيائية للمشهد, بما في ذلك مواقع الأجسام وسرعاتها وموادها وتفاعلاتها. عندها فقط تُصيّر هذه الحالة إلى إطارات مرئية. هذا النهج, الذي استُكشف بعمق في تحليلنا لنماذج العالم, يمثل نقلة نوعية في كيفية تفكيرنا في توليد الفيديو.

التنبؤ بالإطارات

يتنبأ بالبكسلات من البكسلات. لا فيزياء صريحة. عرضة للتنقل الآني وأخطاء المرور عبر الأجسام وانتهاكات الجاذبية. سريع لكن غير متسق فيزيائياً.

نماذج العالم

تحاكي الحالة الفيزيائية أولاً. تتبع صريح للأجسام. تحترم قوانين الحفظ وديناميكيات التصادم. أثقل حسابياً لكن مؤسسة فيزيائياً.

سلسلة التفكير للفيديو

قدم Kling O1, الذي صدر في أواخر 2025, التفكير التسلسلي لتوليد الفيديو. قبل توليد الإطارات, يفكر النموذج صراحةً فيما يجب أن يحدث فيزيائياً في المشهد.

لمشهد كوب يسقط من على الطاولة, يفكر النموذج أولاً:

  • الكوب له سرعة ابتدائية صفر, موقعه على حافة الطاولة
  • الجاذبية تُسرّع الكوب نحو الأسفل بمقدار 9.8 م/ث²
  • الكوب يلامس الأرض بعد حوالي 0.45 ثانية
  • مادة الكوب هشة, الأرضية سطح صلب
  • الصدمة تتجاوز عتبة الكسر, الكوب يتحطم
  • الشظايا تتناثر مع حفظ الزخم

خطوة التفكير الصريحة هذه تحدث في الفضاء الكامن للنموذج قبل توليد أي بكسلات. النتيجة هي فيديو يحترم ليس فقط الجماليات البصرية بل السلاسل السببية.

الانتباه الزمني على نطاق واسع

الأساس المعماري الذي يمكّن هذه التطورات هو الانتباه الزمني, الآلية التي تحافظ بها نماذج الفيديو على الاتساق عبر الإطارات. بنية محول الانتشار التي تشغّل نماذج الفيديو الحديثة تعالج الفيديو كرقع زمكانية, مما يسمح للانتباه بالتدفق مكانياً داخل الإطارات وزمنياً عبرها.

نماذج الفيديو الحديثة تعالج ملايين الرقع الزمكانية لكل فيديو, مع رؤوس انتباه متخصصة مكرسة للاتساق الفيزيائي. هذا الحجم يسمح للنماذج بتتبع هوية الجسم وحالته الفيزيائية عبر مئات الإطارات, محافظةً على تماسك كان مستحيلاً مع البنى السابقة.

معايير الفيزياء في العالم الحقيقي

كيف نقيس فعلياً جودة محاكاة الفيزياء؟ طور المجال عدة اختبارات موحدة:

المعياريختبرالرواد
دوام الأجسامالأجسام تستمر عند حجبهاSora 2, Veo 3
اتساق الجاذبيةتسارع السقوط الحر منتظمKling O1, Runway Gen-4.5
واقعية التصادمالأجسام ترتد أو تتشوه أو تنكسر بشكل مناسبSora 2, Veo 3.1
ديناميكيات الموائعالماء والدخان والقماش يُحاكون بواقعيةKling 2.6
حفظ الزخمالحركة تنتقل بشكل صحيح بين الأجسامSora 2

نماذج Kling تفوقت باستمرار في ديناميكيات الموائع, مع محاكاة مائية وفيزياء قماشية مذهلة بشكل خاص. Sora 2 من OpenAI يتصدر في واقعية التصادم وحفظ الزخم, معالجاً التفاعلات المعقدة متعددة الأجسام بدقة مثيرة للإعجاب.

💡

لمحاكاة الماء والدخان والقماش, نماذج Kling تقدم حالياً الفيزياء الأكثر واقعية. للتصادمات المعقدة متعددة الأجسام والسيناريوهات الرياضية, Sora 2 هو الخيار الأقوى.

اختبار لاعب الجمباز

أحد أكثر معايير الفيزياء تطلباً يتضمن الجمباز الأولمبي. لاعب الجمباز المتدحرج يخضع لديناميكيات دورانية معقدة: حفظ الزخم الزاوي, عزم القصور الذاتي المتغير مع امتداد وانقباض الأطراف, والتوقيت الدقيق لتطبيق القوة في الانطلاق والهبوط.

نماذج الفيديو المبكرة كانت تولد إطارات فردية مذهلة للاعبي الجمباز في الهواء لكنها تفشل فشلاً ذريعاً في الفيزياء. كانت الدورات تتسارع أو تتباطأ عشوائياً. كانت عمليات الهبوط تحدث في مواقع مستحيلة. وكان الجسم يتشوه بطرق تنتهك القيود التشريحية.

Sora 2 أبرز صراحةً الجمباز الأولمبي كمعيار يعالجه الآن بشكل صحيح. النموذج يتتبع الزخم الزاوي للاعب الجمباز عبر الروتين بأكمله, مُسرّعاً الدوران عند انسحاب الأطراف (تأثير دوران المتزلج على الجليد) ومُبطّئاً عند امتدادها.

فهم المواد

محاكاة الفيزياء تمتد إلى ما وراء الحركة لتشمل خصائص المواد. كيف يعرف النموذج أن الزجاج يتحطم بينما المطاط يرتد؟ أن الماء يتناثر بينما الزيت يتجمع؟ أن المعدن يتشوه بلاستيكياً بينما الخشب ينكسر؟

الإجابة تكمن في بيانات التدريب والمسبقات المتعلمة للنموذج. بالتدريب على ملايين الفيديوهات التي تُظهر المواد تتفاعل مع العالم, تطور النماذج فهماً ضمنياً للمواد. كوب يسقط على الخرسانة ينتج نتيجة مختلفة عن كوب يسقط على السجاد, والنماذج الحديثة تلتقط هذا التمييز.

🧱

تصنيف المواد

النماذج الآن تصنف ضمنياً الأجسام حسب خصائص المواد: هش مقابل مطيل, مرن مقابل بلاستيكي, قابل للانضغاط مقابل غير قابل للانضغاط.

💨

أنواع الموائع

لزوجات السوائل المختلفة والتوترات السطحية تُعالج بشكل صحيح: الماء يتناثر, العسل يسيل, الدخان يتصاعد.

🔥

فيزياء الاحتراق

النار والانفجارات تتبع انتشار حرارة واقعي وديناميكيات غازية بدلاً من تأثيرات جسيمات بسيطة.

القيود والحالات الحدية

رغم هذه التطورات, تظل محاكاة الفيزياء في فيديو الذكاء الاصطناعي غير مثالية. عدة قيود معروفة تستمر:

الاستقرار طويل المدى: تظل الفيزياء دقيقة لمدة 5-10 ثوانٍ لكنها قد تنحرف على فترات أطول. الفيديوهات الممتدة قد تنتهك قوانين الحفظ تدريجياً.

الأنظمة المعقدة متعددة الأجسام: بينما يعمل تصادم جسمين بشكل جيد, المشاهد التي تحتوي عشرات الأجسام المتفاعلة (مثل برج جينغا يسقط) قد تنتج أخطاء.

المواد غير المألوفة: تحيزات بيانات التدريب تعني أن المواد الشائعة (الماء, الزجاج, المعدن) تُحاكى أفضل من المواد الغريبة (السوائل غير النيوتونية, المواد المغناطيسية).

الظروف القصوى: الفيزياء على مقاييس صغيرة جداً (جزيئية), أو كبيرة جداً (فلكية), أو ظروف قصوى (قرب سرعة الضوء) غالباً ما تفشل.

⚠️

تتدهور دقة محاكاة الفيزياء بشكل ملحوظ للفيديوهات الأطول من 30 ثانية. للمحتوى الطويل, فكر في استخدام تقنيات تمديد الفيديو مع الانتباه الدقيق للاستمرارية الفيزيائية عند الحدود.

التأثيرات على المبدعين

ماذا تعني محاكاة الفيزياء المحسنة لمبدعي الفيديو؟

أولاً, تقلل بشكل كبير الحاجة لإصلاحات ما بعد الإنتاج. المشاهد التي كانت تتطلب سابقاً تحريراً دقيقاً لتصحيح الاستحالات الفيزيائية تُولَّد الآن بشكل صحيح من المرة الأولى.

ثانياً, تمكّن إمكانيات إبداعية جديدة. محاكاة الفيزياء الدقيقة تعني أن آلات روب غولدبرغ, ومقاطع الرياضة, ومشاهد الحركة يمكن توليدها دون تصحيح يدوي شاق.

ثالثاً, تحسن إدراك المشاهد. المشاهدون يكتشفون لا شعورياً انتهاكات الفيزياء, مما يجعل الفيديوهات الدقيقة فيزيائياً تبدو أكثر واقعية حتى عندما يصعب التعبير عن الفرق.

الطريق أمامنا

ستستمر محاكاة الفيزياء في التحسن على عدة محاور:

اتساق زمني أطول: النماذج الحالية تحافظ على الفيزياء لثوانٍ, النماذج المستقبلية ستحافظ عليها لدقائق.

تفاعلات أكثر تعقيداً: المشاهد التي تحتوي مئات الأجسام المتفاعلة ستصبح ممكنة.

محركات فيزياء متعلمة: بدلاً من الفيزياء الضمنية من بيانات التدريب, النماذج المستقبلية قد تدمج محاكاة فيزيائية صريحة كمكون.

فيزياء الوقت الحقيقي: حالياً التوليد الواعي بالفيزياء بطيء, لكن التحسين يمكن أن يمكّن التوليد في الوقت الحقيقي مع الدقة الفيزيائية.

الرحلة من كرات السلة المتنقلة آنياً إلى الارتدادات الواقعية تمثل أحد أهم التطورات في توليد فيديو الذكاء الاصطناعي. النماذج تعلمت, إن لم يكن فهم الفيزياء بالطريقة التي يفهمها البشر, على الأقل احترام قيودها. للمبدعين, هذا يعني تصحيحات أقل, وإمكانيات أكثر, وفيديوهات تبدو ببساطة أكثر واقعية.

جربه بنفسك: Bonega.ai يستخدم Veo 3, الذي يدمج محاكاة فيزيائية متقدمة لديناميكيات أجسام واقعية. ولّد مشاهد بفيزياء معقدة وانظر كيف يتعامل النموذج مع الجاذبية والتصادمات وتفاعلات المواد.

هل كان هذا المقال مفيداً؟

Alexis

Alexis

مهندس ذكاء اصطناعي

مهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

محاكاة الفيزياء في فيديو الذكاء الاصطناعي: كيف تعلمت النماذج أخيراً احترام الواقع