نماذج العالم بعد الفيديو: لماذا الألعاب والروبوتات هي ساحات الاختبار الحقيقية للذكاء العام
من نظام Genie من DeepMind إلى AMI Labs، أصبحت نماذج العالم بهدوء أساس الذكاء الاصطناعي الذي يفهم الفيزياء حقاً. قد يكون سوق الألعاب بقيمة 500 مليار دولار هو المكان الذي يثبتون فيه أنفسهم أولاً.

عندما أعلن Yann LeCun عن رحيله من Meta لتأسيس AMI Labs برعاية 500 مليون يورو، صرح بما كان يعتقده العديد من الباحثين بهدوء منذ سنوات. نماذج اللغة الكبيرة، رغم قدراتها المثيرة للإعجاب، تمثل طريقاً مسدوداً على درب تحقيق الذكاء الاصطناعي العام. إنها تتنبأ بالرموز دون فهم الواقع.
والبديل؟ نماذج العالم. أنظمة تتعلم محاكاة كيفية عمل العالم الفيزيائي.
القيد الأساسي لنماذج اللغة
تتعلم نماذج العالم التنبؤ بما سيحدث بعد ذلك في البيئات البصرية، وليس فقط ما ستكون عليه الكلمات التالية في النص. يتطلب هذا فهم الفيزياء وديمومة الأجسام والسببية.
تتفوق نماذج اللغة في مطابقة الأنماط عبر النصوص. يمكنها كتابة الشعر وتصحيح الأكواد والحفاظ على محادثات تبدو إنسانية بشكل ملحوظ. لكن اسأل GPT-4 ما الذي يحدث عندما تسقط الكرة، وسيعتمد على الأوصاف المحفوظة بدلاً من الحدس الفيزيائي الحقيقي.
هذا يهم لأن الذكاء، كما نختبره في العالم البيولوجي، متجذر بشكل أساسي في الواقع الفيزيائي. طفل صغير يتعلم بناء الكتل يطور فهماً حدسياً للجاذبية والتوازن والخصائص المادية قبل وقت طويل من تعلم اللغة. هذا الإدراك المجسد، هذا الشعور بكيفية عمل العالم، يمثل بالضبط ما تفتقده أنظمة الذكاء الاصطناعي الحالية.
تهدف نماذج العالم إلى سد هذه الفجوة. بدلاً من التنبؤ برمز التالي، تتنبأ بالإطار التالي والحالة الفيزيائية التالية والعاقبة التالية للإجراء.
ثلاث طرق لفهم العالم
انقسم السباق لبناء الذكاء الاصطناعي الذي يفهم العالم إلى ثلاث نماذج متميزة، لكل منها نقاط قوة مختلفة.
التدريب على مجموعات بيانات فيديو ضخمة لتعلم الفيزياء الضمنية. تشمل الأمثلة Sora و Veo. جيدة في توليد استمرارات معقولة لكنها تواجه صعوبات في السيناريوهات التفاعلية.
بناء محركات فيزياء صريحة وتدريب الذكاء الاصطناعي للتنقل فيها. يتطلب بناء يدوي مكلفاً للبيئات لكنه يوفر دقة فيزيائية عالية.
الطريقة الثالثة، وربما الأكثر وعداً، تجمع بين الاثنين: تعلم ديناميكيات العالم من الفيديو مع الحفاظ على القدرة على التفاعل مع البيئة ومعالجتها. وهنا تصبح الألعاب ضرورية.
الألعاب: ساحة التدريب المثالية
توفر ألعاب الفيديو شيئاً فريداً: بيئات تفاعلية ذات قواعد فيزياء متسقة، وتنوع لا نهائي، ومقاييس نجاح واضحة. بخلاف روبوتات العالم الحقيقي، التي تتطلب أجهزة مكلفة وتشكل مخاوف أمنية، توفر الألعاب الفشل غير المحدود بدون عواقب.
أدركت DeepMind هذا الإمكان مبكراً. يمكن لنظام Genie الخاص بهم توليد بيئات قابلة للعب جديدة تماماً من صورة واحدة. أعطه رسماً تخطيطياً لمستوى منصة، وينشئ عالماً بفيزياء متسقة حيث يمكن للشخصيات القفز والسقوط والتفاعل مع الأجسام بشكل مناسب.
ما يجعل Genie رائعاً ليس فقط التوليد بل الفهم. يتعلم النظام مفاهيم فيزيائية قابلة للتعميم تنتقل عبر أنماط بصرية وأنواع ألعاب مختلفة. نموذج مدرب على منصات بأسلوب Mario يطور حدساً عن الجاذبية والتصادم ينطبق بالتساوي على الألعاب المستقلة المرسومة بأيد وبيئات ثلاثية الأبعاد واقعية.
من الألعاب إلى الروبوتات
خط أنابيب الألعاب إلى الروبوتات ليس نظرياً. الشركات تستخدمه بالفعل.
تحديد الفجوة في المحاكاة
تُظهر الأبحاث أن النماذج المدربة حصراً في المحاكاة تواجه صعوبات مع فوضى العالم الحقيقي: الإضاءة المتغيرة والمستشعرات غير الكاملة والأجسام غير المتوقعة.
ظهور النهج الهجينة
تجمع الفرق نماذج عالم مدربة على الألعاب مع ضبط دقيق محدود للعالم الحقيقي، مما يقلل بشكل كبير البيانات اللازمة لتدريب الروبوت.
بدء النشر التجاري
أول روبوتات مستودع باستخدام عمود الفقري لنموذج العالم تدخل الإنتاج، مع التعامل مع الأجسام الجديدة بدون برمجة صريحة.
الرؤية التي تدفع هذا الانتقال بسيطة: الفيزياء هي الفيزياء. نموذج يفهم حقاً كيفية سقوط الأجسام والانزلاق والتصادم في لعبة فيديو يجب أن يفهم، مع التكيف المناسب، نفس المبادئ في العالم الحقيقي. يتغير المظهر البصري، لكن الديناميكيات الأساسية تبقى ثابتة.
اتبعت Tesla نسخة من هذه الإستراتيجية مع روبوتات Optimus الخاصة بها، حيث تدرب أولاً في المحاكاة قبل النشر في بيئات مصنع محكومة. كان العامل المحدد دائماً هو الفجوة بين فيزياء المحاكاة والحقيقية. قد توفر نماذج العالم المدربة على بيانات فيديو متنوعة أخيراً سد هذه الفجوة.
رهان AMI Labs
تمثل شركة Yann LeCun الجديدة، AMI Labs، أكبر استثمار منفرد في أبحاث نموذج العالم حتى الآن. مع 500 مليون يورو في التمويل الأوروبي وفريق مجند من Meta و DeepMind والمختبرات الأكاديمية، يسعون إلى ما يسميه LeCun "الذكاء الموجه بالأهداف".
بخلاف نماذج اللغة التي تتنبأ بالرموز، يركز نهج AMI على تعلم تمثيلات العالم التي تمكن التخطيط والتفكير في العواقب الفيزيائية.
يبني الأساس التقني على بنية التضمين المشترك التنبؤية (JEPA)، إطار عمل دافع عنه LeCun لسنوات. بدلاً من توليد تنبؤات على مستوى البكسل، التي تتطلب موارد حسابية ضخمة، تتعلم JEPA تمثيلات مجردة تعكس البنية الأساسية للأنظمة الفيزيائية.
فكر في الأمر هكذا: شخص يشاهد كرة تتدحرج نحو جرف لا يحاكي كل بكسل لمسار الكرة. بدلاً من ذلك، نعترف بالوضع المجرد، كرة وحافة وجاذبية، وننبئ بالنتيجة، السقوط. تهدف JEPA إلى التقاط هذا التفكير المجرد والفعال.
الآثار على توليد فيديو الذكاء الاصطناعي
تهم مسار البحث هذا بشكل عميق للتطبيقات الإبداعية. منتجات توليد فيديو الذكاء الاصطناعي الحالية تنتج نتائج رائعة لكنها تعاني من عدم اتساق زمني. الشخصيات تتشكل، والفيزياء تتحطم، والأجسام تظهر وتختفي.
توفر نماذج العالم حلاً محتملاً. المولد الذي يفهم حقاً الفيزياء يجب أن ينتج مقاطع فيديو حيث تطيع الأجسام قواعس متسقة، حيث تسقط الأشياء المسقوطة بشكل متوقع، حيث تتصرف الانعكاسات بشكل صحيح.
تولد النماذج إطارات بصرية معقولة دون فرض اتساق فيزيائي. يعمل مع المقاطع القصيرة لكنه ينهار على فترات أطول.
ينشأ الاتساق الفيزيائي من ديناميكيات العالم المتعلمة. تصبح مقاطع فيديو أطول وأكثر تماسكاً ممكنة لأن النموذج يحافظ على حالة داخلية للعالم.
نرى بالفعل علامات مبكرة على هذا الانتقال. يمثل GWM-1 من Runway رهانهم على نماذج العالم، و محاكاة فيزياء Veo 3.1 المحسنة تشير إلى أن Google تدمج مبادئ مماثلة.
الاتصال بالذكاء العام
لماذا كل هذا مهم للذكاء الاصطناعي العام؟ لأن الذكاء الحقيقي يتطلب أكثر من معالجة اللغة. يتطلب فهم السبب والتأثير، التنبؤ بالعواقب، والتخطيط للإجراءات في عالم فيزيائي.
الإدراك المجسد
قد يتطلب الذكاء الحقيقي التأريض في الواقع الفيزيائي، وليس فقط الأنماط الإحصائية في النصوص.
التعلم التفاعلي
توفر الألعاب ساحة اختبار مثالية: فيزياء غنية وتغذية راجعة واضحة وتكرار غير محدود.
تطبيق الروبوتات
قد تنتقل نماذج العالم المدربة في الألعاب إلى روبوتات العالم الحقيقي مع حد أدنى من التكيف.
الباحثون الذين يقودون هذا العمل يتوخون الحذر من عدم الادعاء بأنهم يبنون الذكاء الاصطناعي العام. لكنهم يحتجون بإقناع بأنه بدون فهم العالم، لا يمكننا بناء أنظمة تفكر حقاً بدلاً من مجرد الإكمال التلقائي.
ما يأتي بعد ذلك
السنتان القادمتان ستكونان حاسمتان. عدة تطورات يجب مراقبتها:
- ○عروض AMI Labs الأولى للجمهور، المتوقعة منتصف 2026
- ○دمج نماذج العالم في مولدات الفيديو الرئيسية
- ○شركات محركات الألعاب، Unity و Unreal، إضافة واجهات برمجية لنموذج العالم
- ○أول روبوتات المستهلك باستخدام نماذج عالم مدربة على الألعاب
سوق الألعاب، المتوقع أن يتجاوز 500 مليار دولار بحلول 2030، يمثل أرضاً خصبة لنشر نموذج العالم. يرى المستثمرون نماذج العالم ليس فقط كفضوليات البحث بل كتكنولوجيا أساسية للترفيه التفاعلي والمحاكاة والروبوتات.
الثورة الهادئة
بخلاف الضجيج المتفجر حول ChatGPT، تتكشف ثورة نماذج العالم بهدوء في مختبرات البحث واستوديوهات الألعاب. لا توجد عروض فيروسية، لا دورات أخبار يومية عن أحدث اختراق.
لكن الآثار قد تكون أكثر عمقاً. غيرت نماذج اللغة كيفية تفاعلنا مع النصوص. يمكن لنماذج العالم أن تغير كيفية تفاعل الذكاء الاصطناعي مع الواقع.
بالنسبة لأولئك منا الذين يعملون في توليد فيديو الذكاء الاصطناعي، يمثل هذا البحث تهديداً وفرصة. قد تبدو أدواتنا الحالية بدائية في المقابل، مثل أول أفلام CGI مقارنة بمؤثرات بصرية حديثة. لكن المبدأ الأساسي، توليد محتوى بصري من خلال نماذج متعلمة، سيصبح فقط أقوى مع بدء تلك النماذج في فهم حقيقي للعوالم التي تنشئها.
قراءة إضافية: استكشف كيف توفر تحويلات الانتشار الأساس المعماري للعديد من نماذج العالم، أو تعلم حول التوليد التفاعلي في الوقت الفعلي الذي يبني على مبادئ نموذج العالم.
قد يبدو المسار من فيزياء لعبة الفيديو إلى الذكاء الاصطناعي العام معقداً. لكن الذكاء، أينما وجدناه، ينشأ من الأنظمة التي تفهم بيئتها ويمكنها التنبؤ بعواقب أفعالها. توفر الألعاب مساحة آمنة لبناء واختبار مثل هذه الأنظمة. ستتبع الروبوتات والأدوات الإبداعية وربما الفهم الحقيقي للآلات.
هل كان هذا المقال مفيداً؟

Alexis
مهندس ذكاء اصطناعيمهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

يان لوكان يغادر ميتا ليراهن بـ 3.5 مليار دولار على نماذج العالم
الفائز بجائزة تورينغ يؤسس شركة AMI Labs الناشئة المتخصصة في نماذج العالم بدلاً من نماذج اللغة الكبيرة، مستهدفاً الروبوتات والرعاية الصحية وفهم الفيديو.

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي
يمثل GWM-1 من Runway نقلة نوعية من توليد مقاطع الفيديو إلى محاكاة العوالم. اكتشف كيف يُنشئ هذا النموذج التسلسلي بيئات قابلة للاستكشاف، وأفاتارات واقعية، ومحاكيات لتدريب الروبوتات.

نماذج لغة الفيديو: الحدود الجديدة بعد نماذج اللغة الكبيرة ووكلاء الذكاء الاصطناعي
تُعلّم نماذج العالم الذكاء الاصطناعي فهم الواقع المادي، مما يمكّن الروبوتات من التخطيط للإجراءات ومحاكاة النتائج قبل تحريك أي مشغّل.