نماذج العالم بعد الفيديو: لماذا الألعاب والروبوتات هي ساحات الاختبار الحقيقية للذكاء العام

الثورة التالية في الذكاء الاصطناعي لن تأتي من نماذج اللغة. ستأتي من الأنظمة التي تفهم العالم الفيزيائي، وساحة المعركة الأولى ليست مختبرات البحث بل ألعاب الفيديو.

عندما أعلن Yann LeCun عن رحيله من Meta لتأسيس AMI Labs برعاية 500 مليون يورو، صرح بما كان يعتقده العديد من الباحثين بهدوء منذ سنوات. نماذج اللغة الكبيرة، رغم قدراتها المثيرة للإعجاب، تمثل طريقاً مسدوداً على درب تحقيق الذكاء الاصطناعي العام. إنها تتنبأ بالرموز دون فهم الواقع.

والبديل؟ نماذج العالم. أنظمة تتعلم محاكاة كيفية عمل العالم الفيزيائي.

القيد الأساسي لنماذج اللغة

💡

تتعلم نماذج العالم التنبؤ بما سيحدث بعد ذلك في البيئات البصرية، وليس فقط ما ستكون عليه الكلمات التالية في النص. يتطلب هذا فهم الفيزياء وديمومة الأجسام والسببية.

تتفوق نماذج اللغة في مطابقة الأنماط عبر النصوص. يمكنها كتابة الشعر وتصحيح الأكواد والحفاظ على محادثات تبدو إنسانية بشكل ملحوظ. لكن اسأل GPT-4 ما الذي يحدث عندما تسقط الكرة، وسيعتمد على الأوصاف المحفوظة بدلاً من الحدس الفيزيائي الحقيقي.

هذا يهم لأن الذكاء، كما نختبره في العالم البيولوجي، متجذر بشكل أساسي في الواقع الفيزيائي. طفل صغير يتعلم بناء الكتل يطور فهماً حدسياً للجاذبية والتوازن والخصائص المادية قبل وقت طويل من تعلم اللغة. هذا الإدراك المجسد، هذا الشعور بكيفية عمل العالم، يمثل بالضبط ما تفتقده أنظمة الذكاء الاصطناعي الحالية.

تهدف نماذج العالم إلى سد هذه الفجوة. بدلاً من التنبؤ برمز التالي، تتنبأ بالإطار التالي والحالة الفيزيائية التالية والعاقبة التالية للإجراء.

ثلاث طرق لفهم العالم

انقسم السباق لبناء الذكاء الاصطناعي الذي يفهم العالم إلى ثلاث نماذج متميزة، لكل منها نقاط قوة مختلفة.

✓نماذج التنبؤ بالفيديو

التدريب على مجموعات بيانات فيديو ضخمة لتعلم الفيزياء الضمنية. تشمل الأمثلة Sora و Veo. جيدة في توليد استمرارات معقولة لكنها تواجه صعوبات في السيناريوهات التفاعلية.

✗نماذج قائمة على المحاكاة

بناء محركات فيزياء صريحة وتدريب الذكاء الاصطناعي للتنقل فيها. يتطلب بناء يدوي مكلفاً للبيئات لكنه يوفر دقة فيزيائية عالية.

الطريقة الثالثة، وربما الأكثر وعداً، تجمع بين الاثنين: تعلم ديناميكيات العالم من الفيديو مع الحفاظ على القدرة على التفاعل مع البيئة ومعالجتها. وهنا تصبح الألعاب ضرورية.

الألعاب: ساحة التدريب المثالية

توفر ألعاب الفيديو شيئاً فريداً: بيئات تفاعلية ذات قواعد فيزياء متسقة، وتنوع لا نهائي، ومقاييس نجاح واضحة. بخلاف روبوتات العالم الحقيقي، التي تتطلب أجهزة مكلفة وتشكل مخاوف أمنية، توفر الألعاب الفشل غير المحدود بدون عواقب.

500 مليار دولار +

سوق الألعاب بحلول 2030

500 مليون يورو

تمويل AMI Labs

12%

معدل النمو السنوي

أدركت DeepMind هذا الإمكان مبكراً. يمكن لنظام Genie الخاص بهم توليد بيئات قابلة للعب جديدة تماماً من صورة واحدة. أعطه رسماً تخطيطياً لمستوى منصة، وينشئ عالماً بفيزياء متسقة حيث يمكن للشخصيات القفز والسقوط والتفاعل مع الأجسام بشكل مناسب.

ما يجعل Genie رائعاً ليس فقط التوليد بل الفهم. يتعلم النظام مفاهيم فيزيائية قابلة للتعميم تنتقل عبر أنماط بصرية وأنواع ألعاب مختلفة. نموذج مدرب على منصات بأسلوب Mario يطور حدساً عن الجاذبية والتصادم ينطبق بالتساوي على الألعاب المستقلة المرسومة بأيد وبيئات ثلاثية الأبعاد واقعية.

من الألعاب إلى الروبوتات

خط أنابيب الألعاب إلى الروبوتات ليس نظرياً. الشركات تستخدمه بالفعل.

2024

تحديد الفجوة في المحاكاة

تُظهر الأبحاث أن النماذج المدربة حصراً في المحاكاة تواجه صعوبات مع فوضى العالم الحقيقي: الإضاءة المتغيرة والمستشعرات غير الكاملة والأجسام غير المتوقعة.

2025

ظهور النهج الهجينة

تجمع الفرق نماذج عالم مدربة على الألعاب مع ضبط دقيق محدود للعالم الحقيقي، مما يقلل بشكل كبير البيانات اللازمة لتدريب الروبوت.

2026

بدء النشر التجاري

أول روبوتات مستودع باستخدام عمود الفقري لنموذج العالم تدخل الإنتاج، مع التعامل مع الأجسام الجديدة بدون برمجة صريحة.

الرؤية التي تدفع هذا الانتقال بسيطة: الفيزياء هي الفيزياء. نموذج يفهم حقاً كيفية سقوط الأجسام والانزلاق والتصادم في لعبة فيديو يجب أن يفهم، مع التكيف المناسب، نفس المبادئ في العالم الحقيقي. يتغير المظهر البصري، لكن الديناميكيات الأساسية تبقى ثابتة.

اتبعت Tesla نسخة من هذه الإستراتيجية مع روبوتات Optimus الخاصة بها، حيث تدرب أولاً في المحاكاة قبل النشر في بيئات مصنع محكومة. كان العامل المحدد دائماً هو الفجوة بين فيزياء المحاكاة والحقيقية. قد توفر نماذج العالم المدربة على بيانات فيديو متنوعة أخيراً سد هذه الفجوة.

رهان AMI Labs

تمثل شركة Yann LeCun الجديدة، AMI Labs، أكبر استثمار منفرد في أبحاث نموذج العالم حتى الآن. مع 500 مليون يورو في التمويل الأوروبي وفريق مجند من Meta و DeepMind والمختبرات الأكاديمية، يسعون إلى ما يسميه LeCun "الذكاء الموجه بالأهداف".

💡

بخلاف نماذج اللغة التي تتنبأ بالرموز، يركز نهج AMI على تعلم تمثيلات العالم التي تمكن التخطيط والتفكير في العواقب الفيزيائية.

يبني الأساس التقني على بنية التضمين المشترك التنبؤية (JEPA)، إطار عمل دافع عنه LeCun لسنوات. بدلاً من توليد تنبؤات على مستوى البكسل، التي تتطلب موارد حسابية ضخمة، تتعلم JEPA تمثيلات مجردة تعكس البنية الأساسية للأنظمة الفيزيائية.

فكر في الأمر هكذا: شخص يشاهد كرة تتدحرج نحو جرف لا يحاكي كل بكسل لمسار الكرة. بدلاً من ذلك، نعترف بالوضع المجرد، كرة وحافة وجاذبية، وننبئ بالنتيجة، السقوط. تهدف JEPA إلى التقاط هذا التفكير المجرد والفعال.

الآثار على توليد فيديو الذكاء الاصطناعي

تهم مسار البحث هذا بشكل عميق للتطبيقات الإبداعية. منتجات توليد فيديو الذكاء الاصطناعي الحالية تنتج نتائج رائعة لكنها تعاني من عدم اتساق زمني. الشخصيات تتشكل، والفيزياء تتحطم، والأجسام تظهر وتختفي.

توفر نماذج العالم حلاً محتملاً. المولد الذي يفهم حقاً الفيزياء يجب أن ينتج مقاطع فيديو حيث تطيع الأجسام قواعس متسقة، حيث تسقط الأشياء المسقوطة بشكل متوقع، حيث تتصرف الانعكاسات بشكل صحيح.

✗الحالة الحالية

تولد النماذج إطارات بصرية معقولة دون فرض اتساق فيزيائي. يعمل مع المقاطع القصيرة لكنه ينهار على فترات أطول.

✓مستقبل نموذج العالم

ينشأ الاتساق الفيزيائي من ديناميكيات العالم المتعلمة. تصبح مقاطع فيديو أطول وأكثر تماسكاً ممكنة لأن النموذج يحافظ على حالة داخلية للعالم.

نرى بالفعل علامات مبكرة على هذا الانتقال. يمثل GWM-1 من Runway رهانهم على نماذج العالم، و محاكاة فيزياء Veo 3.1 المحسنة تشير إلى أن Google تدمج مبادئ مماثلة.

الاتصال بالذكاء العام

لماذا كل هذا مهم للذكاء الاصطناعي العام؟ لأن الذكاء الحقيقي يتطلب أكثر من معالجة اللغة. يتطلب فهم السبب والتأثير، التنبؤ بالعواقب، والتخطيط للإجراءات في عالم فيزيائي.

🧠

الإدراك المجسد

قد يتطلب الذكاء الحقيقي التأريض في الواقع الفيزيائي، وليس فقط الأنماط الإحصائية في النصوص.

🎮

التعلم التفاعلي

توفر الألعاب ساحة اختبار مثالية: فيزياء غنية وتغذية راجعة واضحة وتكرار غير محدود.

🤖

تطبيق الروبوتات

قد تنتقل نماذج العالم المدربة في الألعاب إلى روبوتات العالم الحقيقي مع حد أدنى من التكيف.

الباحثون الذين يقودون هذا العمل يتوخون الحذر من عدم الادعاء بأنهم يبنون الذكاء الاصطناعي العام. لكنهم يحتجون بإقناع بأنه بدون فهم العالم، لا يمكننا بناء أنظمة تفكر حقاً بدلاً من مجرد الإكمال التلقائي.

ما يأتي بعد ذلك

السنتان القادمتان ستكونان حاسمتان. عدة تطورات يجب مراقبتها:

○عروض AMI Labs الأولى للجمهور، المتوقعة منتصف 2026
○دمج نماذج العالم في مولدات الفيديو الرئيسية
○شركات محركات الألعاب، Unity و Unreal، إضافة واجهات برمجية لنموذج العالم
○أول روبوتات المستهلك باستخدام نماذج عالم مدربة على الألعاب

سوق الألعاب، المتوقع أن يتجاوز 500 مليار دولار بحلول 2030، يمثل أرضاً خصبة لنشر نموذج العالم. يرى المستثمرون نماذج العالم ليس فقط كفضوليات البحث بل كتكنولوجيا أساسية للترفيه التفاعلي والمحاكاة والروبوتات.

الثورة الهادئة

بخلاف الضجيج المتفجر حول ChatGPT، تتكشف ثورة نماذج العالم بهدوء في مختبرات البحث واستوديوهات الألعاب. لا توجد عروض فيروسية، لا دورات أخبار يومية عن أحدث اختراق.

لكن الآثار قد تكون أكثر عمقاً. غيرت نماذج اللغة كيفية تفاعلنا مع النصوص. يمكن لنماذج العالم أن تغير كيفية تفاعل الذكاء الاصطناعي مع الواقع.

بالنسبة لأولئك منا الذين يعملون في توليد فيديو الذكاء الاصطناعي، يمثل هذا البحث تهديداً وفرصة. قد تبدو أدواتنا الحالية بدائية في المقابل، مثل أول أفلام CGI مقارنة بمؤثرات بصرية حديثة. لكن المبدأ الأساسي، توليد محتوى بصري من خلال نماذج متعلمة، سيصبح فقط أقوى مع بدء تلك النماذج في فهم حقيقي للعوالم التي تنشئها.

💡

قراءة إضافية: استكشف كيف توفر تحويلات الانتشار الأساس المعماري للعديد من نماذج العالم، أو تعلم حول التوليد التفاعلي في الوقت الفعلي الذي يبني على مبادئ نموذج العالم.

قد يبدو المسار من فيزياء لعبة الفيديو إلى الذكاء الاصطناعي العام معقداً. لكن الذكاء، أينما وجدناه، ينشأ من الأنظمة التي تفهم بيئتها ويمكنها التنبؤ بعواقب أفعالها. توفر الألعاب مساحة آمنة لبناء واختبار مثل هذه الأنظمة. ستتبع الروبوتات والأدوات الإبداعية وربما الفهم الحقيقي للآلات.

نماذج العالم بعد الفيديو: لماذا الألعاب والروبوتات هي ساحات الاختبار الحقيقية للذكاء العام

القيد الأساسي لنماذج اللغة

ثلاث طرق لفهم العالم

الألعاب: ساحة التدريب المثالية

من الألعاب إلى الروبوتات

تحديد الفجوة في المحاكاة

ظهور النهج الهجينة

بدء النشر التجاري

رهان AMI Labs

الآثار على توليد فيديو الذكاء الاصطناعي

الاتصال بالذكاء العام

الإدراك المجسد

التعلم التفاعلي

تطبيق الروبوتات

ما يأتي بعد ذلك

الثورة الهادئة

Alexis

Like what you read?

مقالات ذات صلة

يان لوكان يغادر ميتا ليراهن بـ 3.5 مليار دولار على نماذج العالم

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي

نماذج لغة الفيديو: الحدود الجديدة بعد نماذج اللغة الكبيرة ووكلاء الذكاء الاصطناعي

هل استمتعت بقراءة هذا المقال؟