ویڈیو سے آگے عالمی ماڈلز: گیمنگ اور روبوٹکس AGI کے لیے حقیقی ثابت ہونے کے میدان کیوں ہیں
DeepMind کے Genie سے لے کر AMI Labs تک، عالمی ماڈلز خاموشی سے AI کی بنیاد بن رہے ہیں جو اصل میں فزکس سمجھتے ہیں۔ 500 بلین ڈالر کی گیمنگ مارکیٹ وہ جگہ ہو سکتی ہے جہاں وہ پہلے خود کو ثابت کریں۔

جب Yann LeCun نے Meta سے رخصت کا اعلان کیا تاکہ 500 ملین یورو کی سپورٹ کے ساتھ AMI Labs قائم کر سکیں، تو انہوں نے وہ کچھ کہا جو بہت سے محققین برسوں سے خاموشی سے سوچ رہے تھے۔ بڑے زبان کے ماڈلز، اپنی تمام متاثر کن صلاحیتوں کے باوجود، مصنوعی عام ذہانت کے راستے میں ایک مردہ گلی کی نمائندگی کرتے ہیں۔ وہ الفاظ کو بغیر حقیقت سمجھے پیش گوئی کرتے ہیں۔
متبادل کیا ہے؟ عالمی ماڈلز۔ نظام جو یہ سیکھتے ہیں کہ جسمانی دنیا کیسے کام کرتی ہے۔
زبان کے ماڈلز کی بنیادی پابندی
عالمی ماڈلز یہ سیکھتے ہیں کہ بصری ماحول میں آگے کیا ہوگا، صرف یہ نہیں کہ متن میں اگلے الفاظ کیا ہوں گے۔ اس میں فزکس، چیزوں کی مستقل موجودگی، اور وجہ اور اثر کا فہم ضروری ہے۔
زبان کے ماڈلز متن میں نمونوں کی پہچان میں عمدہ ہیں۔ وہ شاعری لکھ سکتے ہیں، کوڈ میں خرابیاں ٹھیک کر سکتے ہیں، اور بات چیت کر سکتے ہیں جو حیرت انگیز طور پر انسانی لگتی ہے۔ لیکن GPT-4 سے پوچھیں کہ جب آپ ایک بال گراتے ہیں تو کیا ہوتا ہے، اور یہ یادداشت میں محفوظ تفصیلات پر انحصار کرے گا بجائے حقیقی جسمانی شہود کے۔
یہ اہم ہے کیونکہ ذہانت، جیسا کہ ہم اسے زیستی دنیا میں سمجھتے ہیں، بنیادی طور پر جسمانی حقیقت میں جڑی ہوئی ہے۔ ایک بچہ جو بلاکس سیکھنے کی کوشش کرتا ہے وہ کشش ثقل، توازن، اور مادی خصوصیات کی بدیہی سمجھ اور زبان سیکھنے سے بہت پہلے تیار کرتا ہے۔ یہ جسمانی سوچ، یہ احساس کہ دنیا کیسے کام کرتی ہے، بالکل وہی ہے جو موجودہ AI نظاموں میں کمی ہے۔
عالمی ماڈلز اس خلا کو بھرنے کی کوشش کرتے ہیں۔ اگلی ٹوکن کی پیش گوئی کرنے کی بجائے، وہ اگلے فریم، اگلی جسمانی حالت، اور اگلے کام کے نتیجے کی پیش گوئی کرتے ہیں۔
دنیا کی سمجھ کے تین طریقے
دنیا کو سمجھنے والی AI بنانے کی دوڑ تین الگ الگ طریقوں میں بٹ گئی ہے، ہر ایک کی اپنی طاقتیں ہیں۔
بھاری ویڈیو ڈیٹا سیٹ پر ایک ہزار سیکھنے کے لیے تربیت دی۔ Sora اور Veo شامل ہیں۔ معقول تسلسل بنانے میں اچھے لیکن متحرک منظرناموں میں مشکل سامنا کرتے ہیں۔
واضح فزکس انجن بنائیں اور AI کو ان میں نیویگیٹ کرنے کی تربیت دیں۔ ماحول کی مہنگی دستی تعمیر درکار ہے لیکن درست جسمانی درستگی فراہم کرتا ہے۔
تیسرا طریقہ، اور شاید سب سے زیادہ وعدہ دینے والا، دونوں کو ملاتا ہے: ویڈیو سے دنیا کی力معلومات سیکھنا جبکہ ماحول کے ساتھ قابل قدر رہنا۔ یہاں گیمنگ ضروری ہو جاتی ہے۔
گیمز: مکمل تربیتی میدان
ویڈیو گیمز کچھ منفرد فراہم کرتے ہیں: متحرک ماحول مسلسل فزکس قوانین کے ساتھ، لامحدود تنوع، اور صاف کامیابی کی پیمائش۔ حقیقی دنیا کے روبوٹکس کے برعکس، جس میں مہنگی سامان اور حفاظتی خطرات درکار ہیں، گیمز بغیر نتائج کے لامحدود ناکامی فراہم کرتے ہیں۔
DeepMind نے جلدی اس صلاحیت کو سمجھا۔ ان کا Genie نظام ایک ہی تصویر سے بالکل نئے کھیلنے کے قابل ماحول بنا سکتے ہیں۔ اسے platform لیول کا خاکہ دیں، اور یہ مسلسل فزکس کے ساتھ ایک دنیا بناتا ہے جہاں کردار کود سکتے ہیں، گر سکتے ہیں، اور اشیاء کے ساتھ صحیح طریقے سے مل سکتے ہیں۔
جو چیز Genie کو غیر معمولی بناتی ہے وہ صرف تخلیق نہیں بلکہ سمجھ ہے۔ نظام قابل تبادلہ فزکس تصورات سیکھتا ہے جو مختلف بصری اسلوب اور گیم کی اقسام میں منتقل ہوتے ہیں۔ Mario طرز کے platform پر تربیت یافتہ ماڈل کشش ثقل اور ٹکراؤ کے بارے میں شہود تیار کرتا ہے جو ہاتھ سے کھینچے گئے انڈی گیمز اور حقیقی 3D ماحول میں برابر لاگو ہوتے ہیں۔
گیمز سے روبوٹ تک
گیمنگ سے روبوٹکس کا نالا نظریاتی نہیں ہے۔ کمپنیاں اسے پہلے سے استعمال کر رہی ہیں۔
نقل کا فاصلہ شناخت کیا
تحقیق سے پتہ چلتا ہے کہ خالص طور پر نقل میں تربیت یافتہ ماڈلز حقیقی دنیا کی خرابی کے ساتھ مشکل ہیں: متبدل روشنی، نامکمل سینسر، غیر متوقع اشیاء۔
ہائبرڈ طریقے ابھرتے ہیں
ٹیمز گیم میں تربیت یافتہ عالمی ماڈلز کو حقیقی دنیا کی محدود ترتیب کے ساتھ ملاتے ہیں، روبوٹ تربیت کے لیے درکار ڈیٹا کو نمایاں طور پر کم کرتے ہیں۔
تجارتی تعیناتی شروع ہو جاتی ہے
پہلی گودام روبوٹ عالمی ماڈل کی ریڑھ استعمال کرتے ہوئے پیداواری عمل میں داخل ہوتے ہیں، نئی اشیاء کو واضح پروگرامنگ کے بغیر سنبھالتے ہیں۔
اس منتقلی کو چلانے والی بصیرت سادہ ہے: فزکس فزکس ہے۔ ایک ماڈل جو واقی طور پر سمجھتا ہے کہ اشیاء ویڈیو گیم میں کیسے گرتی، سلائیڈ کرتی اور ٹکراتی ہیں، مناسب موافقت کے ساتھ، حقیقی دنیا میں اسی اصول کو سمجھنے میں سہم کریں۔ بصری ظہور بدلتا ہے، لیکن بنیادی حرکیات مستحکم رہتی ہیں۔
Tesla نے اپنے Optimus روبوٹ کے ساتھ اس حکمت عملی کا ایک ورژن اپنایا، پہلے نقل میں تربیت دیتے ہوئے قابل کنٹرول فیکٹری ماحول میں تعیناتی سے پہلے۔ محدود عامل ہمیشہ نقل اور حقیقی فزکس کے درمیان فاصلہ رہا ہے۔ متنوع ویڈیو ڈیٹا پر تربیت یافتہ عالمی ماڈلز آخر کار اس فاصلے کو پاٹ سکتے ہیں۔
AMI Labs کا داؤ
Yann LeCun کا نیا کاروبار، AMI Labs، عالمی ماڈل تحقیق میں اب تک کی سب سے بڑی واحد سرمایہ کاری کی نمائندگی کرتا ہے۔ 500 ملین یورو کی یورپی فنڈنگ اور Meta، DeepMind، اور تعلیمی لیبز سے بھرتی گئی ٹیم کے ساتھ، وہ جو کچھ LeCun "مقصد سے چلنے والی AI" کہتے ہیں۔
LLMs کے برعکس جو ٹوکن کا پیش گوئی کرتے ہیں، AMI کا طریقہ دنیا کی نمائندگی سیکھنے پر توجہ دیتا ہے جو منصوبہ بندی اور جسمانی نتائج کے بارے میں استدلال کو فعال کرتے ہیں۔
تکنیکی بنیاد Joint Embedding Predictive Architecture (JEPA) پر بنائی گئی ہے، ایک فریم ورک جس کی LeCun برسوں سے حمایت کی ہے۔ pixel سطح کی پیش گوئی کرنے کی بجائے، جس میں بھاری کمپیوٹیشنل وسائل درکار ہیں، JEPA تجریدی نمائندگی سیکھتا ہے جو جسمانی نظاموں کی ضروری ساخت کو پکڑتے ہیں۔
اسے اس طرح سوچیں: ایک شخص جو ایک بال کو کھائی کی طرف لڑھکتے دیکھ رہا ہے وہ بال کی رفتار کے ہر پکسل کو نقل نہیں کرتا۔ بجائے اس کے، ہم تجریدی حالات کو پہچانتے ہیں - بال، کنارا، کشش ثقل - اور نتیجے کا پیش گوئی کرتے ہیں - گرنا۔ JEPA اس موثر، تجریدی سوچ کو پکڑنے کا مقصد رکھتا ہے۔
AI ویڈیو تخلیق کے لیے اثرات
یہ تحقیقی رفتار تخلیقی ایپلیکیشنز کے لیے گہری اہمیت رکھتی ہے۔ موجودہ AI ویڈیو جنریٹرز متاثر کن نتائج تیار کرتے ہیں لیکن عارضی عدم مطابقت سے متاثر ہیں۔ کردار تبدیل ہوتے ہیں، فزکس ٹوٹ جاتا ہے، اور اشیاء ظاہر اور غائب ہوتی ہیں۔
عالمی ماڈلز ایک ممکنہ حل فراہم کرتے ہیں۔ ایک جنریٹر جو واقی طور پر فزکس سمجھتا ہے اسے ایسی ویڈیوز تیار کرنی چاہیں جہاں اشیاء مسلسل قوانین کی پیروی کریں، جہاں گری ہوئی چیزیں قابل پیش گوئی طریقے سے گریں، جہاں عکاسی صحیح طریقے سے سلوک کریں۔
ماڈلز جسمانی مطابقت کو لاگو کیے بغیر بصری طور پر قابل قبول فریمز تیار کرتے ہیں۔ مختصر clips کے لیے کام کرتا ہے لیکن لمبی مدت میں ٹوٹ جاتا ہے۔
جسمانی مطابقت سیکھی ہوئی دنیا کی حرکیات سے اُبھرتا ہے۔ لمبی، زیادہ مربوط ویڈیوز ممکن ہو جاتی ہیں کیونکہ ماڈل دنیا کی اندرونی حالت برقرار رکھتا ہے۔
ہم پہلے سے اس منتقلی کی علامات دیکھ رہے ہیں۔ Runway کا GWM-1 عالمی ماڈلز پر ان کا داؤ ہے، اور Veo 3.1 کی بہتر فزکس نقل تجویز کرتی ہے کہ Google اسی طرح کے اصول شامل کر رہا ہے۔
AGI سے تعلق
یہ سب کچھ AGI کے لیے کیوں اہم ہے؟ کیونکہ حقیقی ذہانت زبان کی ہیرا پھیری سے زیادہ درکار کرتی ہے۔ یہ وجہ اور اثر، نتائج کی پیش گوئی، اور جسمانی دنیا میں اقدامات کی منصوبہ بندی کو سمجھنے کی ضرورت ہے۔
جسمانی سوچ
حقیقی ذہانت شاید صرف متن میں شماریاتی نمونوں کی بجائے جسمانی حقیقت میں جڑی ہونے کی ضرورت ہے۔
متحرک سیکھنا
گیمز بہترین test bed فراہم کرتے ہیں: امیر فزکس، صاف تاثیر، لامحدود تکرار۔
روبوٹک ایپلیکیشن
گیمز میں تربیت یافتہ عالمی ماڈلز کم سے کم موافقت کے ساتھ حقیقی دنیا کی روبوٹکس میں منتقل ہو سکتے ہیں۔
اس کام کو چلانے والے محققین احتیاط سے AG بنانے کا دعویٰ نہیں کرتے ہیں۔ لیکن وہ قائل انداز میں بحث کرتے ہیں کہ دنیا کی سمجھ کے بغیر، ہم ایسے نظام نہیں بنا سکتے جو واقی طور پر صرف autocomplete کی بجائے سوچتے ہیں۔
آگے کیا آتا ہے
اگلے دو سال اہم ہوں گے۔ کچھ ترقیوں پر غور کریں:
- ○AMI Labs کی پہلی عوامی مظاہرے، mid-2026 کی توقع
- ○بڑے ویڈیو جنریٹرز میں عالمی ماڈلز کا ضم
- ○گیم انجن کمپنیاں - Unity، Unreal - عالمی ماڈل APIs کا اضافہ
- ○گیم سے تربیت یافتہ عالمی ماڈلز استعمال کرنے والے پہلے صارف روبوٹ
گیمنگ مارکیٹ، 2030 تک 500 بلین ڈالر سے تجاوز کرنے کی توقع، عالمی ماڈل تعیناتی کے لیے زرخیز زمین کی نمائندگی کرتا ہے۔ سرمایہ کاروں کو عالمی ماڈلز تحقیق کے نہ صرف تجسسات بلکہ بنیادی ٹیکنالوجی کے طور پر دیکھتے ہوئے متحرک تفریح، نقل، اور روبوٹکس کے لیے۔
خاموش انقلاب
ChatGPT کے ارد گرد متفجر ہائپ کے برعکس، عالمی ماڈلز کا انقلاب تحقیق کی لیبز اور گیم اسٹوڈیوز میں خاموشی سے کھل رہا ہے۔ کوئی وائرل مظاہرے نہیں، تازہ ترین سازش پر کوئی روزمرہ خبریں نہیں۔
لیکن نتائج زیادہ گہرے ہو سکتے ہیں۔ زبان کے ماڈلز نے ہمارے متن کے ساتھ تعامل کو تبدیل کیا۔ عالمی ماڈلز AI کے حقیقت کے ساتھ تعامل کو تبدیل کر سکتے ہیں۔
ہم میں سے ان لوگوں کے لیے جو AI ویڈیو تخلیق میں کام کر رہے ہیں، یہ تحقیق خطرہ اور موقع دونوں کی نمائندگی کرتی ہے۔ ہمارے موجودہ اوزار نتیجے میں بدکار لگ سکتے ہیں، جدید بصری اثرات کے مقابلے میں جلدی CGI کی طرح۔ لیکن بنیادی اصول، سیکھے ہوئے ماڈلز کے ذریعے بصری مواد کی تخلیق، صرف طاقتور ہو جائے گی کیونکہ یہ ماڈلز جو دنیا تخلیق کرتے ہیں ان کو واقی طور پر سمجھنے میں شروعات کریں۔
مزید پڑھیں: دیکھیں کہ diffusion transformers بہت سے عالمی ماڈلز کے لیے تعمیری بنیاد کیسے فراہم کرتے ہیں، یا حقیقی وقت میں متحرک تخلیق کے بارے میں سیکھیں جو عالمی ماڈل کے اصول پر بنتا ہے۔
ویڈیو گیم فزکس سے AGI تک کا رستہ پیچیدہ لگ سکتا ہے۔ لیکن ذہانت، جہاں ہم اسے پاتے ہیں، ان نظاموں سے اگرتا ہے جو اپنے ماحول کو سمجھتے ہیں اور اپنے اقدامات کے نتائج کی پیش گوئی کر سکتے ہیں۔ گیمز ہمیں ایسے نظاموں کو تعمیر اور آزمانے کے لیے ایک محفوظ جگہ دیتے ہیں۔ روبوٹ، تخلیقی اوزار، اور شاید حقیقی مشین کی سمجھ اگے آئے گی۔
کیا یہ مضمون مددگار تھا؟

Alexis
اے آئی انجینئرلوزان سے تعلق رکھنے والے اے آئی انجینئر جو تحقیقی گہرائی کو عملی جدت کے ساتھ یکجا کرتے ہیں۔ ماڈل آرکیٹیکچرز اور الپائن چوٹیوں کے درمیان وقت تقسیم کرتے ہیں۔
متعلقہ مضامین
ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

یان لی کن ورلڈ ماڈلز پر 3.5 بلین ڈالر کی شرط لگانے کے لیے میٹا چھوڑ گئے
ٹیورنگ ایوارڈ یافتہ نے AMI Labs قائم کی، ایک نیا سٹارٹ اپ جو LLMs کی بجائے ورلڈ ماڈلز پر توجہ مرکوز کرتا ہے، روبوٹکس، صحت کی دیکھ بھال اور ویڈیو کی سمجھ کو ہدف بنا رہا ہے۔

Runway GWM-1: وہ جنرل ورلڈ ماڈل جو حقیقت کو ریئل ٹائم میں سمیولیٹ کرتا ہے
Runway کا GWM-1 ویڈیوز تیار کرنے سے دنیاؤں کے سمیولیشن تک ایک پیراڈائم شفٹ کو ظاہر کرتا ہے۔ دریافت کریں کہ یہ آٹوریگریسیو ماڈل کس طرح قابل دریافت ماحول، فوٹوریلسٹک اوتار، اور روبوٹ ٹریننگ سمیولیشنز تخلیق کرتا ہے۔

Video Language Models: LLMs اور AI Agents کے بعد اگلی سرحد
World models مصنوعی ذہانت کو جسمانی حقیقت سمجھنا سکھا رہے ہیں، روبوٹس کو ایک بھی actuator حرکت دیے بغیر اعمال کی منصوبہ بندی اور نتائج کی تخمین لگانے کے قابل بنا رہے ہیں۔