वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं
DeepMind Genie से लेकर AMI Labs तक, वर्ल्ड मॉडल AI के लिए आधार बन रहे हैं जो वास्तव में भौतिकी को समझता है। $500B गेमिंग बाजार वह जगह हो सकता है जहां वे पहले खुद को साबित करते हैं।

जब Yann LeCun ने Meta से अपना विदाई की घोषणा की और €500 मिलियन की बैकिंग के साथ AMI Labs लॉन्च किया, तो उन्होंने वह व्यक्त किया जो कई शोधकर्ता वर्षों से चुप रहकर मानते आ रहे हैं। बड़े भाषा मॉडल, अपनी सभी प्रभावशाली क्षमताओं के बावजूद, कृत्रिम सामान्य बुद्धिमत्ता के मार्ग पर एक मृत अंत का प्रतिनिधित्व करते हैं। वे बिना वास्तविकता को समझे टोकन की भविष्यवाणी करते हैं।
विकल्प क्या है? वर्ल्ड मॉडल। ऐसी प्रणालियां जो सीखती हैं कि भौतिक दुनिया कैसे काम करती है।
भाषा मॉडल की मौलिक सीमा
वर्ल्ड मॉडल नेत्र-आधारित पर्यावरण में अगला क्या होगा यह भविष्यवाणी करते हैं, केवल टेक्स्ट में अगला शब्द नहीं। इसके लिए भौतिकी, वस्तु स्थायित्व, और कार्य-कारण को समझना आवश्यक है।
भाषा मॉडल पाठ पर पैटर्न मिलान में उत्कृष्ट हैं। वे कविता लिख सकते हैं, कोड को ठीक कर सकते हैं, और ऐसी बातचीत कर सकते हैं जो काफी हद तक मानव जैसी लगती हैं। लेकिन GPT-4 से पूछें कि गेंद गिरने पर क्या होता है, और यह स्मृति से भरे विवरण पर निर्भर करता है, वास्तविक भौतिक अंतर्ज्ञान पर नहीं।
यह महत्वपूर्ण है क्योंकि बुद्धिमत्ता, जैसा कि हम इसे जैविक दुनिया में अनुभव करते हैं, मौलिक रूप से भौतिक वास्तविकता में निहित है। एक छोटा बच्चा ब्लॉक को ढेर करना सीखते हुए गुरुत्वाकर्षण, संतुलन, और सामग्री गुणों की सहज समझ विकसित करता है, भाषा सीखने से बहुत पहले। यह अंतर्निहित संज्ञान, यह ज्ञान कि दुनिया कैसे काम करती है, वास्तव में वही है जो वर्तमान AI सिस्टम में कमी है।
वर्ल्ड मॉडल इस अंतर को भरने का लक्ष्य रखते हैं। अगले टोकन की भविष्यवाणी करने के बजाय, वे अगली फ्रेम, अगली भौतिक स्थिति, कार्य के अगले परिणाम की भविष्यवाणी करते हैं।
विश्व समझ के लिए तीन दृष्टिकोण
विश्व-समझ AI बनाने की दौड़ तीन अलग-अलग प्रतिमानों में विभाजित हुई है, प्रत्येक की अपनी शक्तियां हैं।
निहित भौतिकी सीखने के लिए विशाल वीडियो डेटासेट पर प्रशिक्षण लें। उदाहरणों में Sora और Veo शामिल हैं। प्रशंसनीय निरंतरता उत्पन्न करने में अच्छे हैं लेकिन इंटरैक्टिव परिदृश्यों में संघर्ष करते हैं।
स्पष्ट भौतिकी इंजन बनाएं और AI को उन्हें नेविगेट करने के लिए प्रशिक्षित करें। पर्यावरण के महंगे मैनुअल निर्माण की आवश्यकता है लेकिन सटीक भौतिक सटीकता प्रदान करता है।
तीसरा दृष्टिकोण, और शायद सबसे वादा दिखाने वाला, दोनों को जोड़ता है: वीडियो से विश्व गतिशीलता सीखना जबकि पर्यावरण के साथ इंटरैक्ट करने और हेरफेर करने की क्षमता बनाए रखना। यहां गेमिंग आवश्यक हो जाता है।
गेमिंग: परीक्षा का परफेक्ट मैदान
वीडियो गेम कुछ अनोखा प्रदान करते हैं: सुसंगत भौतिकी नियमों वाले इंटरैक्टिव पर्यावरण, अनंत विविधता, और स्पष्ट सफलता के मापदंड। वास्तविक-दुनिया रोबोटिक्स के विपरीत, जिसके लिए महंगे हार्डवेयर की आवश्यकता होती है और सुरक्षा चिंताएं प्रस्तुत करता है, गेम बिना परिणाम के असीमित विफलता प्रदान करते हैं।
DeepMind ने यह संभावना जल्दी पहचानी। उनकी Genie प्रणाली एक ही छवि से बिल्कुल नए खेलने योग्य वातावरण उत्पन्न कर सकती है। इसे प्लेटफॉर्मर स्तर का एक स्केच दें, और यह सुसंगत भौतिकी वाली एक दुनिया बनाता है जहां पात्र कूद सकते हैं, गिर सकते हैं, और वस्तुओं के साथ उचित तरीके से इंटरैक्ट कर सकते हैं।
Genie को अद्भुत बनाने वाली बात केवल पीढ़ी नहीं बल्कि समझ है। प्रणाली सामान्य भौतिकी अवधारणाएं सीखती है जो विभिन्न दृश्य शैलियों और गेम प्रकारों में स्थानांतरित होती हैं। एक मॉडल जो Mario जैसे प्लेटफॉर्मर पर प्रशिक्षित होता है, गुरुत्वाकर्षण और टकराव के बारे में अंतर्ज्ञान विकसित करता है जो हाथ से खींचे गए इंडी गेम और यथार्थवादी 3D वातावरण दोनों पर समान रूप से लागू होते हैं।
गेम से रोबोट तक
गेमिंग-से-रोबोटिक्स पाइपलाइन सैद्धांतिक नहीं है। कंपनियां पहले से इसका उपयोग कर रही हैं।
सिमुलेशन गैप की पहचान
शोध से पता चलता है कि विशुद्ध रूप से सिमुलेशन में प्रशिक्षित मॉडल वास्तविक दुनिया की गड़बड़ी के साथ संघर्ष करते हैं: बदलते प्रकाश, अपूर्ण संवेदक, अप्रत्याशित वस्तुएं।
हाइब्रिड दृष्टिकोण उभरते हैं
टीमें गेम-प्रशिक्षित विश्व मॉडल को सीमित वास्तविक-दुनिया सूक्ष्म-समायोजन के साथ जोड़ते हैं, रोबोट प्रशिक्षण के लिए आवश्यक डेटा को नाटकीय रूप से कम करते हैं।
वाणिज्यिक तैनाती शुरू होती है
विश्व मॉडल बैकबोन का उपयोग करने वाले पहले गोदाम रोबोट उत्पादन में प्रवेश करते हैं, स्पष्ट प्रोग्रामिंग के बिना उपन्यास वस्तुओं को संभालते हैं।
इस परिवर्तन को चलाने वाली अंतर्दृष्टि सरल है: भौतिकी भौतिकी है। एक मॉडल जो वास्तव में समझता है कि वीडियो गेम में वस्तुएं कैसे गिरती, स्लाइड करती, और टकराती हैं, उचित अनुकूलन के साथ, वास्तविक दुनिया में एक ही सिद्धांतों को समझना चाहिए। दृश्य उपस्थिति बदलती है, लेकिन अंतर्निहित गतिशीलता स्थिर रहती है।
Tesla ने अपने Optimus रोबोट के साथ इस रणनीति का एक संस्करण अपनाया है, पहले सिमुलेशन में प्रशिक्षण देते हुए नियंत्रित कारखाने के वातावरण में तैनाती से पहले। सीमित कारक हमेशा सिम्युलेटेड और वास्तविक भौतिकी के बीच का अंतर रहा है। विविध वीडियो डेटा पर प्रशिक्षित विश्व मॉडल अंत में उस अंतर को पाट सकते हैं।
AMI Labs का दांव
Yann LeCun का नया उद्यम, AMI Labs, विश्व मॉडल अनुसंधान में सबसे बड़ा एकल निवेश का प्रतिनिधित्व करता है। €500 मिलियन यूरोपीय फंडिंग और Meta, DeepMind, और शैक्षणिक प्रयोगशालाओं से भर्ती की गई टीम के साथ, वे वह कर रहे हैं जिसे LeCun "उद्देश्य-संचालित AI" कहते हैं।
LLM के विपरीत जो टोकन की भविष्यवाणी करते हैं, AMI का दृष्टिकोण विश्व के प्रतिनिधित्व सीखने पर केंद्रित है जो भौतिक परिणामों के बारे में योजना और तर्क को सक्षम करता है।
तकनीकी आधार Joint Embedding Predictive Architecture (JEPA) पर बनता है, एक ढांचा जिसे LeCun वर्षों से समर्थन दे रहे हैं। पिक्सल-स्तर की भविष्यवाणी उत्पन्न करने के बजाय, जिसे विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता है, JEPA अमूर्त प्रतिनिधित्व सीखता है जो भौतिक प्रणालियों की आवश्यक संरचना को कैप्चर करता है।
इसे इस तरह सोचें: एक मनुष्य जो एक गेंद को पहाड़ी की ओर लुढ़कते हुए देखता है, गेंद के प्रक्षेपवक्र के हर पिक्सल को सिम्युलेट नहीं करता है। इसके बजाय, हम अमूर्त स्थिति को पहचानते हैं (गेंद, किनारा, गुरुत्वाकर्षण) और परिणाम की भविष्यवाणी करते हैं (गिरना)। JEPA इस कुशल, अमूर्त तर्क को कैप्चर करने का लक्ष्य रखता है।
AI वीडियो जनरेशन के लिए निहितार्थ
यह अनुसंधान प्रक्षेपवक्र रचनात्मक अनुप्रयोगों के लिए गहराई से मायने रखता है। वर्तमान AI वीडियो जनरेटर प्रभावशाली परिणाम पैदा करते हैं लेकिन अस्थायी असंगति से पीड़ित हैं। पात्र रूप बदलते हैं, भौतिकी टूटती है, और वस्तुएं प्रकट और गायब होती हैं।
वर्ल्ड मॉडल एक संभावित समाधान प्रदान करते हैं। एक जनरेटर जो वास्तव में भौतिकी को समझता है, ऐसे वीडियो का उत्पादन करना चाहिए जहां वस्तुएं सुसंगत नियमों का पालन करती हैं, जहां गिराई गई वस्तुएं अनुमानित रूप से गिरती हैं, जहां प्रतिबिंब सही व्यवहार करते हैं।
मॉडल दृश्यमान रूप से प्रशंसनीय फ्रेम उत्पन्न करते हैं बिना भौतिक सामंजस्य को लागू किए। छोटी क्लिप के लिए काम करता है लेकिन लंबी अवधि में टूटता है।
भौतिक सामंजस्य सीखी गई विश्व गतिशीलता से उभरता है। लंबे, अधिक सुसंगत वीडियो संभव हो जाते हैं क्योंकि मॉडल विश्व की एक आंतरिक स्थिति बनाए रखता है।
हम पहले से ही इस परिवर्तन के शुरुआती संकेत देख रहे हैं। Runway का GWM-1 विश्व मॉडल पर उनका दांव है, और Veo 3.1 की सुधारी हुई भौतिकी सिमुलेशन सुझाती है कि Google समान सिद्धांतों को शामिल कर रहा है।
AGI कनेक्शन
यह सब कृत्रिम सामान्य बुद्धिमत्ता के लिए क्यों मायने रखता है? क्योंकि सत्य बुद्धिमत्ता के लिए केवल भाषा हेरफेर से अधिक की आवश्यकता होती है। इसके लिए कारण और प्रभाव को समझना, परिणामों की भविष्यवाणी करना, और भौतिक दुनिया में कार्यों की योजना बनानी आवश्यक है।
अंतर्निहित संज्ञान
सत्य बुद्धिमत्ता के लिए भौतिक वास्तविकता में आधार की आवश्यकता हो सकती है, केवल पाठ में सांख्यिकीय पैटर्न में नहीं।
इंटरैक्टिव शिक्षण
गेम परीक्षण के लिए परफेक्ट प्रदान करते हैं: समृद्ध भौतिकी, स्पष्ट फीडबैक, असीमित पुनरावृत्ति।
रोबोटिक्स अनुप्रयोग
गेम में प्रशिक्षित विश्व मॉडल न्यूनतम अनुकूलन के साथ वास्तविक दुनिया की रोबोटिक्स में स्थानांतरित हो सकते हैं।
इस काम को चलाने वाले शोधकर्ता सावधानी से दावा नहीं करते हैं कि वे AGI बना रहे हैं। लेकिन वे कायल तरीके से तर्क देते हैं कि विश्व समझ के बिना, हम ऐसी प्रणालियां नहीं बना सकते जो सचमुच सोचती हैं न कि केवल ऑटो-पूर्ण करती हैं।
अगला क्या होगा
अगले दो वर्ष महत्वपूर्ण साबित होंगे। कई विकास जिन पर नजर रखनी है:
- ○AMI Labs पहली सार्वजनिक प्रदर्शनी (2026 के मध्य की अपेक्षा)
- ○विश्व मॉडल का प्रमुख वीडियो जनरेटर में एकीकरण
- ○गेम इंजन कंपनियों (Unity, Unreal) द्वारा विश्व मॉडल API जोड़ना
- ○गेम-प्रशिक्षित विश्व मॉडल का उपयोग करने वाले पहले उपभोक्ता रोबोट
2030 तक $500 बिलियन से अधिक होने के लिए प्रक्षेपित गेमिंग बाजार, विश्व मॉडल तैनाती के लिए उपजाऊ जमीन का प्रतिनिधित्व करता है। निवेशक विश्व मॉडल को केवल अनुसंधान जिज्ञासा के रूप में नहीं बल्कि इंटरैक्टिव मनोरंजन, सिमुलेशन, और रोबोटिक्स के लिए आधारभूत प्रौद्योगिकी के रूप में देखते हैं।
शांत क्रांति
ChatGPT के आसपास विस्फोटक प्रचार के विपरीत, विश्व मॉडल क्रांति शोध प्रयोगशालाओं और गेम स्टूडियो में चुप ढंग से सामने आती है। कोई वायरल डेमो नहीं हैं, नवीनतम सफलता के बारे में कोई दैनिक समाचार चक्र नहीं।
लेकिन निहितार्थ अधिक गहरे हो सकते हैं। भाषा मॉडल ने बदल दिया कि हम पाठ के साथ कैसे इंटरैक्ट करते हैं। विश्व मॉडल बदल सकते हैं कि AI वास्तविकता के साथ कैसे इंटरैक्ट करता है।
उन लोगों के लिए जो AI वीडियो जनरेशन में काम कर रहे हैं, यह अनुसंधान खतरे और अवसर दोनों का प्रतिनिधित्व करता है। हमारे वर्तमान उपकरण पूर्वव्यापी रूप से आदिम लग सकते हैं, जैसे आधुनिक विज़ुअल इफेक्ट्स की तुलना में शुरुआती CGI। लेकिन अंतर्निहित सिद्धांत, सीखे गए मॉडल के माध्यम से दृश्य सामग्री उत्पन्न करना, केवल तब और शक्तिशाली होगा जब वे मॉडल वास्तव में उन दुनिया को समझने लगें जिन्हें वे बनाते हैं।
आगे पढ़ें: यह देखें कि कैसे diffusion transformers कई विश्व मॉडल के लिए आर्किटेक्चरल आधार प्रदान करते हैं, या real-time interactive generation के बारे में जानें जो विश्व मॉडल सिद्धांतों पर निर्मित है।
वीडियो गेम भौतिकी से कृत्रिम सामान्य बुद्धिमत्ता तक का पथ गोल-मटोल लग सकता है। लेकिन बुद्धिमत्ता, जहां भी हम इसे पाते हैं, उन प्रणालियों से उभरती है जो अपने पर्यावरण को समझती हैं और अपने कार्यों के परिणामों की भविष्यवाणी कर सकती हैं। गेम हमें ऐसी प्रणालियों को बनाने और परीक्षण करने के लिए एक सुरक्षित स्थान देते हैं। रोबोट, रचनात्मक उपकरण, और शायद सत्य मशीन समझ अनुसरण करेगी।
क्या यह लेख सहायक था?

Alexis
AI इंजीनियरलुसाने से AI इंजीनियर जो शोध की गहराई को व्यावहारिक नवाचार के साथ जोड़ते हैं। समय मॉडल आर्किटेक्चर और अल्पाइन चोटियों के बीच विभाजित करते हैं।
संबंधित लेख
इन संबंधित पोस्ट के साथ अन्वेषण जारी रखें

Yann LeCun ने Meta छोड़ा, World Models पर लगाया $3.5 Billion का दांव
Turing Award विजेता ने AMI Labs लॉन्च की, एक नया startup जो LLMs की जगह world models पर focus कर रहा है, robotics, healthcare और video understanding को target कर रहा है।

Runway GWM-1: सामान्य विश्व मॉडल जो रीयल-टाइम में वास्तविकता को सिमुलेट करता है
Runway का GWM-1 वीडियो जेनरेट करने से लेकर वर्ल्ड्स सिमुलेट करने तक एक paradigm shift को चिह्नित करता है। जानें कि कैसे यह ऑटोरिग्रेसिव मॉडल अन्वेषण योग्य वातावरण, फोटोरियलिस्टिक अवतार और रोबोट प्रशिक्षण सिमुलेशन बनाता है।

Video Language Models: LLMs और AI Agents के बाद Next Frontier
World models AI को physical reality समझना सिखा रहे हैं, robots को actions plan करने और outcomes simulate करने में मदद कर रहे हैं, एक भी actuator हिलाए बिना।