वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं

कृत्रिम बुद्धिमत्ता का अगला क्रांति भाषा मॉडल से नहीं आएगी। यह उन सिस्टम से आएगी जो भौतिक दुनिया को समझते हैं, और पहला युद्ध क्षेत्र अनुसंधान प्रयोगशालाएं नहीं बल्कि वीडियो गेम हैं।

जब Yann LeCun ने Meta से अपना विदाई की घोषणा की और €500 मिलियन की बैकिंग के साथ AMI Labs लॉन्च किया, तो उन्होंने वह व्यक्त किया जो कई शोधकर्ता वर्षों से चुप रहकर मानते आ रहे हैं। बड़े भाषा मॉडल, अपनी सभी प्रभावशाली क्षमताओं के बावजूद, कृत्रिम सामान्य बुद्धिमत्ता के मार्ग पर एक मृत अंत का प्रतिनिधित्व करते हैं। वे बिना वास्तविकता को समझे टोकन की भविष्यवाणी करते हैं।

विकल्प क्या है? वर्ल्ड मॉडल। ऐसी प्रणालियां जो सीखती हैं कि भौतिक दुनिया कैसे काम करती है।

भाषा मॉडल की मौलिक सीमा

💡

वर्ल्ड मॉडल नेत्र-आधारित पर्यावरण में अगला क्या होगा यह भविष्यवाणी करते हैं, केवल टेक्स्ट में अगला शब्द नहीं। इसके लिए भौतिकी, वस्तु स्थायित्व, और कार्य-कारण को समझना आवश्यक है।

भाषा मॉडल पाठ पर पैटर्न मिलान में उत्कृष्ट हैं। वे कविता लिख सकते हैं, कोड को ठीक कर सकते हैं, और ऐसी बातचीत कर सकते हैं जो काफी हद तक मानव जैसी लगती हैं। लेकिन GPT-4 से पूछें कि गेंद गिरने पर क्या होता है, और यह स्मृति से भरे विवरण पर निर्भर करता है, वास्तविक भौतिक अंतर्ज्ञान पर नहीं।

यह महत्वपूर्ण है क्योंकि बुद्धिमत्ता, जैसा कि हम इसे जैविक दुनिया में अनुभव करते हैं, मौलिक रूप से भौतिक वास्तविकता में निहित है। एक छोटा बच्चा ब्लॉक को ढेर करना सीखते हुए गुरुत्वाकर्षण, संतुलन, और सामग्री गुणों की सहज समझ विकसित करता है, भाषा सीखने से बहुत पहले। यह अंतर्निहित संज्ञान, यह ज्ञान कि दुनिया कैसे काम करती है, वास्तव में वही है जो वर्तमान AI सिस्टम में कमी है।

वर्ल्ड मॉडल इस अंतर को भरने का लक्ष्य रखते हैं। अगले टोकन की भविष्यवाणी करने के बजाय, वे अगली फ्रेम, अगली भौतिक स्थिति, कार्य के अगले परिणाम की भविष्यवाणी करते हैं।

विश्व समझ के लिए तीन दृष्टिकोण

विश्व-समझ AI बनाने की दौड़ तीन अलग-अलग प्रतिमानों में विभाजित हुई है, प्रत्येक की अपनी शक्तियां हैं।

✓वीडियो भविष्यवाणी मॉडल

निहित भौतिकी सीखने के लिए विशाल वीडियो डेटासेट पर प्रशिक्षण लें। उदाहरणों में Sora और Veo शामिल हैं। प्रशंसनीय निरंतरता उत्पन्न करने में अच्छे हैं लेकिन इंटरैक्टिव परिदृश्यों में संघर्ष करते हैं।

✗अनुकरण-आधारित मॉडल

स्पष्ट भौतिकी इंजन बनाएं और AI को उन्हें नेविगेट करने के लिए प्रशिक्षित करें। पर्यावरण के महंगे मैनुअल निर्माण की आवश्यकता है लेकिन सटीक भौतिक सटीकता प्रदान करता है।

तीसरा दृष्टिकोण, और शायद सबसे वादा दिखाने वाला, दोनों को जोड़ता है: वीडियो से विश्व गतिशीलता सीखना जबकि पर्यावरण के साथ इंटरैक्ट करने और हेरफेर करने की क्षमता बनाए रखना। यहां गेमिंग आवश्यक हो जाता है।

गेमिंग: परीक्षा का परफेक्ट मैदान

वीडियो गेम कुछ अनोखा प्रदान करते हैं: सुसंगत भौतिकी नियमों वाले इंटरैक्टिव पर्यावरण, अनंत विविधता, और स्पष्ट सफलता के मापदंड। वास्तविक-दुनिया रोबोटिक्स के विपरीत, जिसके लिए महंगे हार्डवेयर की आवश्यकता होती है और सुरक्षा चिंताएं प्रस्तुत करता है, गेम बिना परिणाम के असीमित विफलता प्रदान करते हैं।

$500B+

2030 तक गेमिंग बाजार

€500M

AMI Labs फंडिंग

12%

वार्षिक वृद्धि दर

DeepMind ने यह संभावना जल्दी पहचानी। उनकी Genie प्रणाली एक ही छवि से बिल्कुल नए खेलने योग्य वातावरण उत्पन्न कर सकती है। इसे प्लेटफॉर्मर स्तर का एक स्केच दें, और यह सुसंगत भौतिकी वाली एक दुनिया बनाता है जहां पात्र कूद सकते हैं, गिर सकते हैं, और वस्तुओं के साथ उचित तरीके से इंटरैक्ट कर सकते हैं।

Genie को अद्भुत बनाने वाली बात केवल पीढ़ी नहीं बल्कि समझ है। प्रणाली सामान्य भौतिकी अवधारणाएं सीखती है जो विभिन्न दृश्य शैलियों और गेम प्रकारों में स्थानांतरित होती हैं। एक मॉडल जो Mario जैसे प्लेटफॉर्मर पर प्रशिक्षित होता है, गुरुत्वाकर्षण और टकराव के बारे में अंतर्ज्ञान विकसित करता है जो हाथ से खींचे गए इंडी गेम और यथार्थवादी 3D वातावरण दोनों पर समान रूप से लागू होते हैं।

गेम से रोबोट तक

गेमिंग-से-रोबोटिक्स पाइपलाइन सैद्धांतिक नहीं है। कंपनियां पहले से इसका उपयोग कर रही हैं।

2024

सिमुलेशन गैप की पहचान

शोध से पता चलता है कि विशुद्ध रूप से सिमुलेशन में प्रशिक्षित मॉडल वास्तविक दुनिया की गड़बड़ी के साथ संघर्ष करते हैं: बदलते प्रकाश, अपूर्ण संवेदक, अप्रत्याशित वस्तुएं।

2025

हाइब्रिड दृष्टिकोण उभरते हैं

टीमें गेम-प्रशिक्षित विश्व मॉडल को सीमित वास्तविक-दुनिया सूक्ष्म-समायोजन के साथ जोड़ते हैं, रोबोट प्रशिक्षण के लिए आवश्यक डेटा को नाटकीय रूप से कम करते हैं।

2026

वाणिज्यिक तैनाती शुरू होती है

विश्व मॉडल बैकबोन का उपयोग करने वाले पहले गोदाम रोबोट उत्पादन में प्रवेश करते हैं, स्पष्ट प्रोग्रामिंग के बिना उपन्यास वस्तुओं को संभालते हैं।

इस परिवर्तन को चलाने वाली अंतर्दृष्टि सरल है: भौतिकी भौतिकी है। एक मॉडल जो वास्तव में समझता है कि वीडियो गेम में वस्तुएं कैसे गिरती, स्लाइड करती, और टकराती हैं, उचित अनुकूलन के साथ, वास्तविक दुनिया में एक ही सिद्धांतों को समझना चाहिए। दृश्य उपस्थिति बदलती है, लेकिन अंतर्निहित गतिशीलता स्थिर रहती है।

Tesla ने अपने Optimus रोबोट के साथ इस रणनीति का एक संस्करण अपनाया है, पहले सिमुलेशन में प्रशिक्षण देते हुए नियंत्रित कारखाने के वातावरण में तैनाती से पहले। सीमित कारक हमेशा सिम्युलेटेड और वास्तविक भौतिकी के बीच का अंतर रहा है। विविध वीडियो डेटा पर प्रशिक्षित विश्व मॉडल अंत में उस अंतर को पाट सकते हैं।

AMI Labs का दांव

Yann LeCun का नया उद्यम, AMI Labs, विश्व मॉडल अनुसंधान में सबसे बड़ा एकल निवेश का प्रतिनिधित्व करता है। €500 मिलियन यूरोपीय फंडिंग और Meta, DeepMind, और शैक्षणिक प्रयोगशालाओं से भर्ती की गई टीम के साथ, वे वह कर रहे हैं जिसे LeCun "उद्देश्य-संचालित AI" कहते हैं।

💡

LLM के विपरीत जो टोकन की भविष्यवाणी करते हैं, AMI का दृष्टिकोण विश्व के प्रतिनिधित्व सीखने पर केंद्रित है जो भौतिक परिणामों के बारे में योजना और तर्क को सक्षम करता है।

तकनीकी आधार Joint Embedding Predictive Architecture (JEPA) पर बनता है, एक ढांचा जिसे LeCun वर्षों से समर्थन दे रहे हैं। पिक्सल-स्तर की भविष्यवाणी उत्पन्न करने के बजाय, जिसे विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता है, JEPA अमूर्त प्रतिनिधित्व सीखता है जो भौतिक प्रणालियों की आवश्यक संरचना को कैप्चर करता है।

इसे इस तरह सोचें: एक मनुष्य जो एक गेंद को पहाड़ी की ओर लुढ़कते हुए देखता है, गेंद के प्रक्षेपवक्र के हर पिक्सल को सिम्युलेट नहीं करता है। इसके बजाय, हम अमूर्त स्थिति को पहचानते हैं (गेंद, किनारा, गुरुत्वाकर्षण) और परिणाम की भविष्यवाणी करते हैं (गिरना)। JEPA इस कुशल, अमूर्त तर्क को कैप्चर करने का लक्ष्य रखता है।

AI वीडियो जनरेशन के लिए निहितार्थ

यह अनुसंधान प्रक्षेपवक्र रचनात्मक अनुप्रयोगों के लिए गहराई से मायने रखता है। वर्तमान AI वीडियो जनरेटर प्रभावशाली परिणाम पैदा करते हैं लेकिन अस्थायी असंगति से पीड़ित हैं। पात्र रूप बदलते हैं, भौतिकी टूटती है, और वस्तुएं प्रकट और गायब होती हैं।

वर्ल्ड मॉडल एक संभावित समाधान प्रदान करते हैं। एक जनरेटर जो वास्तव में भौतिकी को समझता है, ऐसे वीडियो का उत्पादन करना चाहिए जहां वस्तुएं सुसंगत नियमों का पालन करती हैं, जहां गिराई गई वस्तुएं अनुमानित रूप से गिरती हैं, जहां प्रतिबिंब सही व्यवहार करते हैं।

✗वर्तमान स्थिति

मॉडल दृश्यमान रूप से प्रशंसनीय फ्रेम उत्पन्न करते हैं बिना भौतिक सामंजस्य को लागू किए। छोटी क्लिप के लिए काम करता है लेकिन लंबी अवधि में टूटता है।

✓विश्व मॉडल भविष्य

भौतिक सामंजस्य सीखी गई विश्व गतिशीलता से उभरता है। लंबे, अधिक सुसंगत वीडियो संभव हो जाते हैं क्योंकि मॉडल विश्व की एक आंतरिक स्थिति बनाए रखता है।

हम पहले से ही इस परिवर्तन के शुरुआती संकेत देख रहे हैं। Runway का GWM-1 विश्व मॉडल पर उनका दांव है, और Veo 3.1 की सुधारी हुई भौतिकी सिमुलेशन सुझाती है कि Google समान सिद्धांतों को शामिल कर रहा है।

AGI कनेक्शन

यह सब कृत्रिम सामान्य बुद्धिमत्ता के लिए क्यों मायने रखता है? क्योंकि सत्य बुद्धिमत्ता के लिए केवल भाषा हेरफेर से अधिक की आवश्यकता होती है। इसके लिए कारण और प्रभाव को समझना, परिणामों की भविष्यवाणी करना, और भौतिक दुनिया में कार्यों की योजना बनानी आवश्यक है।

🧠

अंतर्निहित संज्ञान

सत्य बुद्धिमत्ता के लिए भौतिक वास्तविकता में आधार की आवश्यकता हो सकती है, केवल पाठ में सांख्यिकीय पैटर्न में नहीं।

🎮

इंटरैक्टिव शिक्षण

गेम परीक्षण के लिए परफेक्ट प्रदान करते हैं: समृद्ध भौतिकी, स्पष्ट फीडबैक, असीमित पुनरावृत्ति।

🤖

रोबोटिक्स अनुप्रयोग

गेम में प्रशिक्षित विश्व मॉडल न्यूनतम अनुकूलन के साथ वास्तविक दुनिया की रोबोटिक्स में स्थानांतरित हो सकते हैं।

इस काम को चलाने वाले शोधकर्ता सावधानी से दावा नहीं करते हैं कि वे AGI बना रहे हैं। लेकिन वे कायल तरीके से तर्क देते हैं कि विश्व समझ के बिना, हम ऐसी प्रणालियां नहीं बना सकते जो सचमुच सोचती हैं न कि केवल ऑटो-पूर्ण करती हैं।

अगला क्या होगा

अगले दो वर्ष महत्वपूर्ण साबित होंगे। कई विकास जिन पर नजर रखनी है:

○AMI Labs पहली सार्वजनिक प्रदर्शनी (2026 के मध्य की अपेक्षा)
○विश्व मॉडल का प्रमुख वीडियो जनरेटर में एकीकरण
○गेम इंजन कंपनियों (Unity, Unreal) द्वारा विश्व मॉडल API जोड़ना
○गेम-प्रशिक्षित विश्व मॉडल का उपयोग करने वाले पहले उपभोक्ता रोबोट

2030 तक $500 बिलियन से अधिक होने के लिए प्रक्षेपित गेमिंग बाजार, विश्व मॉडल तैनाती के लिए उपजाऊ जमीन का प्रतिनिधित्व करता है। निवेशक विश्व मॉडल को केवल अनुसंधान जिज्ञासा के रूप में नहीं बल्कि इंटरैक्टिव मनोरंजन, सिमुलेशन, और रोबोटिक्स के लिए आधारभूत प्रौद्योगिकी के रूप में देखते हैं।

शांत क्रांति

ChatGPT के आसपास विस्फोटक प्रचार के विपरीत, विश्व मॉडल क्रांति शोध प्रयोगशालाओं और गेम स्टूडियो में चुप ढंग से सामने आती है। कोई वायरल डेमो नहीं हैं, नवीनतम सफलता के बारे में कोई दैनिक समाचार चक्र नहीं।

लेकिन निहितार्थ अधिक गहरे हो सकते हैं। भाषा मॉडल ने बदल दिया कि हम पाठ के साथ कैसे इंटरैक्ट करते हैं। विश्व मॉडल बदल सकते हैं कि AI वास्तविकता के साथ कैसे इंटरैक्ट करता है।

उन लोगों के लिए जो AI वीडियो जनरेशन में काम कर रहे हैं, यह अनुसंधान खतरे और अवसर दोनों का प्रतिनिधित्व करता है। हमारे वर्तमान उपकरण पूर्वव्यापी रूप से आदिम लग सकते हैं, जैसे आधुनिक विज़ुअल इफेक्ट्स की तुलना में शुरुआती CGI। लेकिन अंतर्निहित सिद्धांत, सीखे गए मॉडल के माध्यम से दृश्य सामग्री उत्पन्न करना, केवल तब और शक्तिशाली होगा जब वे मॉडल वास्तव में उन दुनिया को समझने लगें जिन्हें वे बनाते हैं।

💡

आगे पढ़ें: यह देखें कि कैसे diffusion transformers कई विश्व मॉडल के लिए आर्किटेक्चरल आधार प्रदान करते हैं, या real-time interactive generation के बारे में जानें जो विश्व मॉडल सिद्धांतों पर निर्मित है।

वीडियो गेम भौतिकी से कृत्रिम सामान्य बुद्धिमत्ता तक का पथ गोल-मटोल लग सकता है। लेकिन बुद्धिमत्ता, जहां भी हम इसे पाते हैं, उन प्रणालियों से उभरती है जो अपने पर्यावरण को समझती हैं और अपने कार्यों के परिणामों की भविष्यवाणी कर सकती हैं। गेम हमें ऐसी प्रणालियों को बनाने और परीक्षण करने के लिए एक सुरक्षित स्थान देते हैं। रोबोट, रचनात्मक उपकरण, और शायद सत्य मशीन समझ अनुसरण करेगी।

वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं

भाषा मॉडल की मौलिक सीमा

विश्व समझ के लिए तीन दृष्टिकोण

गेमिंग: परीक्षा का परफेक्ट मैदान

गेम से रोबोट तक

सिमुलेशन गैप की पहचान

हाइब्रिड दृष्टिकोण उभरते हैं

वाणिज्यिक तैनाती शुरू होती है

AMI Labs का दांव

AI वीडियो जनरेशन के लिए निहितार्थ

AGI कनेक्शन

अंतर्निहित संज्ञान

इंटरैक्टिव शिक्षण

रोबोटिक्स अनुप्रयोग

अगला क्या होगा

शांत क्रांति

Alexis

Like what you read?

संबंधित लेख

Yann LeCun ने Meta छोड़ा, World Models पर लगाया $3.5 Billion का दांव

Runway GWM-1: सामान्य विश्व मॉडल जो रीयल-टाइम में वास्तविकता को सिमुलेट करता है

Video Language Models: LLMs और AI Agents के बाद Next Frontier

यह लेख पसंद आया?