Meta Pixel
AlexisAlexis
9 min read
1798 शब्द

वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं

DeepMind Genie से लेकर AMI Labs तक, वर्ल्ड मॉडल AI के लिए आधार बन रहे हैं जो वास्तव में भौतिकी को समझता है। $500B गेमिंग बाजार वह जगह हो सकता है जहां वे पहले खुद को साबित करते हैं।

वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

कृत्रिम बुद्धिमत्ता का अगला क्रांति भाषा मॉडल से नहीं आएगी। यह उन सिस्टम से आएगी जो भौतिक दुनिया को समझते हैं, और पहला युद्ध क्षेत्र अनुसंधान प्रयोगशालाएं नहीं बल्कि वीडियो गेम हैं।

जब Yann LeCun ने Meta से अपना विदाई की घोषणा की और €500 मिलियन की बैकिंग के साथ AMI Labs लॉन्च किया, तो उन्होंने वह व्यक्त किया जो कई शोधकर्ता वर्षों से चुप रहकर मानते आ रहे हैं। बड़े भाषा मॉडल, अपनी सभी प्रभावशाली क्षमताओं के बावजूद, कृत्रिम सामान्य बुद्धिमत्ता के मार्ग पर एक मृत अंत का प्रतिनिधित्व करते हैं। वे बिना वास्तविकता को समझे टोकन की भविष्यवाणी करते हैं।

विकल्प क्या है? वर्ल्ड मॉडल। ऐसी प्रणालियां जो सीखती हैं कि भौतिक दुनिया कैसे काम करती है।

भाषा मॉडल की मौलिक सीमा

💡

वर्ल्ड मॉडल नेत्र-आधारित पर्यावरण में अगला क्या होगा यह भविष्यवाणी करते हैं, केवल टेक्स्ट में अगला शब्द नहीं। इसके लिए भौतिकी, वस्तु स्थायित्व, और कार्य-कारण को समझना आवश्यक है।

भाषा मॉडल पाठ पर पैटर्न मिलान में उत्कृष्ट हैं। वे कविता लिख सकते हैं, कोड को ठीक कर सकते हैं, और ऐसी बातचीत कर सकते हैं जो काफी हद तक मानव जैसी लगती हैं। लेकिन GPT-4 से पूछें कि गेंद गिरने पर क्या होता है, और यह स्मृति से भरे विवरण पर निर्भर करता है, वास्तविक भौतिक अंतर्ज्ञान पर नहीं।

यह महत्वपूर्ण है क्योंकि बुद्धिमत्ता, जैसा कि हम इसे जैविक दुनिया में अनुभव करते हैं, मौलिक रूप से भौतिक वास्तविकता में निहित है। एक छोटा बच्चा ब्लॉक को ढेर करना सीखते हुए गुरुत्वाकर्षण, संतुलन, और सामग्री गुणों की सहज समझ विकसित करता है, भाषा सीखने से बहुत पहले। यह अंतर्निहित संज्ञान, यह ज्ञान कि दुनिया कैसे काम करती है, वास्तव में वही है जो वर्तमान AI सिस्टम में कमी है।

वर्ल्ड मॉडल इस अंतर को भरने का लक्ष्य रखते हैं। अगले टोकन की भविष्यवाणी करने के बजाय, वे अगली फ्रेम, अगली भौतिक स्थिति, कार्य के अगले परिणाम की भविष्यवाणी करते हैं।

विश्व समझ के लिए तीन दृष्टिकोण

विश्व-समझ AI बनाने की दौड़ तीन अलग-अलग प्रतिमानों में विभाजित हुई है, प्रत्येक की अपनी शक्तियां हैं।

वीडियो भविष्यवाणी मॉडल

निहित भौतिकी सीखने के लिए विशाल वीडियो डेटासेट पर प्रशिक्षण लें। उदाहरणों में Sora और Veo शामिल हैं। प्रशंसनीय निरंतरता उत्पन्न करने में अच्छे हैं लेकिन इंटरैक्टिव परिदृश्यों में संघर्ष करते हैं।

अनुकरण-आधारित मॉडल

स्पष्ट भौतिकी इंजन बनाएं और AI को उन्हें नेविगेट करने के लिए प्रशिक्षित करें। पर्यावरण के महंगे मैनुअल निर्माण की आवश्यकता है लेकिन सटीक भौतिक सटीकता प्रदान करता है।

तीसरा दृष्टिकोण, और शायद सबसे वादा दिखाने वाला, दोनों को जोड़ता है: वीडियो से विश्व गतिशीलता सीखना जबकि पर्यावरण के साथ इंटरैक्ट करने और हेरफेर करने की क्षमता बनाए रखना। यहां गेमिंग आवश्यक हो जाता है।

गेमिंग: परीक्षा का परफेक्ट मैदान

वीडियो गेम कुछ अनोखा प्रदान करते हैं: सुसंगत भौतिकी नियमों वाले इंटरैक्टिव पर्यावरण, अनंत विविधता, और स्पष्ट सफलता के मापदंड। वास्तविक-दुनिया रोबोटिक्स के विपरीत, जिसके लिए महंगे हार्डवेयर की आवश्यकता होती है और सुरक्षा चिंताएं प्रस्तुत करता है, गेम बिना परिणाम के असीमित विफलता प्रदान करते हैं।

$500B+
2030 तक गेमिंग बाजार
€500M
AMI Labs फंडिंग
12%
वार्षिक वृद्धि दर

DeepMind ने यह संभावना जल्दी पहचानी। उनकी Genie प्रणाली एक ही छवि से बिल्कुल नए खेलने योग्य वातावरण उत्पन्न कर सकती है। इसे प्लेटफॉर्मर स्तर का एक स्केच दें, और यह सुसंगत भौतिकी वाली एक दुनिया बनाता है जहां पात्र कूद सकते हैं, गिर सकते हैं, और वस्तुओं के साथ उचित तरीके से इंटरैक्ट कर सकते हैं।

Genie को अद्भुत बनाने वाली बात केवल पीढ़ी नहीं बल्कि समझ है। प्रणाली सामान्य भौतिकी अवधारणाएं सीखती है जो विभिन्न दृश्य शैलियों और गेम प्रकारों में स्थानांतरित होती हैं। एक मॉडल जो Mario जैसे प्लेटफॉर्मर पर प्रशिक्षित होता है, गुरुत्वाकर्षण और टकराव के बारे में अंतर्ज्ञान विकसित करता है जो हाथ से खींचे गए इंडी गेम और यथार्थवादी 3D वातावरण दोनों पर समान रूप से लागू होते हैं।

गेम से रोबोट तक

गेमिंग-से-रोबोटिक्स पाइपलाइन सैद्धांतिक नहीं है। कंपनियां पहले से इसका उपयोग कर रही हैं।

2024

सिमुलेशन गैप की पहचान

शोध से पता चलता है कि विशुद्ध रूप से सिमुलेशन में प्रशिक्षित मॉडल वास्तविक दुनिया की गड़बड़ी के साथ संघर्ष करते हैं: बदलते प्रकाश, अपूर्ण संवेदक, अप्रत्याशित वस्तुएं।

2025

हाइब्रिड दृष्टिकोण उभरते हैं

टीमें गेम-प्रशिक्षित विश्व मॉडल को सीमित वास्तविक-दुनिया सूक्ष्म-समायोजन के साथ जोड़ते हैं, रोबोट प्रशिक्षण के लिए आवश्यक डेटा को नाटकीय रूप से कम करते हैं।

2026

वाणिज्यिक तैनाती शुरू होती है

विश्व मॉडल बैकबोन का उपयोग करने वाले पहले गोदाम रोबोट उत्पादन में प्रवेश करते हैं, स्पष्ट प्रोग्रामिंग के बिना उपन्यास वस्तुओं को संभालते हैं।

इस परिवर्तन को चलाने वाली अंतर्दृष्टि सरल है: भौतिकी भौतिकी है। एक मॉडल जो वास्तव में समझता है कि वीडियो गेम में वस्तुएं कैसे गिरती, स्लाइड करती, और टकराती हैं, उचित अनुकूलन के साथ, वास्तविक दुनिया में एक ही सिद्धांतों को समझना चाहिए। दृश्य उपस्थिति बदलती है, लेकिन अंतर्निहित गतिशीलता स्थिर रहती है।

Tesla ने अपने Optimus रोबोट के साथ इस रणनीति का एक संस्करण अपनाया है, पहले सिमुलेशन में प्रशिक्षण देते हुए नियंत्रित कारखाने के वातावरण में तैनाती से पहले। सीमित कारक हमेशा सिम्युलेटेड और वास्तविक भौतिकी के बीच का अंतर रहा है। विविध वीडियो डेटा पर प्रशिक्षित विश्व मॉडल अंत में उस अंतर को पाट सकते हैं।

AMI Labs का दांव

Yann LeCun का नया उद्यम, AMI Labs, विश्व मॉडल अनुसंधान में सबसे बड़ा एकल निवेश का प्रतिनिधित्व करता है। €500 मिलियन यूरोपीय फंडिंग और Meta, DeepMind, और शैक्षणिक प्रयोगशालाओं से भर्ती की गई टीम के साथ, वे वह कर रहे हैं जिसे LeCun "उद्देश्य-संचालित AI" कहते हैं।

💡

LLM के विपरीत जो टोकन की भविष्यवाणी करते हैं, AMI का दृष्टिकोण विश्व के प्रतिनिधित्व सीखने पर केंद्रित है जो भौतिक परिणामों के बारे में योजना और तर्क को सक्षम करता है।

तकनीकी आधार Joint Embedding Predictive Architecture (JEPA) पर बनता है, एक ढांचा जिसे LeCun वर्षों से समर्थन दे रहे हैं। पिक्सल-स्तर की भविष्यवाणी उत्पन्न करने के बजाय, जिसे विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता है, JEPA अमूर्त प्रतिनिधित्व सीखता है जो भौतिक प्रणालियों की आवश्यक संरचना को कैप्चर करता है।

इसे इस तरह सोचें: एक मनुष्य जो एक गेंद को पहाड़ी की ओर लुढ़कते हुए देखता है, गेंद के प्रक्षेपवक्र के हर पिक्सल को सिम्युलेट नहीं करता है। इसके बजाय, हम अमूर्त स्थिति को पहचानते हैं (गेंद, किनारा, गुरुत्वाकर्षण) और परिणाम की भविष्यवाणी करते हैं (गिरना)। JEPA इस कुशल, अमूर्त तर्क को कैप्चर करने का लक्ष्य रखता है।

AI वीडियो जनरेशन के लिए निहितार्थ

यह अनुसंधान प्रक्षेपवक्र रचनात्मक अनुप्रयोगों के लिए गहराई से मायने रखता है। वर्तमान AI वीडियो जनरेटर प्रभावशाली परिणाम पैदा करते हैं लेकिन अस्थायी असंगति से पीड़ित हैं। पात्र रूप बदलते हैं, भौतिकी टूटती है, और वस्तुएं प्रकट और गायब होती हैं।

वर्ल्ड मॉडल एक संभावित समाधान प्रदान करते हैं। एक जनरेटर जो वास्तव में भौतिकी को समझता है, ऐसे वीडियो का उत्पादन करना चाहिए जहां वस्तुएं सुसंगत नियमों का पालन करती हैं, जहां गिराई गई वस्तुएं अनुमानित रूप से गिरती हैं, जहां प्रतिबिंब सही व्यवहार करते हैं।

वर्तमान स्थिति

मॉडल दृश्यमान रूप से प्रशंसनीय फ्रेम उत्पन्न करते हैं बिना भौतिक सामंजस्य को लागू किए। छोटी क्लिप के लिए काम करता है लेकिन लंबी अवधि में टूटता है।

विश्व मॉडल भविष्य

भौतिक सामंजस्य सीखी गई विश्व गतिशीलता से उभरता है। लंबे, अधिक सुसंगत वीडियो संभव हो जाते हैं क्योंकि मॉडल विश्व की एक आंतरिक स्थिति बनाए रखता है।

हम पहले से ही इस परिवर्तन के शुरुआती संकेत देख रहे हैं। Runway का GWM-1 विश्व मॉडल पर उनका दांव है, और Veo 3.1 की सुधारी हुई भौतिकी सिमुलेशन सुझाती है कि Google समान सिद्धांतों को शामिल कर रहा है।

AGI कनेक्शन

यह सब कृत्रिम सामान्य बुद्धिमत्ता के लिए क्यों मायने रखता है? क्योंकि सत्य बुद्धिमत्ता के लिए केवल भाषा हेरफेर से अधिक की आवश्यकता होती है। इसके लिए कारण और प्रभाव को समझना, परिणामों की भविष्यवाणी करना, और भौतिक दुनिया में कार्यों की योजना बनानी आवश्यक है।

🧠

अंतर्निहित संज्ञान

सत्य बुद्धिमत्ता के लिए भौतिक वास्तविकता में आधार की आवश्यकता हो सकती है, केवल पाठ में सांख्यिकीय पैटर्न में नहीं।

🎮

इंटरैक्टिव शिक्षण

गेम परीक्षण के लिए परफेक्ट प्रदान करते हैं: समृद्ध भौतिकी, स्पष्ट फीडबैक, असीमित पुनरावृत्ति।

🤖

रोबोटिक्स अनुप्रयोग

गेम में प्रशिक्षित विश्व मॉडल न्यूनतम अनुकूलन के साथ वास्तविक दुनिया की रोबोटिक्स में स्थानांतरित हो सकते हैं।

इस काम को चलाने वाले शोधकर्ता सावधानी से दावा नहीं करते हैं कि वे AGI बना रहे हैं। लेकिन वे कायल तरीके से तर्क देते हैं कि विश्व समझ के बिना, हम ऐसी प्रणालियां नहीं बना सकते जो सचमुच सोचती हैं न कि केवल ऑटो-पूर्ण करती हैं।

अगला क्या होगा

अगले दो वर्ष महत्वपूर्ण साबित होंगे। कई विकास जिन पर नजर रखनी है:

  • AMI Labs पहली सार्वजनिक प्रदर्शनी (2026 के मध्य की अपेक्षा)
  • विश्व मॉडल का प्रमुख वीडियो जनरेटर में एकीकरण
  • गेम इंजन कंपनियों (Unity, Unreal) द्वारा विश्व मॉडल API जोड़ना
  • गेम-प्रशिक्षित विश्व मॉडल का उपयोग करने वाले पहले उपभोक्ता रोबोट

2030 तक $500 बिलियन से अधिक होने के लिए प्रक्षेपित गेमिंग बाजार, विश्व मॉडल तैनाती के लिए उपजाऊ जमीन का प्रतिनिधित्व करता है। निवेशक विश्व मॉडल को केवल अनुसंधान जिज्ञासा के रूप में नहीं बल्कि इंटरैक्टिव मनोरंजन, सिमुलेशन, और रोबोटिक्स के लिए आधारभूत प्रौद्योगिकी के रूप में देखते हैं।

शांत क्रांति

ChatGPT के आसपास विस्फोटक प्रचार के विपरीत, विश्व मॉडल क्रांति शोध प्रयोगशालाओं और गेम स्टूडियो में चुप ढंग से सामने आती है। कोई वायरल डेमो नहीं हैं, नवीनतम सफलता के बारे में कोई दैनिक समाचार चक्र नहीं।

लेकिन निहितार्थ अधिक गहरे हो सकते हैं। भाषा मॉडल ने बदल दिया कि हम पाठ के साथ कैसे इंटरैक्ट करते हैं। विश्व मॉडल बदल सकते हैं कि AI वास्तविकता के साथ कैसे इंटरैक्ट करता है।

उन लोगों के लिए जो AI वीडियो जनरेशन में काम कर रहे हैं, यह अनुसंधान खतरे और अवसर दोनों का प्रतिनिधित्व करता है। हमारे वर्तमान उपकरण पूर्वव्यापी रूप से आदिम लग सकते हैं, जैसे आधुनिक विज़ुअल इफेक्ट्स की तुलना में शुरुआती CGI। लेकिन अंतर्निहित सिद्धांत, सीखे गए मॉडल के माध्यम से दृश्य सामग्री उत्पन्न करना, केवल तब और शक्तिशाली होगा जब वे मॉडल वास्तव में उन दुनिया को समझने लगें जिन्हें वे बनाते हैं।

💡

आगे पढ़ें: यह देखें कि कैसे diffusion transformers कई विश्व मॉडल के लिए आर्किटेक्चरल आधार प्रदान करते हैं, या real-time interactive generation के बारे में जानें जो विश्व मॉडल सिद्धांतों पर निर्मित है।

वीडियो गेम भौतिकी से कृत्रिम सामान्य बुद्धिमत्ता तक का पथ गोल-मटोल लग सकता है। लेकिन बुद्धिमत्ता, जहां भी हम इसे पाते हैं, उन प्रणालियों से उभरती है जो अपने पर्यावरण को समझती हैं और अपने कार्यों के परिणामों की भविष्यवाणी कर सकती हैं। गेम हमें ऐसी प्रणालियों को बनाने और परीक्षण करने के लिए एक सुरक्षित स्थान देते हैं। रोबोट, रचनात्मक उपकरण, और शायद सत्य मशीन समझ अनुसरण करेगी।

क्या यह लेख सहायक था?

Alexis

Alexis

AI इंजीनियर

लुसाने से AI इंजीनियर जो शोध की गहराई को व्यावहारिक नवाचार के साथ जोड़ते हैं। समय मॉडल आर्किटेक्चर और अल्पाइन चोटियों के बीच विभाजित करते हैं।

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

संबंधित लेख

इन संबंधित पोस्ट के साथ अन्वेषण जारी रखें

Yann LeCun ने Meta छोड़ा, World Models पर लगाया $3.5 Billion का दांव
World ModelsAMI Labs

Yann LeCun ने Meta छोड़ा, World Models पर लगाया $3.5 Billion का दांव

Turing Award विजेता ने AMI Labs लॉन्च की, एक नया startup जो LLMs की जगह world models पर focus कर रहा है, robotics, healthcare और video understanding को target कर रहा है।

Read
Runway GWM-1: सामान्य विश्व मॉडल जो रीयल-टाइम में वास्तविकता को सिमुलेट करता है
RunwayWorld Models

Runway GWM-1: सामान्य विश्व मॉडल जो रीयल-टाइम में वास्तविकता को सिमुलेट करता है

Runway का GWM-1 वीडियो जेनरेट करने से लेकर वर्ल्ड्स सिमुलेट करने तक एक paradigm shift को चिह्नित करता है। जानें कि कैसे यह ऑटोरिग्रेसिव मॉडल अन्वेषण योग्य वातावरण, फोटोरियलिस्टिक अवतार और रोबोट प्रशिक्षण सिमुलेशन बनाता है।

Read
Video Language Models: LLMs और AI Agents के बाद Next Frontier
World ModelsVideo Language Models

Video Language Models: LLMs और AI Agents के बाद Next Frontier

World models AI को physical reality समझना सिखा रहे हैं, robots को actions plan करने और outcomes simulate करने में मदद कर रहे हैं, एक भी actuator हिलाए बिना।

Read

यह लेख पसंद आया?

और जानकारी प्राप्त करें और हमारी नवीनतम सामग्री से अपडेट रहें।

वीडियो से परे वर्ल्ड मॉडल: गेमिंग और रोबोटिक्स AGI के असली परीक्षा क्षेत्र क्यों हैं