Pasaules Modeļi Ārpus Video: Kāpēc Spēles un Robotika ir Patiesie Pierādīšanas Laukumi AGI
No DeepMind Genie uz AMI Labs, pasaules modeļi klusi kļūst par pamatu AI, kas patiesi saprot fiziku. 500 miljardi dolāru spēļu tirgus var būt vieta, kur viņi vispirms sevi pierāda.

Kad Yanns LeCun paziņoja par viņa izstāšanos no Meta, lai uzsāktu AMI Labs ar 500 miljonu eiro finansējumu, viņš norādīja uz to, ko daudzi pētnieki bija klusi ticējuši gadus ilgi. Lieli valodas modeļi, neskatoties uz iespaidīgajiem spēkiem, pārstāv strupceļu uz mākslīgās vispārējās intelektas ceļu. Viņi prognozē žetonus bez realitātes izpratnes.
Kāds ir risinājums? Pasaules modeļi. Sistēmas, kas mācās simulēt, kā darbojas fiziskā pasaule.
Valodas Modeļu Fundamentālie Ierobežojumi
Pasaules modeļi mācās prognozēt, kas notiek nākotnē vizuālos vidēs, nevis tikai kādi vārdi nāk nākotnē tekstā. Tas prasa izpratni par fiziku, objektu pastāvību un cēlonības attiecībām.
Valodas modeļi ir teicami teksta paraugu saskaņošanā. Viņi var rakstīt dzejoli, atkļūdot kodu un vadīt sarunas, kas šķiet brīnumaingi cilvēciskas. Bet jautājiet GPT-4, kas notiek, kad nomet bumbu, un tā paļaujas uz iegaumētiem aprakstiem, nevis patiesas fiziskas intuīcijas.
Tas ir svarīgi, jo intelekts, kā mēs to piedzīvojam biologiskajā pasaulē, ir fundamentāli balstīts fiziskajā realitātē. Mazi bērni, kuri mācās likt klucīšus vienu uz otra, attīsta intuitīvu izpratni par gravitāciju, līdzsvaru un materiāla īpašībām daudz pirms valodas apguves. Šī iegultā izziņa, šī izjūta par to, kā darbojas pasaule, pārstāv tieši to, ko šobrīdējās AI sistēmās trūkst.
Pasaules modeļi cenšas aizpildīt šo spraugu. Tā vietā, lai prognozētu nākamo žetonu, viņi prognozē nākamo kadru, nākamo fizisko stāvokli, nākamo darbības sekas.
Trīs Pieejas Pasaules Izpratnei
Sacensība uz pasaules izpratnīguma AI veidošanu ir sadalījusies trīs atšķirīgos paradigmas, katram ar dažādiem spēkiem.
Apmācīti uz masīvajiem video datu kopumiem, lai apgūtu netiešo fiziku. Piemēri ir Sora un Veo. Labāki pie plausīblas turpināšanas ģenerēšanas, bet cīnās ar interaktīviem scenārijiem.
Veidojiet skaidras fizikas dzinējus un apmāciet AI, lai tos navigētu. Prasa dārgu manuālu vides konstruēšanu, bet piedāvā precīzu fizisko precizitāti.
Trešā pieeja, un varbūt visnelūgtākā, apvieno abus: mācīties pasaules dinamiku no video, vienlaikus saglabājot spēju mijiedarboties ar vidi un to manipulēt. Šeit spēles kļūst būtiskas.
Spēles, Ideāls Apmācības Lauks
Video spēles piedāvā kaut ko unikālu: interaktīvas vides ar konsekventiem fizikas noteikumiem, bezgalīgu variāciju un skaidras sekmju metrikas. Atšķirībā no reālās robotikas, kas prasa dārgu aparatūru un rada drošības jautājumus, spēles piedāvā neierobežotus neveiksmējumus bez sekām.
DeepMind šo potenciālu atzina agri. Viņu Genie sistēma var ģenerēt pilnīgi jaunas spēlējamas vides no vienas attēla. Dodiet tai skici no platformas līmeņa, un tas rada pasauli ar konsekventiem fizikas noteikumiem, kur personāžes var lēkt, nokrist un piemērotā veidā mijiedarboties ar objektiem.
Tas, kas padara Genie ievērojamu, ir nevis tikai ģenerācija, bet izpratne. Sistēma apgūst vispārinājamus fizikas jēdzienus, kas pārsūta pa dažādiem vizuālajiem stiliem un spēļu tipiem. Modelis, ko apmāca Mario stila platformās, attīsta intuīciju par gravitāciju un sadursmi, kas vienlīdz attiecas uz roku zīmētām neatkarīgām spēlēm un reālistiskiem 3D vidējiem.
No Spēlēm uz Robotiem
Spēļu-uz-robotikas vīleklis nav teorētisks. Uzņēmumi to jau lieto.
Simulācijas Plaisa Identificēta
Pētījumi parāda, ka modeļi, kas apmācīti tikai simulācijā, cīnās ar reālās pasaules nekārtībām: mainīgs apgaismojums, nepilnīgie sensori, negaidīti objekti.
Hibrīdas Pieejas Parādās
Komandas apvieno spēlē apmācītus pasaules modeļus ar ierobežotu reālās pasaules smalkinājumi, dramatiski samazinot robotikas apmācībai nepieciešamos datus.
Komerciāla Izvietošana Sākas
Pirmie noliktavas roboti ar pasaules modeļu mugurpusi tiek ievietoti ražošanā, apstrādājot jaunus objektus bez skaidras programmēšanas.
Ieskats, kas dala šo pāreju, ir vienkāršs: fizikas ir fizikas. Modelis, kas patiesi saprot, kā objekti krīt, slīd un saduras video spēlē, būtu ar atbilstošu pielāgošanu jāsaprot tie paši principi reālajā pasaulē. Vizuālais izskats mainās, bet pamatā esošā dinamika paliek nemainīga.
Tesla ir sekojusi šīs stratēģijas versijai ar viņu Optimus robotiem, vispirms apmācot simulācijā, tad izvietojot kontrolētās rūpniecības vides. Ierobežojošais faktors vienmēr ir bijis atšķirības starp simulēto un reālo fiziku. Pasaules modeļi, apmācu uz dažādu video datu, var visbeidzot šo plaisu tilti.
AMI Labs Likme
Yanns LeCun jaunā venture, AMI Labs, pārstāv vislielāko vienu ieguldījumu pasaules modeļu pētījumā līdz šim. Ar 500 miljonu eiro Eiropas finansējumu un komandu, kas rekrutēta no Meta, DeepMind un akadēmiskajiem laboratorijiem, viņi seko tam, ko LeCun sauc par "mērķu vadītu AI."
Atšķirībā no LLM, kas prognozē žetonus, AMI pieeja fokusējas uz pasaules attēlojuma apgūšanu, kas ļauj plānošanu un argumentēšanu par fiziskajām sekām.
Tehniskais pamats ir veidots uz Joint Embedding Predictive Architecture,framework, ko LeCun ir atbalstījis gadus ilgi. Tā vietā, lai ģenerētu pikseļu līmeņa prognozes, kas prasa milzīgus skaitļošanas resursus, JEPA apgūst abstraktus attēlojumus, kas uztver fizisko sistēmu būtisko struktūru.
Padomājiet par to šādi: cilvēks, kas raugās, kā bumba ripo pret klinti, ne simulēt katru bumbu trajektorijas pikseļu. Tā vietā mēs atzīstam abstrakto situāciju (bumba, mala, gravitācija) un prognozējam rezultātu (krišanu). JEPA mēģina uztvert šo efektīvu, abstraktu argumentāciju.
Sekas AI Video Ģenerēšanai
Šī pētniecības trajektorija ir dziļi svarīga radošām lietojumprogrammām. Pašreizējie AI video ģeneratori rada iespaidīgus rezultātus, bet cieš no laika nekonsekvences. Personāžes transformācijas, fizikas laužas, un objekti parādās un pazūd.
Pasaules modeļi piedāvā potenciālu risinājumu. Ģenerators, kas patiesi saprot fiziku, vajadzētu ražot videoklipus, kur objekti pakļaujas konsekventiem noteikumiem, kur kritušie elementi paši paredzamā veidā, kur refleksijas izturas pareizi.
Modeļi ģenerē vizuāli ticamus kadrus bez fiziskas konsekvences piespiedu izpildes. Darbojas īsiem fragmentiem, bet saplūst garākos ilgumos.
Fiziskā konsekvence rodas no apgūtās pasaules dinamikas. Garāki, sakarīgāki videoklips kļūst iespējami, jo modelis uztur pasaules iekšēju stāvokli.
Mēs jau redzam agrīnās norādes šai pārejai. Runway GWM-1 pārstāv viņu likmi uz pasaules modeļiem, un Veo 3.1 uzlabota fizika simulācija norāda, ka Google iekļauj līdzīgus principus.
AGI Savienojums
Kāpēc tas viss ir svarīgi mākslīgajai vispārējai intelektam? Jo patieusa intelekts prasa vairāk nekā valodas manipulāciju. Tas prasa cēlonības izpratni, sekas prognozēšanu un darbību plānošanu fiziskajā pasaulē.
Iegultā Izziņa
Patieusai intelektam var būt nepieciešama pamatošanās fiziskajā realitātē, nevis tikai statistiskas modeles tekstā.
Interaktīvā Mācīšanās
Spēles nodrošina ideālo testēšanas grīdu: bagātas fizikas, skaidrs feedback, bezgalīga atkārtošana.
Robotikas Pielietojums
Spēlēs apmācu pasaules modeļi varētu pārnest uz reālās pasaules robotiaku ar minimālu pielāgošanu.
Pētnieki, kas dīkstāvi darbā ir piesardzīgi, lai neapgalvotu, ka viņi rada AGI. Bet viņi pārliecinošu argumentēti, ka bez pasaules izpratnes mēs nevaram izveidot sistēmas, kas patiesi domā, nevis vienkārši auto-pabeigz.
Kas Nāk Tālāk
Nākamie divi gadi būs kritiskas. Vairākas tendences, kas jāuzmano:
- ○AMI Labs pirmās publiskās demonstrācijas (gaidītas vidēs-2026)
- ○Pasaules modeļu integrācija lielākajās video ģeneratorāsēs
- ○Spēļu dzinēju uzņēmumi (Unity, Unreal) pievieno pasaules modeļu API
- ○Pirmie patēriņa roboti, kas izmanto spēlē apmācītus pasaules modeļus
Spēļu tirgus, kurš ir projicēts pārsniegt 500 miljardus dolāru līdz 2030, pārstāv fertilu augsni pasaules modeļu izvietošanai. Ieguldītāji redz pasaules modeļus ne tikai kā pētniecības kuriotātes, bet kā pamata tehnoloģiju interaktīvai izklaidi, simulācijai un robotikai.
Klusa Revolūcija
Atšķirībā no sprāgstošā hype ap ChatGPT, pasaules modeļu revolūcija norisinās klusi pētniecības laboratorijās un spēļu studijās. Nav vīrusu demo, nav ikdienas jaunumu par nākamo pārraidi.
Bet sekas var būt dziļākas. Valodas modeļi mainīja, kā mēs mijiedarbojas ar tekstu. Pasaules modeļi varētu mainīt, kā AI mijiedarbojas ar realitāti.
Tiem no mums, kuri strādā ar AI video ģenerēšanu, šī pētniecība pārstāv gan draudus, gan iespējas. Mūsu pašreizējie rīki var šķist primitīvi atpakaļ skatienā, kā agrīnais CGI, salīdzinot ar moderno vizuālo efektu. Bet pamatā esošais princips, vizuālā satura ģenerēšana caur apgūtiem modeļiem, tikai kļūs spēcīgāks, jo šie modeļi sāks patiesi saprast pasaules, kuras viņi rada.
Tālāka Lasīšana: Pieskaņosies, kā Diffusion Transformers nodrošina arhitektūras pamatu daudziem pasaules modeļiem, vai uzziniet par reālā laika interaktīvo ģenerēšanu, kas balstīta uz pasaules modeļu principiem.
Ceļš no video spēļu fizikas uz mākslīgo vispārējo intelektu var šķist apļveidīgs. Bet intelekts, kur vien mēs to atrodam, rodas no sistēmām, kas saprot savu vidi un var prognozēt savu rīcības sekas. Spēles dod mums drošu vietu šādu sistēmu veidošanai un testēšanai. Roboti, radošie rīki un varbūt patieusā mašīnveida izpratne sekos.
Vai šis raksts bija noderīgs?

Alexis
MI InženierisMI inženieris no Lozannas, kurš apvieno pētniecības dziļumu ar praktisku inovāciju. Dala laiku starp modeļu arhitektūrām un Alpu kalniem.
Saistītie raksti
Turpiniet izpēti ar šiem saistītajiem rakstiem

Yann LeCun pamet Meta, lai liktu 3,5 miljardus dolāru uz pasaules modeļiem
Tjūringa balvas laureāts dibina AMI Labs, jaunu uzņēmumu, kas fokusējas uz pasaules modeļiem, nevis LLM, mērķējot uz robotiku, veselības aprūpi un video izpratni.

Runway GWM-1: Vispārīgais pasaules modelis, kas simulē realitāti reāllaikā
Runway GWM-1 iezīmē paradigmas maiņu no videoklipu ģenerēšanas uz pasauļu simulāciju. Uzziniet, kā šis autoregresīvais modelis rada pētāmas vides, fotoreālistiskus avatārus un robotu apmācības simulācijas.

Video valodas modeļi: Nākamā robeža pēc LLM un AI aģentiem
Pasaules modeļi māca AI saprast fizisko realitāti, ļaujot robotiem plānot darbības un simulēt rezultātus pirms viena aktuatora kustināšanas.