Svetski modeli posle videa: zašto su igre i robotika pravo iskustvo za AGI
Od DeepMind Genie do AMI Labs, svetski modeli tiho postaju osnova za AI koji zaista razume fiziku. Tržište video igara vredno 500 milijardi dolara može biti mesto njihove prve demonstracije.

Kada je Yan LeCun objavio svoj odlazak iz Meta kako bi pokrenuo AMI Labs sa 500 miliona evra financiranja, formulisao je ono u šta su mnogi istraživači dugo šutke verili. Veliki jezički modeli, uprkos svojoj impresivnoj snazi, predstavljaju ćorsokak na putu ka veštačkoj opšoj inteligenciji. Oni predviđaju tokene bez razumevanja realnosti.
Alternativa? Svetski modeli. Sistemi koji se uče da simuliraju kako funkcioniše fizički svet.
Temeljno ograničenje jezičkih modela
Svetski modeli uče da predviđaju šta će se dalje desiti u vizuelnim okruženjima, ne samo koje reči će doći dalje u tekstu. Ovo zahteva razumevanje fizike, stalnosti objekata i uzročno-posledičnih veza.
Jezički modeli su odličnih na pronalaženju šablona u tekstu. Mogu da pišu poeziju, otklanjaju greške i vode razgovore koji se čine iznenađujuće ljudski. Ali ako pitaš GPT-4 da predvidi šta će se desiti kada bacite loptu, oslanja se na zapamćene opise umesto na pravu fizičku intuiciju.
To je važno jer je inteligencija, kako je doživljavamo u biološkom svetu, fundamentalno zasnovana u fizičkoj stvarnosti. Malo dete koje se uči da gradi kule od blokova razvija intuitivno razumevanje gravitacije, ravnoteže i osobina materijala mnogo pre nego što nauči jezik. Ovo utjelovljeno znanje, ovo osećanje kako svet funkcioniše, predstavlja upravo ono što nedostaje sadašnjim AI sistemima.
Svetski modeli imaju cilj da popune ovaj jaz. Umesto da predviđaju sledeći token, oni predviđaju sledeći kadar, sleće fizičko stanje, posledicu radnje.
Tri pristupa razumevanju sveta
Trka za izgradnjom AI koji razume svet podeljena je na tri različite paradigme, svaka sa svojim prednostima.
Obučavanje na ogromnim skupovima video podataka za učenje implicitne fizike. Primeri uključuju Sora i Veo. Dobri su pri generisanju verodostojnih nastavaka, ali se muče s interaktivnim scenarijima.
Gradnja eksplicitnih fizičkih motora i obučavanje AI da ih navigira. Zahteva skupo ručno pravljenje okruženja, ali omogućava preciznu fizičku tačnost.
Treći pristup, i možda najobečavajući, kombinuje oba: učenje svetske dinamike iz videa zadržavajući mogućnost interakcije sa okruženjem i manipulisanja njim. Tu igre postaju neophodne.
Igre: Savršeni test terenski poligon
Video igre pružaju nešto jedinstveno: interaktivna okruženja sa konzistentnim pravilima fizike, beskonačnu raznolikost i jasne mere uspeha. Za razliku od robotike u realnom svetu, koja zahteva skupu opremu i stvara probleme bezbednosti, igre nude neograničene greške bez posledica.
DeepMind je rano prepoznao ovaj potencijal. Njihov sistem Genie može generisati potpuno nova igrivačka okruženja iz jedne slike. Dajte joj skicu platforme nivo i ona kreira svet sa konzistentnom fizikom gde likovi mogu skakati, padati i na odgovarajući način stupati u interakciju sa objektima.
Ono što je naucno kod Genie nije samo generisanje već razumevanje. Sistem uči uopštive koncepte fizike koji se prenose na različite vizuelne stilove i tipove igara. Model obučen na platformama u stilu Mario razvija intuiciju o gravitaciji i sudarima koja podjednako važi za ručno crtane indie igre i realistična 3D okruženja.
Od igara do robota
Cevovod od igara do robotike nije teorijski. Kompanije ga već koriste.
Utvrđeni jaz simulacije
Istraživanja pokazuju da modeli obučeni čisto u simulaciji imaju poteškoće sa stvarnom neurenosti: različito osvetljenje, nesavršeni senzori, neočekivani objekti.
Hibridni pristupi se pojavljuju
Timovi kombinuju svetske modele obučene na igrama sa ograničenim fino podešavanjem u stvarnom svetu, drastično smanjujući podatke potrebne za obučavanje robota.
Počinje komercijalna primena
Prvi skladišni roboti koristeći osnove svetskih modela ulaze u proizvodnju i rukuju novim objektima bez eksplicitnog programiranja.
Ideja koja pokreće ovaj prelazak je prosta: fizika je fizika. Model koji zaista razume kako objekti padaju, klize i sudaraju se u video igri, trebalo bi, sa odgovarajućom adaptacijom, da razume iste principe u stvarnom svetu. Vizuelni izgled se menja, ali osnovna dinamika ostaje konstanta.
Tesla je koristila verziju ove strategije sa svojim Optimus robotima, prvo obučavajući ih u simulaciji pre nego što ih primeni u kontrolisanim fabričkim okruženjima. Ograničavajući faktor je uvek bio jaz između simulirane i stvarne fizike. Svetski modeli obučeni na raznovrsnim video podacima mogu konačno mostiti taj jaz.
Oklada AMI Labs
Novo preduzeće Yana LeCun, AMI Labs, predstavlja najveće samačko ulaganje u istraživanje svetskih modela do sada. Sa 500 miliona evra evropskog finansiranja i timom regrutovanim iz Meta, DeepMind i akademskih laboratorija, oni traže ono što LeCun naziva "ciljna AI".
Za razliku od LLM koji predviđaju tokene, AMI pristup se fokusira na učenje reprezentacija sveta koje omogućavaju planiranje i zaključivanje o fizičkim posledicama.
Tehnička osnova je izgrađena na Joint Embedding Predictive Architecture (JEPA), okviru koji LeCun godinama brani. Umesto generisanja predviđanja na nivou piksela, što zahteva ogromne računske resurse, JEPA uči apstraktne reprezentacije koje hvataju suštinsku strukturu fizičkih sistema.
Razmisli o tome ovako: čovek koji gleda loptu koja se kotrlja prema litici ne simulira svaki piksel putanje lopte. Umesto toga, prepoznajemo apstraktnu situaciju (lopta, rub, gravitacija) i predviđamo ishod (pad). JEPA ima za cilj da uhvati ovo efikasno, apstraktno razmišljanje.
Implikacije za AI video generisanje
Ova putanja istraživanja je duboko važna za kreativne primene. Sadašnji AI video generatori proizvode impresivne rezultate, ali pate od vremenske neusaglašenosti. Likovi se transformuju, fizika se prekida, objekti se pojavljuju i nestaju.
Svetski modeli pružaju potencijalno rešenje. Generator koji zaista razume fiziku trebalo bi da proizvede videos gde objekti poštuju konzistentna pravila, gde padajući predmeti padaju predvidivo, gde se refleksije ponašaju ispravno.
Modeli generišu vizuelno verodostojne kadre bez nameravanja fizičke konzistentnosti. Funkcioniše za kratke klipove ali se prekida sa dužim trajanjem.
Fizička konzistentnost proizilazi iz naučene svetske dinamike. Dulji, logičniji video postaje moguć jer model održava interno stanje sveta.
Već vidimo rane znake ovog prelaska. GWM-1 Runway predstavlja njihovu okladu na svetske modele, a poboljšana fizička simulacija Veo 3.1 sugeriše da Google uključuje slične principe.
Veza sa AGI
Zašto je sve ovo važno za veštačku opštu inteligenciju? Jer prava inteligencija zahteva više od jezika. Zahteva razumevanje uzroka i posledice, predviđanja ishoda i planiranja akcija u fizičkom svetu.
Utjelovljeno znanje
Prava inteligencija može zahtevati ukorenjenje u fizičku stvarnost, ne samo statističke obrasce u tekstu.
Interaktivno učenje
Igre pružaju savršeni test terenu: bogatu fiziku, jasnu povratnu informaciju, beskonačnu iteraciju.
Robotička primena
Svetski modeli obučeni na igrama mogu se prenositi na robotiku stvarnog sveta sa minimalnom adaptacijom.
Istraživači koji vode ovaj rad su oprezni da ne tvrde da grade AGI. Ali ubedljivo tvrde da bez razumevanja sveta ne možemo da izgradimo sisteme koji stvarno razmišljaju umesto da samo dopunjavaju.
Šta je sledeće
Sledeće dve godine će biti kritične. Nekoliko razvojnjih koje treba da posmatramo:
- ○Prve javne demonstracije AMI Labs (očekuje se sredina 2026)
- ○Integracija svetskih modela u glavne video generatore
- ○Kompanije za video motore (Unity, Unreal) dodaju API-je svetskih modela
- ○Prvi potrošački roboti koristeći svetske modele obučene na igrama
Tržište igara, proraščeno da premaši 500 milijardi dolara do 2030, predstavlja plodno polje za primenu svetskih modela. Investitori vide svetske modele ne samo kao naučne znatiželje, već kao temeljnu tehnologiju za interaktivnu zabavu, simulaciju i robotiku.
Tiha revolucija
Za razliku od eksplozivne buke oko ChatGPT, revolucija svetskih modela se odvija tiho u istraživačkim laboratorijama i igricama studija. Nema viralnih demonstracija, nema dnevnih vesti o najnovijim probijem.
Ali implikacije mogu biti dublje. Jezički modeli su promenili kako stupamo u interakciju sa tekstom. Svetski modeli bi mogao da promene kako AI stupajuinterakciju sa stvarnosti.
Za one od nas koji radimo na AI video generisanju, ovo istraživanje predstavlja i pretnju i priliku. Naši trenutni alati mogu da se čine primitivni u retrospektivi, kao rani CGI u poređenju sa modernim vizuelnim efektima. Ali temeljni princip, generisanja vizuelnog sadržaja kroz naučene modele, će biti samo sve moćniji što ovi modeli počnu da stvarno razumeju svetove koje kreiraju.
Dodatne vesti: Istražite kako difuzni transformatori pružaju arhitekturnu osnovu za mnogo svetskih modela, ili saznajte o interaktivnoj generaciji u realnom vremenu koja se gradi na principima svetskog modela.
Put od fizike video igara do veštačke opšte inteligencije može da izgleda izvitoperen. Ali inteligencija, gde god je pronašli, proizilazi iz sistema koji razumevaju svoje okruženje i mogu predvideti posledice svojih akcija. Igre nam daju bezbedan prostor za izgradnju i testiranje takvih sistema. Roboti, kreativni alati i možda prava mašinska inteligencija će slediti.
Da li vam je ovaj članak bio od pomoći?

Alexis
AI InženjerAI inženjer iz Lozane koji kombinuje dubinu istraživanja sa praktičnom inovacijom. Vreme deli između arhitektura modela i alpskih vrhova.
Povezani članci
Nastavite istraživanje sa ovim povezanim člancima

Јан ЛеКун напушта Мету да уложи 3,5 милијарди долара у моделе света
Добитник Тјурингове награде покреће AMI Labs, нови стартап фокусиран на моделе света уместо LLM-ова, са циљем на роботику, здравство и разумевање видеа.

Runway GWM-1: Opšti model sveta koji simulira realnost u realnom vremenu
Runway-ev GWM-1 označava prekretnicu, prelazak sa generisanja video zapisa na simulaciju svetova. Istražite kako ovaj autoregresivni model stvara okruženja koja možete istraživati, fotorealističke avatare i simulacije za treniranje robota.

Video jezički modeli: Sledeća granica posle LLM-ova i AI agenata
Modeli sveta uče AI da razume fizičku realnost, omogućavajući robotima da planiraju akcije i simuliraju ishode pre nego što pomere i jedan aktuator.