Maailmanmallit videon yli: Miksi pelit ja robotiikka ovat todellisia koetanteraa AGI:lle
DeepMind Geniesta AMI Labsiin, maailmanmallit muuttuvat äänettömästi perustaksi AI:lle, joka todella ymmärtää fysiikan. 500 miljardin dollarin pelimarkkinat voivat olla paikka, jossa ne todistavat itsensä ensin.

Kun Yann LeCun ilmoitti lähtönsä Metasta perustaakseen AMI Labsin 500 miljoonan euron rahoituksella, hän artikuloi mitä monet tutkijat olivat hiljaisesti uskoneet vuosien ajan. Suuret kieliparadigmat omista vaikuttavista kyvyistään huolimatta näyttävät olevan umpikuja tiellä tekoälyn yleiseen älykkyteen. Ne ennustavat sanoja ymmärtämättä todellisuutta.
Vaihtoehto. Maailmanmallit. Järjestelmät, jotka oppivat simuloimaan, kuinka fyysinen maailma toimii.
Kielimallien perustavanlaatuinen rajoitus
Maailmanmallit oppivat mitä tapahtuu seuraavaksi visuaalisissa ympäristöissä, eivät vain mitä sanoja tulee seuraavaksi tekstissä. Tämä vaatii fysiikan, objektin pysyvyyden ja syy-yhteyden ymmärtämisen.
Kieliparadigmat loistavat tekstin kuvion yhteensovittamisessa. He voivat kirjoittaa runoutta, korjata koodia ja käydä keskusteluja, jotka tuntuvat huomattavan inhimillisiltä. Mutta kysy GPT-4:ltä mitä tapahtuu kun pudotat pallon, ja se luottaa muistisaatuihin kuvauksiin aito fyysisen intuition sijaan.
Tämä on tärkeää, koska älykkyys, kuten me sitä biologisessa maailmassa kokemme, on pohjimmiltaan fyysiseen todellisuuteen siirtymätön. Pieni lapsi, joka oppii pinomaan kuutioita, kehittyy intuitiivisesti ymmärtämään painovoimaa, tasapainoa ja materiaalin ominaisuuksia kauan ennen kielen oppimista. Tämä ruumiillistettu tieto, tämä tunne siitä kuinka maailma toimii, edustaa juuri sitä, mitä nykyisiltä AI-järjestelmiltä puuttuu.
Maailmanmallit pyrkivät täyttämään tämän aukon. Sen sijaan, että ennustaisivat seuraavan sanan, he ennustavat seuraavan kehyksen, seuraavan fyysisen tilan, seuraavan toiminnan seurauksena.
Kolme lähestymistapaa maailman ymmärtämiseen
Kisa maailman ymmärtävän AI rakentamisesta on jakautunut kolmeen erilaiseen paradigmaan, joilla jokaisella on erilaiset vahvuudet.
Koulutus valtavilla videoaineistoilla implisiittisen fysiikan oppimiseksi. Esimerkkejä ovat Sora ja Veo. Hyvät uskottavien jatkojen luomisessa, mutta kamppailevat vuorovaikutteisissa skenaarioissa.
Rakenna eksplisiittiset fysiikan moottorit ja kouluta tekoälyä niiden navigoimiseksi. Vaatii kallista käsillätehtävää ympäristöjen rakentamista, mutta tarjoaa tarkka fyysinen tarkkuus.
Kolmas lähestymistapa, ja ehkä lupaavin, yhdistää molemmat: oppivat maailman dynamiikkaa videosta samalla säilyttäen kyvyn olla vuorovaikutuksessa ympäristön kanssa ja manipuloida sitä. Tässä pelit tulevat välttämättömiksi.
Pelit: Täydellinen harjoituskenttä
Videopelit tarjoavat jotain ainutlaatuista: interaktiivisia ympäristöjä johdonmukaisilla fysiikan säännöillä, louttomalla vaihtelulla ja selvillä menestyksen mittareilla. Toisin kuin todellisen maailman robotiikka, joka vaatii kallista laitteistoa ja aiheuttaa turvallisuusongelmia, pelit tarjoavat rajoittamattoman epäonnistumisen ilman seurauksia.
DeepMind tunnisti tämän potentiaalin varhain. Heidän Genie-järjestelmänsä voi luoda täysin uusia pelattavia ympäristöjä yhdestä kuvasta. Anna sille luonnos platformer-tasosta ja se luo maailman johdonmukaisella fysiikalla, jossa hahmot voivat hypätä, pudota ja olla vuorovaikutuksessa kohteisiin asianmukaisesti.
Se mikä tekee Geniestä huomattavan, ei ole vain generaation vaan ymmärrys. Järjestelmä oppii yleistettäviä fyysisiä käsitteitä, jotka siirtyvät eri visuaalisten tyylien ja pelilajejen välillä. Mario-tyylisillä alustoilla koulutettu malli kehittää intuitiota painovoimasta ja törmäyksestä, joka soveltuu yhtä hyvin käsin piirrettyihin indie-peleihin ja realistisiin 3D-ympäristöihin.
Peleistä robotteihin
Peleistä robotiikkaan johtava johto ei ole teoreettinen. Yritykset käyttävät sitä jo.
Simulaatiovaje tunnistettu
Tutkimus osoittaa, että puhtaasti simulaatiossa koulutetut mallit kamppailevat todellisen maailman sekavuuden kanssa: vaihteleva valaistus, epätäydelliset anturit, odottamattomat esineet.
Hybridilähestymistavat ilmaantuvat
Tiimit yhdistävät pelkoulutetut maailmanmallit rajalliseen todellisen maailman hienosäätöön, vähentäen dramaattisesti robottikoulutukseen tarvittavaa dataa.
Kaupallinen käyttöönotto alkaa
Ensimmäiset varaston robotit, jotka käyttävät maailmanmalli-selkärankoja, tulevat tuotantoon ja käsittelevät uusia esineitä ilman nimenomaista ohjelmointia.
Tätä siirtymää ohjaava näkemys on yksinkertainen: fysiikka on fysiikkaa. Mallilla, joka todella ymmärtää kuinka esineet putoavat, liukuvat ja törmäävät videopelissä, tulisi sopivalla sopeutuksella ymmärtää samat periaatteet todellisessa maailmassa. Visuaalinen ulkonäkö muuttuu, mutta taustalla oleva dynamiikka pysyy vakiona.
Tesla on valinnut version tästä strategiasta Optimus-robottinsa kanssa, kouluttaen ensin simulaatiossa ennen kuin käyttöön otetaan valvotuissa tehtaan ympäristöissä. Rajoittava tekijä oli aina simuloidun ja todellisen fysiikan välinen kuilu. Eri videotiedoilla koulutetut maailmanmallit voivat viimein silloittaa tämän kuilun.
AMI Labs vedonlyönti
Yann LeCunin uusi yritys, AMI Labs, edustaa suurinta yksittäistä investointia maailmanmalleista tutkimukseen tähän mennessä. 500 miljoonan euron eurooppalaisella rahoituksella ja Metasta, DeepMindista ja akateemisista laboratoriosta rekrytoidulla tiimillä, he etsivät sitä, mitä LeCun kutsuu "tavoitteella ohjatuksi tekoälyksi".
Toisin kuin LLM:t, jotka ennustavat merkkejä, AMI:n lähestymistapa keskittyy maailman esityksiä oppimiseen, jotka mahdollistavat suunnittelun ja päättelyä fyysisistä seurauksista.
Tekninen perusta rakentuu Joint Embedding Predictive Architecture (JEPA) -puitteisiin, puitteisiin, joita LeCun on kannattanut vuosia. Sen sijaan, että luotaisiin pikselitason ennusteita, jotka vaativat valtavia laskennallisia resursseja, JEPA oppii abstrakteja esityksiä, jotka vangitsevat fyysisten järjestelmien olennaiset rakenteet.
Ajattele sitä näin: ihminen, joka katsoo palloa vieriä kallion reunalle, ei simuloi pallon lentoradan jokaista pikseliä. Näemme sen sijaan abstraktin tilanteen (pallo, reuna, painovoima) ja ennustamme tuloksen (pudotus). JEPA pyrkii tallentamaan tämän tehokkaan, abstraktin päättelyn.
Vaikutukset tekoälyn videon luomiselle
Tämä tutkimusrata merkitsee syvällisesti luoviin sovelluksiin. Nykyiset tekoälyn videogeneraattorit tuottavat vaikuttavia tuloksia, mutta kärsivät ajallisesta epäjohdonmukaisuudesta. Hahmot muuttuvat, fysiikka rikkoutuu ja esineet ilmestyvät ja katoavat.
Maailmanmallit tarjoavat mahdollisen ratkaisun. Generaattori, joka todella ymmärtää fysiikka, tulisi tuottaa videoita, joissa esineet noudattavat johdonmukaisia sääntöjä, joissa pudonneet esineet putoavat ennustettavasti, joissa heijastukset käyttäytyvät oikein.
Mallit luovat visuaalisesti uskottavia kehyksiä pakottamatta fyysistä johdonmukaisuutta. Toimii lyhyillä klipeillä, mutta hajoaa pidemmillä kestolla.
Fyysinen johdonmukaisuus nousee opitusta maailman dynamiikasta. Pidempää, yhteentoimivampia videoita tulee mahdolliseksi, koska malli ylläpitää maailman sisäistä tilaa.
Näemme jo varhaisia merkkejä tästä siirtymästä. Runwayn GWM-1 edustaa heidän vedonlyöntiään maailmanmalleille, ja Veon 3.1 parannettu fysiikan simulaatio viittaa siihen, että Google sisältää samanlaisia periaatteita.
AGI yhteys
Miksi kaikki tämä merkitsee tekoälyn yleiselle älykkyydelle? Koska aito älykkyys vaatii enemmän kuin kielen käsittelyä. Se vaatii syy-yhteyden ymmärtämisen, seurauksien ennustamisen ja toimintojen suunnittelun fyysisessä maailmassa.
Ruumiillistettu tieto
Aito älykkyys saattaa vaatia juurtumista fyysiseen todellisuuteen, ei vain tilastollisia kuvioita tekstissä.
Vuorovaikutteinen oppiminen
Pelit tarjoavat täydellisen testikenttää: rikas fysiikka, selkeä palaute, rajoittamaton iteraatio.
Robotiikan soveltaminen
Pelkoulutetut maailmanmallit voitaisiin siirtää todellisen maailman robotiikkaan vähimmäisadaptaatiolla.
Tutkijat, jotka ohjaavat tätä työtä, ovat varovaisia väittämättä rakentavansa AGI:ta. Mutta he väittävät vakuuttavasti, että ilman maailman ymmärtämistä, emme voi rakentaa järjestelmiä, jotka todella ajattelevat, pikemminse vain automaattisesti täydentävät.
Mitä tulee seuraavaksi
Seuraavat kaksi vuotta ovat kriittisiä. Useat kehityssuunnat joita tulisi seurata:
- ○AMI Labsin ensimmäiset julkiset esittelyt (odotettu 2026:n puolivälissä)
- ○Maailmamallien integraatio suuriin videogeneraattoihin
- ○Pelimoottoriyhtiöt (Unity, Unreal) lisäävät maailmanmalli API:ta
- ○Ensimmäiset kuluttajarobotit käyttäen pelkoulutettuja maailmamalleja
Pelimarkkinat, joiden odotetaan ylittävän 500 miljardia dollaria vuoteen 2030 mennessä, edustavat hedelmällistä maata maailmamallien käyttöönotolle. Sijoittajat näkevät maailmanmallit ei vain tutkimus-kuriositeettina vaan perustavanlaatuisena tekniikkana vuorovaikutteiseen viihteeseen, simulaatioon ja robotiikkaan.
Hiljainen vallankumous
Toisin kuin ChatGPT:n räjähtävä hype-sykli, maailmanmallien vallankumous kulkee hiljaisesti tutkimuslaboratorioissa ja pelistudioissa. Ei ole virusvideo-esittelyjä, ei päivittäisiä uutisia viimeisimmästä läpimurrosta.
Mutta seuraukset voivat olla syvällisemmät. Kieliparadigmat muuttivat tapaa, jolla vuorovaikutuksessa olemme tekstin kanssa. Maailmanmallit voisivat muuttaa tapaa, jolla tekoäly on vuorovaikutuksessa todellisuuden kanssa.
Niille meistä, jotka työskentelemme tekoälyn videon luomisessa, tämä tutkimus edustaa sekä uhkaa että mahdollisuutta. Nykyiset työkalumme saattavat näyttää primitiivillä retrospektiivissä, aivan kuten varhaiset CGI moderneihin visuaalisiin efekteihin nähden. Mutta taustalla oleva periaate, visuaalisen sisällön luominen opittujen mallien avulla, tulee vain vahvemmaksi, kun nuo mallit alkavat todella ymmärtää maailmoja, joita he luovat.
Lisälukemistoa: Tutkimustutkija kuinka diffuusiotransformaattorit tarjoavat arkkitehtuuripohjan monille maailmanmalleille, tai opi reaaliaikaisen interaktiivisen luomisen osalta, joka perustuu maailmanmalli-periaatteisiin.
Tie videopelin fysiikasta tekoälyn yleiseen älykkyystään saattaa näyttää epäsuoralta. Mutta älykkyys, missä sitä löydämme, nousee järjestelmistä, jotka ymmärtävät ympäristöään ja voivat ennustaa toimintojensa seuraukset. Pelit antavat meille turvallisen tilan rakentaa ja testata tällaisia järjestelmiä. Robotit, luovuustyökalut ja ehkä todellinen koneäly tulee seuraamaan.
Oliko tämä artikkeli hyödyllinen?

Alexis
TekoälyinsinööriLausannesta kotoisin oleva tekoälyinsinööri, joka yhdistää tutkimuksen syvällisyyden käytännön innovaatioon. Jakaa aikansa malliarkkitehtuurien ja Alppien huippujen välillä.
Aiheeseen liittyviä artikkeleita
Jatka tutustumista näihin aiheeseen liittyviin julkaisuihin

AI-videon kertomusplataformat: Kuinka sarjamuotoinen sisältö muuttaa kaiken vuonna 2026
Yksittäisistä videoklipeistä kokonaisiin sarjoihin, AI-video kehittyy generointityökalusta kertomuksen moottoriin. Tapaa alustat, jotka tekevät tämän mahdolliseksi.

Veo 3.1 Ingredients to Video: Täydellinen opas kuvista videon luomiseen
Google tuo Ingredients to Video -toiminnon suoraan YouTube Shortsiin ja YouTube Create -sovellukseen, jolloin tekijät voivat muuttaa jopa kolme kuvaa yhtenäisiksi pystysuuntaisiksi videoiksi alkuperäisellä 4K-skaalauksella.
Synthesia Saavuttaa 4 Miljardin Dollarin Arvostuksen: Miksi NVIDIA ja Alphabet Panevat Suuria Panoksia Tekoäly-Avataareihin
Synthesia keräsi 200 miljoonaa dollaria 4 miljardin dollarin arvostuksella NVIDIA:n ja Alphabet:in tuella, mikä merkitsee merkittävää siirtymää tekoäly-videogeneraatiosta tekoäly-videoagenteihin.