Maailmanmallit videon yli: Miksi pelit ja robotiikka ovat todellisia koetanteraa AGI:lle

Seuraava vallankumous tekoälyssä ei tule kielimalleista. Se tulee järjestelmistä, jotka ymmärtävät fyysisen maailman, ja ensimmäinen taistelualue ei ole tutkimuslaboratoriot, vaan videopellit.

Kun Yann LeCun ilmoitti lähtönsä Metasta perustaakseen AMI Labsin 500 miljoonan euron rahoituksella, hän artikuloi mitä monet tutkijat olivat hiljaisesti uskoneet vuosien ajan. Suuret kieliparadigmat omista vaikuttavista kyvyistään huolimatta näyttävät olevan umpikuja tiellä tekoälyn yleiseen älykkyteen. Ne ennustavat sanoja ymmärtämättä todellisuutta.

Vaihtoehto. Maailmanmallit. Järjestelmät, jotka oppivat simuloimaan, kuinka fyysinen maailma toimii.

Kielimallien perustavanlaatuinen rajoitus

💡

Maailmanmallit oppivat mitä tapahtuu seuraavaksi visuaalisissa ympäristöissä, eivät vain mitä sanoja tulee seuraavaksi tekstissä. Tämä vaatii fysiikan, objektin pysyvyyden ja syy-yhteyden ymmärtämisen.

Kieliparadigmat loistavat tekstin kuvion yhteensovittamisessa. He voivat kirjoittaa runoutta, korjata koodia ja käydä keskusteluja, jotka tuntuvat huomattavan inhimillisiltä. Mutta kysy GPT-4:ltä mitä tapahtuu kun pudotat pallon, ja se luottaa muistisaatuihin kuvauksiin aito fyysisen intuition sijaan.

Tämä on tärkeää, koska älykkyys, kuten me sitä biologisessa maailmassa kokemme, on pohjimmiltaan fyysiseen todellisuuteen siirtymätön. Pieni lapsi, joka oppii pinomaan kuutioita, kehittyy intuitiivisesti ymmärtämään painovoimaa, tasapainoa ja materiaalin ominaisuuksia kauan ennen kielen oppimista. Tämä ruumiillistettu tieto, tämä tunne siitä kuinka maailma toimii, edustaa juuri sitä, mitä nykyisiltä AI-järjestelmiltä puuttuu.

Maailmanmallit pyrkivät täyttämään tämän aukon. Sen sijaan, että ennustaisivat seuraavan sanan, he ennustavat seuraavan kehyksen, seuraavan fyysisen tilan, seuraavan toiminnan seurauksena.

Kolme lähestymistapaa maailman ymmärtämiseen

Kisa maailman ymmärtävän AI rakentamisesta on jakautunut kolmeen erilaiseen paradigmaan, joilla jokaisella on erilaiset vahvuudet.

✓Videoennustusmallit

Koulutus valtavilla videoaineistoilla implisiittisen fysiikan oppimiseksi. Esimerkkejä ovat Sora ja Veo. Hyvät uskottavien jatkojen luomisessa, mutta kamppailevat vuorovaikutteisissa skenaarioissa.

✗Simulaatiopohjaisen mallit

Rakenna eksplisiittiset fysiikan moottorit ja kouluta tekoälyä niiden navigoimiseksi. Vaatii kallista käsillätehtävää ympäristöjen rakentamista, mutta tarjoaa tarkka fyysinen tarkkuus.

Kolmas lähestymistapa, ja ehkä lupaavin, yhdistää molemmat: oppivat maailman dynamiikkaa videosta samalla säilyttäen kyvyn olla vuorovaikutuksessa ympäristön kanssa ja manipuloida sitä. Tässä pelit tulevat välttämättömiksi.

Pelit: Täydellinen harjoituskenttä

Videopelit tarjoavat jotain ainutlaatuista: interaktiivisia ympäristöjä johdonmukaisilla fysiikan säännöillä, louttomalla vaihtelulla ja selvillä menestyksen mittareilla. Toisin kuin todellisen maailman robotiikka, joka vaatii kallista laitteistoa ja aiheuttaa turvallisuusongelmia, pelit tarjoavat rajoittamattoman epäonnistumisen ilman seurauksia.

500+ miljardia dollaria

Pelimarkkina vuoteen 2030 mennessä

500 miljoonaa euroa

AMI Labs rahoitus

12%

Vuosittainen kasvunopeus

DeepMind tunnisti tämän potentiaalin varhain. Heidän Genie-järjestelmänsä voi luoda täysin uusia pelattavia ympäristöjä yhdestä kuvasta. Anna sille luonnos platformer-tasosta ja se luo maailman johdonmukaisella fysiikalla, jossa hahmot voivat hypätä, pudota ja olla vuorovaikutuksessa kohteisiin asianmukaisesti.

Se mikä tekee Geniestä huomattavan, ei ole vain generaation vaan ymmärrys. Järjestelmä oppii yleistettäviä fyysisiä käsitteitä, jotka siirtyvät eri visuaalisten tyylien ja pelilajejen välillä. Mario-tyylisillä alustoilla koulutettu malli kehittää intuitiota painovoimasta ja törmäyksestä, joka soveltuu yhtä hyvin käsin piirrettyihin indie-peleihin ja realistisiin 3D-ympäristöihin.

Peleistä robotteihin

Peleistä robotiikkaan johtava johto ei ole teoreettinen. Yritykset käyttävät sitä jo.

2024

Simulaatiovaje tunnistettu

Tutkimus osoittaa, että puhtaasti simulaatiossa koulutetut mallit kamppailevat todellisen maailman sekavuuden kanssa: vaihteleva valaistus, epätäydelliset anturit, odottamattomat esineet.

2025

Hybridilähestymistavat ilmaantuvat

Tiimit yhdistävät pelkoulutetut maailmanmallit rajalliseen todellisen maailman hienosäätöön, vähentäen dramaattisesti robottikoulutukseen tarvittavaa dataa.

2026

Kaupallinen käyttöönotto alkaa

Ensimmäiset varaston robotit, jotka käyttävät maailmanmalli-selkärankoja, tulevat tuotantoon ja käsittelevät uusia esineitä ilman nimenomaista ohjelmointia.

Tätä siirtymää ohjaava näkemys on yksinkertainen: fysiikka on fysiikkaa. Mallilla, joka todella ymmärtää kuinka esineet putoavat, liukuvat ja törmäävät videopelissä, tulisi sopivalla sopeutuksella ymmärtää samat periaatteet todellisessa maailmassa. Visuaalinen ulkonäkö muuttuu, mutta taustalla oleva dynamiikka pysyy vakiona.

Tesla on valinnut version tästä strategiasta Optimus-robottinsa kanssa, kouluttaen ensin simulaatiossa ennen kuin käyttöön otetaan valvotuissa tehtaan ympäristöissä. Rajoittava tekijä oli aina simuloidun ja todellisen fysiikan välinen kuilu. Eri videotiedoilla koulutetut maailmanmallit voivat viimein silloittaa tämän kuilun.

AMI Labs vedonlyönti

Yann LeCunin uusi yritys, AMI Labs, edustaa suurinta yksittäistä investointia maailmanmalleista tutkimukseen tähän mennessä. 500 miljoonan euron eurooppalaisella rahoituksella ja Metasta, DeepMindista ja akateemisista laboratoriosta rekrytoidulla tiimillä, he etsivät sitä, mitä LeCun kutsuu "tavoitteella ohjatuksi tekoälyksi".

💡

Toisin kuin LLM:t, jotka ennustavat merkkejä, AMI:n lähestymistapa keskittyy maailman esityksiä oppimiseen, jotka mahdollistavat suunnittelun ja päättelyä fyysisistä seurauksista.

Tekninen perusta rakentuu Joint Embedding Predictive Architecture (JEPA) -puitteisiin, puitteisiin, joita LeCun on kannattanut vuosia. Sen sijaan, että luotaisiin pikselitason ennusteita, jotka vaativat valtavia laskennallisia resursseja, JEPA oppii abstrakteja esityksiä, jotka vangitsevat fyysisten järjestelmien olennaiset rakenteet.

Ajattele sitä näin: ihminen, joka katsoo palloa vieriä kallion reunalle, ei simuloi pallon lentoradan jokaista pikseliä. Näemme sen sijaan abstraktin tilanteen (pallo, reuna, painovoima) ja ennustamme tuloksen (pudotus). JEPA pyrkii tallentamaan tämän tehokkaan, abstraktin päättelyn.

Vaikutukset tekoälyn videon luomiselle

Tämä tutkimusrata merkitsee syvällisesti luoviin sovelluksiin. Nykyiset tekoälyn videogeneraattorit tuottavat vaikuttavia tuloksia, mutta kärsivät ajallisesta epäjohdonmukaisuudesta. Hahmot muuttuvat, fysiikka rikkoutuu ja esineet ilmestyvät ja katoavat.

Maailmanmallit tarjoavat mahdollisen ratkaisun. Generaattori, joka todella ymmärtää fysiikka, tulisi tuottaa videoita, joissa esineet noudattavat johdonmukaisia sääntöjä, joissa pudonneet esineet putoavat ennustettavasti, joissa heijastukset käyttäytyvät oikein.

✗Nykyinen tila

Mallit luovat visuaalisesti uskottavia kehyksiä pakottamatta fyysistä johdonmukaisuutta. Toimii lyhyillä klipeillä, mutta hajoaa pidemmillä kestolla.

✓Maailmanmallin tulevaisuus

Fyysinen johdonmukaisuus nousee opitusta maailman dynamiikasta. Pidempää, yhteentoimivampia videoita tulee mahdolliseksi, koska malli ylläpitää maailman sisäistä tilaa.

Näemme jo varhaisia merkkejä tästä siirtymästä. Runwayn GWM-1 edustaa heidän vedonlyöntiään maailmanmalleille, ja Veon 3.1 parannettu fysiikan simulaatio viittaa siihen, että Google sisältää samanlaisia periaatteita.

AGI yhteys

Miksi kaikki tämä merkitsee tekoälyn yleiselle älykkyydelle? Koska aito älykkyys vaatii enemmän kuin kielen käsittelyä. Se vaatii syy-yhteyden ymmärtämisen, seurauksien ennustamisen ja toimintojen suunnittelun fyysisessä maailmassa.

🧠

Ruumiillistettu tieto

Aito älykkyys saattaa vaatia juurtumista fyysiseen todellisuuteen, ei vain tilastollisia kuvioita tekstissä.

🎮

Vuorovaikutteinen oppiminen

Pelit tarjoavat täydellisen testikenttää: rikas fysiikka, selkeä palaute, rajoittamaton iteraatio.

🤖

Robotiikan soveltaminen

Pelkoulutetut maailmanmallit voitaisiin siirtää todellisen maailman robotiikkaan vähimmäisadaptaatiolla.

Tutkijat, jotka ohjaavat tätä työtä, ovat varovaisia väittämättä rakentavansa AGI:ta. Mutta he väittävät vakuuttavasti, että ilman maailman ymmärtämistä, emme voi rakentaa järjestelmiä, jotka todella ajattelevat, pikemminse vain automaattisesti täydentävät.

Mitä tulee seuraavaksi

Seuraavat kaksi vuotta ovat kriittisiä. Useat kehityssuunnat joita tulisi seurata:

○AMI Labsin ensimmäiset julkiset esittelyt (odotettu 2026:n puolivälissä)
○Maailmamallien integraatio suuriin videogeneraattoihin
○Pelimoottoriyhtiöt (Unity, Unreal) lisäävät maailmanmalli API:ta
○Ensimmäiset kuluttajarobotit käyttäen pelkoulutettuja maailmamalleja

Pelimarkkinat, joiden odotetaan ylittävän 500 miljardia dollaria vuoteen 2030 mennessä, edustavat hedelmällistä maata maailmamallien käyttöönotolle. Sijoittajat näkevät maailmanmallit ei vain tutkimus-kuriositeettina vaan perustavanlaatuisena tekniikkana vuorovaikutteiseen viihteeseen, simulaatioon ja robotiikkaan.

Hiljainen vallankumous

Toisin kuin ChatGPT:n räjähtävä hype-sykli, maailmanmallien vallankumous kulkee hiljaisesti tutkimuslaboratorioissa ja pelistudioissa. Ei ole virusvideo-esittelyjä, ei päivittäisiä uutisia viimeisimmästä läpimurrosta.

Mutta seuraukset voivat olla syvällisemmät. Kieliparadigmat muuttivat tapaa, jolla vuorovaikutuksessa olemme tekstin kanssa. Maailmanmallit voisivat muuttaa tapaa, jolla tekoäly on vuorovaikutuksessa todellisuuden kanssa.

Niille meistä, jotka työskentelemme tekoälyn videon luomisessa, tämä tutkimus edustaa sekä uhkaa että mahdollisuutta. Nykyiset työkalumme saattavat näyttää primitiivillä retrospektiivissä, aivan kuten varhaiset CGI moderneihin visuaalisiin efekteihin nähden. Mutta taustalla oleva periaate, visuaalisen sisällön luominen opittujen mallien avulla, tulee vain vahvemmaksi, kun nuo mallit alkavat todella ymmärtää maailmoja, joita he luovat.

💡

Lisälukemistoa: Tutkimustutkija kuinka diffuusiotransformaattorit tarjoavat arkkitehtuuripohjan monille maailmanmalleille, tai opi reaaliaikaisen interaktiivisen luomisen osalta, joka perustuu maailmanmalli-periaatteisiin.

Tie videopelin fysiikasta tekoälyn yleiseen älykkyystään saattaa näyttää epäsuoralta. Mutta älykkyys, missä sitä löydämme, nousee järjestelmistä, jotka ymmärtävät ympäristöään ja voivat ennustaa toimintojensa seuraukset. Pelit antavat meille turvallisen tilan rakentaa ja testata tällaisia järjestelmiä. Robotit, luovuustyökalut ja ehkä todellinen koneäly tulee seuraamaan.

Maailmanmallit videon yli: Miksi pelit ja robotiikka ovat todellisia koetanteraa AGI:lle

Kielimallien perustavanlaatuinen rajoitus

Kolme lähestymistapaa maailman ymmärtämiseen

Pelit: Täydellinen harjoituskenttä

Peleistä robotteihin

Simulaatiovaje tunnistettu

Hybridilähestymistavat ilmaantuvat

Kaupallinen käyttöönotto alkaa

AMI Labs vedonlyönti

Vaikutukset tekoälyn videon luomiselle

AGI yhteys

Ruumiillistettu tieto

Vuorovaikutteinen oppiminen

Robotiikan soveltaminen

Mitä tulee seuraavaksi

Hiljainen vallankumous

Alexis

Like what you read?

Aiheeseen liittyviä artikkeleita

AI-videon kertomusplataformat: Kuinka sarjamuotoinen sisältö muuttaa kaiken vuonna 2026

Veo 3.1 Ingredients to Video: Täydellinen opas kuvista videon luomiseen

Synthesia Saavuttaa 4 Miljardin Dollarin Arvostuksen: Miksi NVIDIA ja Alphabet Panevat Suuria Panoksia Tekoäly-Avataareihin

Piditkö tästä artikkelista?