Meta Pixel
AlexisAlexis
6 min read
1193 sõna

Maailmamudelid videost kaugemale: Miks mängud ja robotiika on reaalne testiplats AGI jaoks

DeepMindi Geniest kuni AMI Labsini, maailmamudelid muutuvad vaikselt aluseks AI jaoks, mis tõeliselt mõistab füüsikat. 500 miljardi dollari suurune mängumarkett võib olla koht, kus need esimeses eas ennast tõestavad.

Maailmamudelid videost kaugemale: Miks mängud ja robotiika on reaalne testiplats AGI jaoks

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Järgmine revolutsioon tehisintellektis ei tule keelemudelitest. See tuleb süsteemidest, mis mõistavad füüsilist maailma, ja esimene lahingu väljak pole uurimislaborid vaid videomängud.

Kui Yann LeCun teatas oma lahkumisest Metast, et asutada AMI Labs 500 miljoni eurot rahastamisega, sõnastas ta, mida paljud teadurid on pika aja jooksul vaikselt uskunud. Suured keelemudelid, kõikidest nende muljetavaldavatest võimetest hoolimata, tunduvad olevat ummiktee tehisintellekti üldisele intelligentsusele. Need ennustavad sõnu, mõistmata tegelikkust.

Alternatiiv: Maailmamudelid. Süsteemid, mis õpivad simuleerima, kuidas füüsiline maailm toimib.

Keelemudelite fundamentaalne piirang

💡

Maailmamudelid õpivad, mis juhtub järgmisena visuaalses keskkonnas, mitte lihtsalt milliseid sõnu tuleb järgmisena tekstis. See nõuab füüsika, objekti jäävuse ja põhjuslikkuse mõistmist.

Keelemudelid paistab silma teksti mustrite sobitamisel. Nad saavad kirjutada luulet, siluuda koodi ja pidada vestlusi, mis tunduvad tähelepanuväärselt inimlikud. Kuid küsi GPT-4lt, mis juhtub, kui sa pallile langetasid, ja see tugineb meelde jäänud kirjeldustele, mitte aidiomaatilisele füüsikalisele intuitsioonile.

See on oluline, kuna intelligentsus, nagu me seda bioloogilises maailmas kogemata, on fundamentaalselt füüsilisele tegelikkusele sidutud. Väike laps, kes õpib kuupe virnastavat, arendab intuitiivset mõistmist gravitatsioonist, tasakaalust ja materjalidest palju enne keele õppimist. See kehasse immutatud teadmine, see tunne sellest, kuidas maailm töötab, esindab täpselt seda, mis tänapäevastele AI-süsteemidele puudub.

Maailmamudelid täitsevad selle lünka. Järgmise sõna ennustamise asemel ennustavad nad järgmist kaadrit, järgmist füüsilist seisundit, tegevuse järgnevaid tagajärgi.

Kolm lähenemist maailma mõistmisele

Maailma mõistmise võimega AI ehitamise võistlus on jagatud kolmeks erinevaks paradigmaks, igaühel erinevad tugevused.

Videobaaasesed ennustusmudelid

Treenimine tohututel videoandumetel peidetud füüsika õppimiseks. Näited on Sora ja Veo. Hea usklikult jätkude loomisel, kuid võitlevad interaktiivsetes stsenaariumites.

Simulatsiooniga kaasnevad mudelid

Ehitada eksplitsiitsed füüsika mootorid ja treenida AI nende navigeerimiseks. Nõuab kulukat käsitsi keskkondade ehitamist, kuid pakub täpset füüsilist täpsust.

Kolmas lähenemine, ja võib-olla kõige lubav, ühendab mõlemat: õppivad maailma dünaamikat videost, säilitades võime interakteeruda keskkonnaga ja seda manipuleerida. Siit muutuvad mängud olemuslikult vajalikuks.

Mängud: Täiuslik treenimisväljaak

Videomängud pakuvad midagi ainulaadset: interaktiivseid keskkondi ühtsete füüsikaseaduste, piiramatu varieerumise ja selgete edukriteeriumitega. Erinevalt tegelike maailma robotiikast, mis nõuab kulukat riistvara ja tekitab ohutusmuredusi, pakuvad mängud piiramatut ebaõnnestumist ilma tagajärgedeta.

500+ miljardit dollarit
Mänguturg 2030. aastaks
500 miljon eurot
AMI Labs rahastamine
12%
Aastane kasvumäär

DeepMind tunnustas seda potentsiaali varakult. Nende Genie-süsteem saab luua täiesti uusi mängitavaid keskkondasid ühest pildist. Andke sellele platformmängu taseme skitsi ja see loob maailma ühtsete füüsikareegliga, kus tegelased võivad hüpata, kukkuda ja objektidega asjakohaselt suhelda.

See, mis teeb Genie'st tähelepanuväärse, ei ole lihtsalt genereerimine, vaid mõistmine. Süsteem õpib üldistega füüsilisi kontseptsioone, mis kannatavad üle erinevate visuaalsete stiilide ja mängutüüpide lõikes. Mariol-stiilis platvormidel treenitud mudel arendab intuitioone gravitatsiooni ja kokkupõrgete kohta, mis kehtivad võrdselt käsitsi joonistatud indie-mängudel ja realistlikel 3D keskkondadel.

Mängudest robotitesse

Mängudest robotiikasse viiv torujuhe ei ole teoreetiline. Ettevõtted seda juba kasutavad.

2024

Simulatsioonivahe tuvastatud

Uurimused näitavad, et puhtalt simulatsioonis treenitud mudelid võitlevad tegeliku maailma segadusega: varieeruvad valgustus, ebatäiuslikud andurid, ootamatud objektid.

2025

Hübriidlähenemised ilmuvad

Meeskonnad kombineerivad mängutest treenitud maailmamudeleid piiratud reaalsete juhiste häälestamisega, vähendades dramaatiliselt robotite treenimiseks vajalikke andmeid.

2026

Kaubanduslik juurutamine algab

Esimesed laoprodi, mis kasutavad maailmamudeli selgrood, jõuavad tootmisse, käsitledes uusi objekte ilma selgesõnalise programmeerimiseta.

Seda üleminekut juhtiv intuitsioon on lihtne: füüsika on füüsika. Mudel, mis tõeliselt mõistab, kuidas objektid videomängus langevad, libisevad ja põrkuvad, peaks asjakohaselt kohastudes mõistma samu põhimõtteid tegelikus maailmas. Visuaalne välimus muutub, kuid aluseks olev dünaamika jääb konstantseks.

Tesla on neid strategiat Optimus-robotitega jälginud, esmalt simulatsioonis treenides enne kontrollitud tehasekeskkondade juurutamist. Piiratefaktor oli alati vahegaasi simuleeritud ja tegeliku füüsika vahel. Maailmamudelid, mis on treenitud mitmekesistel videoandumetel, võivad lõpuks selle lünka sillutada.

AMI Labs panuse pannes

Yann LeCu uus ettevõte, AMI Labs, esindab senini suurimat üksikut investeeringut maailmamudeli uurimisele. 500 miljoni euro Euroopa rahastamisega ja Metast, DeepMindist ja akadeemilistest laboratooriumitest rekrututud tiimiga järgivad nad, mida LeCun kutsub "eesmärgiga juhtitud tehisintellektiks".

💡

Erinevalt LLM-idest, mis ennustavad sõnesid, on AMI lähenemine keskendunud maailma esituste õppimisele, mis võimaldavad planeerimist ja põhjendamist füüsiliste tagajärgede kohta.

Tehniline alus ehitub Joint Embedding Predictive Architecture (JEPA) raamistikule, mida LeCun aastaid on toetanud. Selle asemel, et luua piksel-taseme ennustusi, mis nõuavad tohutuid arvutusvõimsuse ressursse, õpib JEPA abstraktseid esitusi, mis jäädvustavad füüsiliste süsteemide olulist struktuuri.

Mõtle sellele nii: inimene, kes vaatab pallile veeretavat lohku, ei simuleeri palli trajektoori iga pikselit. Selle asemel tunneme abstraktset olukorda (pall, serv, gravitatsioon) ja ennustame tulemust (kukkumine). JEPA sisaldab seda tõhusat, abstraktset põhjendamist.

Mõju tehisintellekti videoloomele

See uurimistee on sügav mõju loomingulisele rakendusele. Praegused tehisintellekti videogeneraatorid toodetavad muljetavaldavaid tulemusi, kuid kannatavad ajalise ebajärjepidevuse all. Tegelased muutuvad, füüsika murdub ja objektid ilmuvad ja kaovad.

Maailmamudelid pakuvad võimalikku lahendust. Generaator, kes tõeliselt füüsikat mõistab, tuleks toota videoid, kus objektid järgivad järjepidevaid reegleid, kus langetatud esemed langevad ennustatavalt, kus peegeldused käituvad õigesti.

Praegune olek

Mudelid loovad visuaalselt usklikud kaadrid ilma füüsilise järjepidevuse jõustamiseta. Töötab lühikeste klippidega, kuid lagunevad pikema kestusega.

Maailmamudeli tulevikk

Füüsiline järjepidevus tekib õpitud maailma dünaamikast. Pikemate, sidusate videoite muutmine võimalikuks, kuna mudel säilitab maailma sisemist seisundit.

Me näeme juba selle ülemineku varajasi märke. Runwayl GWM-1 esindab nende panust maailmamudelitesse ja Veo 3.1 parandatud füüsika simulatsioon viitavad, et Google sisaldab sarnaseid põhimõtteid.

AGI seos

Miks kõik see tähendab tehisintellekti üldisele intelligentsusele: Sest tõeline intelligentsus nõuab rohkemat kui keele manipulatsiooni. See nõuab põhjuse ja tagajärje mõistmist, tagajärgede ennustamist ja tegevuste planeerimist füüsilises maailmas.

🧠

Kehalduune teadmine

Tõeline intelligentsus võib nõuda juurdumist füüsilisse tegelikkusesse, mitte ainult statistilisi mustreid tekstis.

🎮

Interaktiivne õppimine

Mängud pakuvad täiuslikku testplatsit: rikas füüsika, selge tagasiside, piiramatu iteratsioon.

🤖

Robotiline rakendus

Mängudest treenitud maailmamudelid võiks tegeliku maailma robotiikasse üle kanda minimaalsete kohandustega.

Teadurid, kes juhivad seda tööd, on ettevaatlikud, et mitte väita, et nad ehitavad AGI-t. Kuid nad väidavad veenvalt, et ilma maailma mõistmiseta ei saa me ehitada süsteeme, mis tõeliselt mõtlevad, mitte ainult autokomplekteerida.

Mis tuleb järgmisena

Järgmised kaks aastat on kriitilised. Mitu arendust jälgida:

  • AMI Labs esimesed avalikud demonintid (oodatav 2026. aasta keskel)
  • Maailmamudeli integratsioon suurtes videogeneraatorites
  • Mängu engine'i ettevõtted (Unity, Unreal) lisavad maailmamudeli API-d
  • Esimesed tarbija robotid kasutavad mängudest treenitud maailmamudeleid

Mänguturg, mis on prognoositud ületavat 500 miljardit dollarit 2030. aastaks, esindab viljakas pinnas maailmamudeli juurutamiseks. Investorid näevad maailmamudeleid mitte ainult uurimisintressina vaid põhitehnoloogiana interaktiivse meelelahutuse, simulatsiooni ja robotiika jaoks.

Vaikne revolutsioon

Erinevalt ChatGPT-i leevarast hüppetest, käib maailmamudel revolutsioon vaikselt uurimislaborites ja mängu stuudioites. Viiruste demoid ei ole, pole päevalehti uudiseid viimase läbimurru kohta.

Kuid tagajärjed võivad olla sügavamad. Keelemudelid muutsid, kuidas oleme tekstiga suhtluses. Maailmamudelid võiksid muuta, kuidas tehisintellekt on tegelikkusega suhtluses.

Meile, kes töötame tehisintellekti videoloomises, esindab see uurimine nii ohtu kui ka võimalust. Meie praegused tööriistad võivad näida primitiivseid tagasivaatumisel, nagu varajased CGI modernsete visuaalsete efektidega võrreldes. Kuid aluseks olev põhimõte, visuaalse sisu loomine õpitud mudelite kaudu, muutub vaid võimsamaks, kui need mudelid hakkavad tõeliselt mõistma maailmu, mida nad loovad.

💡

Edasi lugemine: Tutvu difusiooni transformaatoritega, mis pakuvad arhitektuuri alust paljudele maailmamudelitele või õpi reaalajas interaktiivse loomise kohta, mis põhineb maailmamudeli põhimõtetele.

Tee videomängu füüsikast tehisintellekti üldisele intelligentsusele võib tunduda kaudne. Kuid intelligentsus, kus me seda leiame, tekkib süsteemidest, mis mõistavad nende keskkonda ja saavad ennustada oma tegevuse tagajärgi. Mängud annavad meile ohutu koha selliste süsteemide ehitamiseks ja testimiseks. Robotid, loovused ja ehk tõeline masina arusaam tulevad järgnevalt.

Kas see artikkel oli kasulik?

Alexis

Alexis

Tehisintellekti insener

Tehisintellekti insener Lausanne'ist, kes ühendab teadussügavuse praktilise innovatsiooniga. Jagab oma aega mudelite arhitektuuride ja Alpi mäetippude vahel.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Seotud artiklid

Jätkake uurimist nende seotud postitustega

Kas see artikkel meeldis teile?

Avastage rohkem põnevaid teadmisi ja püsige kursis meie uusima sisuga.

Maailmamudelid videost kaugemale: Miks mängud ja robotiika on reaalne testiplats AGI jaoks