Meta Pixel
AlexisAlexis
7 min read
1388 szó

Világmodellek a videón túl: Miért a játékok és a robotika a valódi bizonyítóterek az AGI számára

A DeepMind Genie-tól az AMI Labs-ig, a világmodellek szótlanul az AI alapjaivá válnak, amely valóban megérti a fizikát. Az 500 milliárd dolláros játékipar lehet az első hely, ahol bizonyítják magukat.

Világmodellek a videón túl: Miért a játékok és a robotika a valódi bizonyítóterek az AGI számára

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

A mesterséges intelligencia következő forradalma nem a nyelvmodellek közül fog kitörni. Olyan rendszerek fognak feltörni, amelyek megértik a fizikai világot, és az első csatatér nem kutatóintézetek, hanem videójátékok.

Amikor Yann LeCun bejelentette, hogy elhagyja a Meta-t, hogy 500 millió eurós finanszírozással alapítsa meg az AMI Labs-t, azt artikulálta, amit sok kutató évek óta hallgatagon hisz. A nagynyelvű modellek, minden lenyűgöző képességük ellenére, a mesterséges általános intelligencia felé vezető út egyik zsákutcájának tűnik. A szavakat anélkül jósolják meg, hogy megértenék a valóságot.

A megoldás? Világmodellek. Olyan rendszerek, amelyek megtanulják, hogyan működik a fizikai világ.

A nyelvmodellek alapvető korlátozottsága

💡

A világmodellek azt tanulnak meg, hogy mi történik ezután a vizuális környezetekben, nem pedig azt, hogy mely szavak következnek a szövegben. Ez megköveteli a fizika, az objektum permanenciájának és az oksági viszonyok megértését.

A nyelvmodellek a szövegben való mintaegyezésben jeleskednek. Írhatnak költészetet, debugolhatnak kódot, és olyan beszélgetéseket folytathatnak, amelyek figyelemre méltóan emberiek. De kérdezd meg a GPT-4-et, hogy mi történik, amikor eldobsz egy labdát, és az emlékeztetett leírásokra támaszkodik, nem pedig valódi fizikai intuícióra.

Ez azért fontos, mert az intelligencia, ahogy azt a biológiai világban tapasztaljuk, alapvetően a fizikai valósághoz kötődik. Egy kisgyermek, aki tanul kockákat rakni, a nyelvtanulást megelőzően már hosszú ideig intuitív megértéssel rendelkezik a gravitációról, az egyensúlyról és az anyagi tulajdonságokról. Ez az egészségült megismerés, ez a világ működésének érzete, pontosan azt képviseli, amit a jelenlegi AI-rendszerek hiányoznak.

A világmodellek erre a résre kívánnak választ adni. Az következő szó megjóslása helyett a következő képkockát, a következő fizikai állapotot, a következő cselekvés következményét jósolják meg.

A világmegértés három megközelítése

A világmegértési AI építésének versenye három különálló paradigmára szakadt, mindegyiknek más erősségei vannak.

Videó-előrejelzési modellek

Hatalmas videoadatokészan való tanulás az implicit fizika megtanulása érdekében. Ilyenek például a Sora és a Veo. Jók a valószínű folytatások generálásában, de az interaktív forgatókönyvekben küzdenek.

Szimulációs alapú modellek

Kifejezett fizikai motorok felépítése és AI képzése azok navigálásához. Drága manuális környezetkonstrukciót igényel, de pontos fizikai pontosságot kínál.

A harmadik megközelítés, és talán a legígéretesebb, egyesíti mindkettőt: a világ dinamikájának megtanulása videóból, miközben megmarad a képesség az környezet kezelésére és manipulálására. Ebbkor válik elengedhetetlenné a játék.

Játékok: Az ideális edzőpálya

A videójátékok valami egyedülállót kínálnak: interaktív környezeteket konzisztens fizika szabályokkal, végtelen variációval és tiszta siker mutatókkal. A valós világi robotikával ellentétben, amely drága hardvert igényel és biztonsági aggályokat vet fel, a játékok korlátlan kudarcot kínálnak következmény nélkül.

500+ milliárd dollár
Játékipar 2030 észre
500 millió euró
AMI Labs finanszírozása
12%
Éves növekedési ütem

A DeepMind korán felismerte ezt a lehetőséget. Saját Genie rendszerük teljesen új játszható környezeteket tud generálni egyetlen képből. Egy platformer szint vázlatát adva azt, egy konzisztens fizikai világot hoz létre, ahol a karakterek megfelelően tudnak ugrani, esni és objektumokkal kölcsönhatni.

Az, ami a Genie-t figyelemreméltóvá teszi, nem csupán a generálás, hanem a megértés. A rendszer tanulható fizikai fogalmakat tanul meg, amelyek különböző vizuális stílusok és játéktípusok között átvihetők. Egy Mario-stílusú platformorokon tanított modell ugyanúgy intuíciókat fejleszt a gravitációról és az ütközésről, mint kézzel rajzolt indie játékokra és reális 3D környezetekre.

A játékoktól a robotokig

A játékból robotikába vezető csővezeték nem elméleti. A vállalatok már használják.

2024

Szimulációs rés azonosított

A kutatás azt mutatja, hogy a tisztán szimulációban képzett modellek küzdenek a valós világ rendezetlenségével: eltérő megvilágítás, hibás szenzorok, váratlan objektumok.

2025

Hibrid megközelítések megjelennek

A csapatok a játékoktanított világmodelleket korlátozott valósvilág-finomhangolással kombinálják, drámailag csökkentve a robot képzéshez szükséges adatokat.

2026

Kereskedelmi telepítés megkezdetik

Az első, világmodellek gerincét használó raktár robotok termelésbe kerülnek, explicit programozás nélkül kezelve az új objektumokat.

A ezt az átmenetet vezérlő meglátás egyszerű: a fizika fizika. Egy olyan modell, amely valóban megérti, hogyan esnek, csúsznak és ütköznek az objektumok egy videójátékban, az megfelelő adaptációval, ugyanezeket az elveket kell, hogy megértse a valós világban. A vizuális megjelenés megváltozik, de a mögöttes dinamika állandó marad.

A Tesla a Optimus robotjaival ezt a stratégia egy verzióját követte, először szimulációban edzett, mielőtt szállított volna a kontrollált gyári környezetekbe. A korlátozó tényező mindig a szimuláció és a valósvilág fizikája közötti rés volt. A sokféle videoadaton képzett világmodellek végre överidhetik ezt az űrt.

Az AMI Labs fogadása

Yann LeCun új vállalkozása, az AMI Labs, a világmodellek kutatásának legnagyobb egyszeri befektetésének képvisel. 500 millió euró európai finanszírozással és a Meta, DeepMind és tudományos laboratóriumokból toborzott csapattal, azt követik, amit LeCun "célorientált AI"-nak nevez.

💡

Az LLM-ek szavait megjóslásával ellentétben az AMI megközelítése a világ reprezentációinak megtanulására összpontosít, amelyek lehetővé teszik a tervezést és az érvelést a fizikai következmények terén.

A technikai alapozás a Joint Embedding Predictive Architecture (JEPA) alapján épül, amely egy keretet, amit LeCun évek óta támogat. A pixel szintű előrejelzések generálása helyett, amely rengeteg számítási erőforrást igényel, a JEPA olyan absztrakt reprezentációkat tanul meg, amelyek a fizikai rendszerek lényeges szerkezetét rögzítik.

Gondolj rá így: egy ember, aki egy labdát néz gördülni a szikla felé, nem szimulálja a labda pályájának minden pixelét. Ehelyett felismeri az absztrakt helyzetet (labda, él, gravitáció) és megjósolja az eredményt (esés). A JEPA ezt a hatékony, absztrakt érvelést célozza.

Az AI videó generálás vonatkozásai

Ez a kutatási pálya mélyrehatóan számít a kreatív alkalmazások számára. A jelenlegi AI videó generátorok lenyűgöző eredményt hoznak, de időbeli inkonzisztenciában szenvednek. A karakterek morfotálnak, a fizika megtörik, és az objektumok megjelennek és eltűnnek.

A világmodellek lehetséges megoldást kínálnak. Egy olyan generátor, amely valóban megérti a fizikát, olyan videókat kell hogy termessen, ahol az objektumok konzisztens szabályoknak engedelmeskednek, ahol a leejtett elemek előre jelezhetően esnek, ahol a reflexiók helyesen viselkednek.

Jelenlegi állapot

A modellek vizuálisan valószínű képkockákat generálnak fizikai konzisztencia kikényszerítése nélkül. Rövid klipekhez működik, de hosszabb időtartamok alatt meghal.

Világmodell jövő

A fizikai konzisztencia a megtanult világdinamikából jelenik meg. Hosszabb, összetartóbb videók válnak lehetővé, mivel a modell fenntartja a világ belső állapotát.

Már látjuk ennek az átmenetnek a korai jeleit. A Runway GWM-1 világmodellek fogadásának képviseli, és a Veo 3.1 javított fizika szimulációja azt sugallja, hogy a Google hasonló elveket épít be.

Az AGI kapcsolat

Miért számít mindez a mesterséges általános intelligenciára? Mert az igazi intelligencia több, mint nyelvkezelés. Megköveteli az ok-okozat megértését, a következmények megjóslását és a cselekvések megtervezését a fizikai világban.

🧠

Megtestesült megismerés

Az igazi intelligencia lehet, hogy a fizikai valóságban való gyökerezést igényel, nem csupán statisztikai mintákat a szövegben.

🎮

Interaktív tanulás

A játékok tökéletes tesztkörnyezeteket biztosítanak: gazdag fizika, tiszta visszajelzés, korlátlan iteráció.

🤖

Robotikus alkalmazás

A játékokban képzett világmodellek minimális adaptációval átvihető lennének a valósvilág robotikára.

Az ezt a munkát vezető kutatók vigyáznak, hogy ne állítsák, hogy AGI-t építenek. De meggyőzően azt érvelnek, hogy világmegértés nélkül nem építhetünk olyan rendszereket, amelyek valóban gondolkodnak, ahelyett, hogy csupán kiegészítik.

Mi jön ezután

A következő két év kritikus lesz. Számos fejlesztés, amit figyelemmel kell követni:

  • AMI Labs első nyilvános bemutatói (2026 közepén várhatók)
  • Világmodellek integrációja főbb videó generátorokba
  • Játékmotor vállalatok (Unity, Unreal) világmodell API-kat adnak hozzá
  • Első fogyasztói robotok játékoktanított világmodellek használatával

A játékipar, amely várhatóan 2030-ra meghaladja az 500 milliárd dollárt, termékenyek a világmodellek telepítéséhez. A befektetők a világmodelleket nem csupán kutatási érdekességként, hanem alapvető technológiaként látják az interaktív szórakoztatáshoz, szimulációhoz és robotikához.

A csendes forradalom

Az ChatGPT körüli robbanásszerű hypeetől ellentétben, a világmodellek forradalom szótlanul játszódik le kutatóintézetekben és játékstúdiókban. Nincsenek vírusféle demók, nincsenek napi hírciklai az utolsó áttörésről.

De a vonzatai sokkal mélyrehatóbbak lehetnek. A nyelvmodellek megváltoztatták, hogyan lépünk kapcsolatba a szöveggel. A világmodellek megváltoztathatják, hogyan lépünk kapcsolatba az AI a valósággal.

Azoknak közülünk, akik az AI videó generálásban dolgozunk, ez a kutatás fenyegetést és lehetőséget egyaránt képvisel. A jelenlegi eszközeink primitívnek tűnhetnek visszatekintve, mint a korai CGI a modern vizuális effektekhez képest. De az alapvető elv, a vizuális tartalom generálása tanult modellek által, csak erősebbé válhat ahogy azok a modellek elkezdik valóban megérteni azokat a világokat, amelyeket létrehoznak.

💡

További olvasmányok: Fedezd fel, hogyan biztosítanak diffúzióstranszformátorok az építészeti alapot számos világmodellhez, vagy tanulj meg az valós idejű interaktív generálásról, amely világmodellek elvein alapszik.

Az út videójáték fizikáról a mesterséges általános intelligenciára körülményesnek tűnhet. De az intelligencia, ahol is találjuk azt, olyan rendszerekből jelenik meg, amelyek megértik környezetüket és megjósolhatják cselekedeteik következményeit. A játékok biztonságos teret adnak számunkra ilyen rendszerek felépítésére és tesztelésére. A robotok, a kreatív eszközök, és talán a valódi gépi megértés következnie fog.

Hasznos volt ez a cikk?

Alexis

Alexis

AI Mérnök

AI mérnök Lausanne-ból, aki a kutatás mélységét gyakorlati innovációval ötvözi. Idejét modell architektúrák és alpesi csúcsok között osztja meg.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Kapcsolódó cikkek

Fedezd fel ezeket a kapcsolódó bejegyzéseket

Tetszett a cikk?

Fedezz fel további érdekességeket, és maradj naprakész a legújabb tartalmainkkal.

Világmodellek a videón túl: Miért a játékok és a robotika a valódi bizonyítóterek az AGI számára