Svetovni Modeli Onkraj Videa: Zakaj so Igre in Robotika Pravo Testno Polje za AGI

Naslednja revolucija v umetni inteligenci ne bo prišla iz jezikovnih modelov. Prišla bo iz sistemov, ki razumejo fizični svet, in prvo bojišče niso raziskovalni laboratoriji, temveč videoigre.

Ko je Yann LeCun napovedal svoj odhod iz Meta, da bi vzpostavil AMI Labs z 500 milijoni evrov finančne podpore, je artikuliral to, kar je mnogo raziskovalcev tiho verjelo leta. Veliki jezikovni modeli, kljub vsem svojim veličastnih sposobnostim, predstavljajo slepo cesto na poti do splošne umetne inteligence. Napovedujejo tokene brez razumevanja realnosti.

Alternativa? Svetovni modeli. Sistemi, ki se učijo simulirati, kako deluje fizični svet.

Temeljno Omejitev Jezikovnih Modelov

💡

Svetovni modeli se učijo napovedati, kaj se bo zgodilo v naslednji kadrу v vizualnih okoljih, ne samo katera beseda bo naslednja v besedilu. To zahteva razumevanje fizike, trajnosti predmeta in vzročnosti.

Jezikovni modeli odličnog pri ujemanju vzorcev v besedilu. Znajo pisati poezijo, odpravljati kodo in voditi pogovore, ki se zdijo presenetljivo človeški. Vendar zaprosite GPT-4, da napove, kaj se zgodi, ko spustite žogo, in se bo zanašal na zapomnjena opisa namesto na pristne fizične intuicije.

To je pomembno, ker je inteligenca, kot jo doživljamo v biološkem svetu, temeljno zasidrana v fizični resničnosti. Majhno dete, ki se uči graditi kocke, razvije intuitivno razumevanje gravitacije, uravnoteženosti in lastnosti materiala dolgo pred učenjem jezika. To voteljesno znanje, to razumevanje, kako stvari delujejo, predstavlja natanko to, kar sodobnim sistemom umetne inteligence manjka.

Svetovni modeli se trudijo zapolniti to vrzel. Namesto da napovedujejo naslednji token, napovedujejo naslednji okvir, naslednje fizičko stanje, naslednje posledice akcije.

Trije Pristopi k Razumevanju Sveta

Dirka za gradnjo umetne inteligence, ki razume svet, se je delila na tri različne paradigme, vsaka s svojimi prednostmi.

✓Modeli Napovedi Videa

Usposobljeni na ogromnih nizih video podatkov, da se naučijo implicitne fizike. Primeri vključujejo Soro in Veo. Dobri pri generiranju verodostojnih nadaljevanj, vendar se borijo s scenariji interakcije.

✗Modeli na Osnovi Simulacije

Gradijo eksplicitne fizikalne motorje in usposabljajo umetno inteligenco, da jih navigira. Zahteva dragoceno ročno gradnjo okoljú, vendar nudi natančno fizikalno pravilnost.

Tretji pristop, in morda najbolj obetavajući, kombinira oboje: se uči dinamike sveta iz videa, medtem ko ohrani sposobnost interakcije z okoljem in manipuliranja z njim. Tu igre postanejo nujne.

Igre: Popolno Testno Polje

Videoigre nudijo nekaj edinstvenega: interaktivna okolja s skladnimi fizikalnimi pravili, neskončno raznolikostjo in jasnimi merili uspeha. Za razliko od robotike v stvarnem svetu, ki zahteva drahocen hardver in predstavlja varnostna tveganja, igre nudijo neomejene neuspehe brez posledic.

500 milijard dolarjev+

Trg iger do 2030

500 milijonov evrov

Financiranje AMI Labs

12%

Letna stopnja rasti

DeepMind je ta potencial zgodaj priznal. Njihov sistem Genius lahko generira popolnoma nova, igriva okolja iz ene slike. Dajte mu skico ravni platformerja in ustvari svet s skladno fiziko, kjer se lahko like pravilno skačejo, padajo in medsebojno delujejo s predmeti.

Kar naredi Genija izjemen, ni le generacija, temveč razumevanje. Sistem se uči posplošenih fizikalnih konceptov, ki se prenašajo čez različne vizualne stile in vrste iger. Model, usposobljen na platformerjih v stilu Maria, razvije intuicijo o gravitaciji in trkih, ki se enako dobro uporablja za ročno risane indie igre in realistična 3D okolja.

Od Iger do Robotov

Ruralna iger-robotika ni teoretična. Podjetja jo že uporabljajo.

2024

Opredeljena Simulacijska Prepast

Raziskovanje kaže, da se modeli, usposobljeni čisto v simulaciji, soočajo z neslede stvarnega sveta: spreminjajočim se osvetljanjem, nepopolnimi senzorji, nepričakovanimi predmeti.

2025

Pojavljajo se Hibridni Pristopi

Ekipe kombinirajo svetovne modele, usposobljene v igrah, z omejenim fino lagojenjem v pravi svet, dramatično zmanjšajo podatke, potrebne za usposabljanje robotov.

2026

Začne se Komercialno Uvajanje

Prvi skladiščni roboti, ki uporabljajo hrbtenico svetovnih modelov, vstopajo v proizvodnjo, obvladujejo nove predmete brez eksplicitnega programiranja.

Spoznanje, ki vodi ta prehod, je preprosto: fizika je fizika. Model, ki resnično razume, kako se predmeti padajo, drsijo in trčijo v videoigri, bi moral s primerno prilagoditev razumeti ista načela v resničnem svetu. Vidna podoba se spremeni, vendar ostane temeljna dinamika konstantna.

Tesla je sledila različici te strategije s svojimi roboti Optimus, prvo usposabljala v simulaciji pred vodenjem na nadzorovanih teh okoljejih. Omejujoči faktor je bila vedno prepast med simulirano in pravo fiziko. Svetovni modeli, usposobljeni na različnih video podatkih, bi bi končno lahko premostili to prepast.

Stavka AMI Labs

Novo podjetje Yanna LeCuna, AMI Labs, predstavlja doslej največjo posamezno naložbo v raziskovanje svetovnih modelov. S 500 milijardi evrov evropskega financiranja in ekipo, verbovano iz Meta, DeepMind in akademskih laboratorijev, izvajajo to, kar LeCun imenuje "umetna inteligenca, vodena s cilji".

💡

Za razliko od LLM-ov, ki napovedujejo tokene, pristop AMI se osredotoča na učenje predstav sveta, ki omogočajo načrtovanje in sklepanje o fizičnih posledicah.

Tehnični temelji se gradijo na Arhitektura Napovednega Skupnega Vgrajevanja (JEPA), ogrodja, ki ga LeCun sodi leta. Namesto generiranja napovedi na ravni pikslov, kar zahteva ogromne računske vire, se JEPA uči abstraktnih predstav, ki zajemajo bistveno strukturo fizikalnih sistemov.

Zamislite si to na ta način: oseba, ki gleda žogo, se kotali proti prepastu, ne simulira vsakega piksla poti žoge. Namesto tega prepozna abstraktno situacijo (žoga, rob, gravitacija) in napove izid (padec). JEPA se trudim, da bi zajel to učinkovito, abstraktno sklepanje.

Implikacije za Ustvarjanje Videa AI

Ta raziskovalna pot ima globoke posledice za kreativne aplikacije. Trenutni AI generatorji videa dajejo impresivne rezultate, vendar trpijo od časovne nedoslednosti. Liki se metamorfozirajo, fizika se zlomi, predmeti se pojavijo in izginejo.

Svetovni modeli ponujajo potencialno rešitev. Generator, ki res razume fiziko, bi moral proizvajati videoposnetke, kjer se predmeti držijo skladnih pravil, kjer padajoči predmeti napovedljivo padajo, kjer se refleksije obnašajo pravilno.

✗Trenutno Stanje

Modeli generirajo vizualno verodostojne okvire brez uveljavljanja fizične skladnosti. Deluje za kratke izrezke, vendar se razpade pri daljših trajanju.

✓Prihodnost Svetovnega Modela

Fizična skladnost se pojavi iz naučene dinamike sveta. Daljši, bolj koherentni videoposnetki postanejo mogoči, ker model ohrani notranje stanje sveta.

Že vidimo zgodnje znake tega prehoda. GWM-1 Runway predstavlja njihovo stavko na svetovne modele, in izboljšana fizikalna simulacija Veo 3.1 nakazuje, da Google vključuje podobna načela.

Povezava z AGI

Zakaj je vse to pomembno za splošno umetno inteligenco? Ker prava inteligenca zahteva več kot jezikovno manipulacijo. Zahteva razumevanje vzroka in učinka, napovedovanje posledic in načrtovanje ukrepov v fizičnem svetu.

🧠

Vtelešeno Znanje

Prava inteligenca zahteva utemeljenje v fizični resničnosti, ne samo statistične vzorce v besedilu.

🎮

Interaktivno Učenje

Igre nudijo popolno testno polje: bogato fiziko, jasne povratne informacije, neomejene iteracije.

🤖

Robotska Uporaba

Svetovni modeli, usposobljeni v igrah, bi se lahko prenešli na robotiko v resničnem svetu z minimalno prilagoditev.

Raziskovalci, ki vodijo to delo, previdno ne trdijo, da gradijo AGI. Vendar prepričljivo argumentirajo, da brez razumevanja sveta ne moremo zgraditi sistemov, ki resnično razmišljajo namesto da le samodejno dopolnjujejo.

Kaj Sledi

Naslednji dve leti bosta kritični. Več razvoja za spremljanje:

○Prve javne demonstracije AMI Labs (pričakovane v sredini leta 2026)
○Integracija svetovnih modelov v glavne generatorje videa
○Podjetja s playahem (Unity, Unreal) dodajajo API-je svetovnih modelov
○Prvi potrošniški roboti, ki uporabljajo svetovne modele, usposobljene v igrah

Trg iger, napovedan, da bo presegel 500 milijard dolarjev do 2030, predstavlja rodovitno prst za uvajanje svetovnih modelov. Vlagatelji vidijo svetovne modele ne le kot raziskovalne radovednosti, temveč kot temeljno tehnologijo za interaktivno zabavo, simulacijo in robotiko.

Tiha Revolucija

Za razliko od eksplozivnega hype-a okrog ChatGPT-a se revolucija svetovnih modelov odvija tiho v raziskovalnih laboratorijih in studio iger. Ni viralnih demonstracij, ni dnevnih novinskih ciklov o najnovejšem preboju.

Toda posledice bi lahko bile globje. Jezikovni modeli so spremenili, kako se ukvarjamo z besedilom. Svetovni modeli bi lahko spremenili, kako se umetna inteligenca sooča s stvarnostjo.

Za tiste med nami, ki delamo pri ustvarjanju videa AI, to raziskovanje predstavlja grožnjo in priložnost. Naša trenutna orodja se v retrospektivi morda zdijo primitivna, kot zgodnji CGI v primerjavi z modernimi vizualnimi efekti. Toda osnovni princip, ustvarjanje vizualne vsebine skozi naučene modele, bo le spremenljiv, ko se ti modeli začnejo resnično razumeti svetove, ki jih ustvarjajo.

💡

Nadaljnje Branje: Odkrijte, kako difuzijski transformatorji nudijo arhitektonski temelj za številne svetovne modele, ali se poučite o interaktivnem ustvarjanju v realnem času, ki se gradi na načelih svetovnih modelov.

Pot od fizike videoigre do splošne umetne inteligence se morda zdi okrožna. Toda inteligenca, ne glede na to, kje jo najdemo, se pojavi iz sistemov, ki razumejo svoje okolje in lahko napovedujo posledice svojih dejanj. Igre nam nudijo varno mesto za gradnjo in testiranje takšnih sistemov. Roboti, kreativna orodja in morda pravo razumevanje strojev bodo sledila.

Svetovni Modeli Onkraj Videa: Zakaj so Igre in Robotika Pravo Testno Polje za AGI

Temeljno Omejitev Jezikovnih Modelov

Trije Pristopi k Razumevanju Sveta

Igre: Popolno Testno Polje

Od Iger do Robotov

Opredeljena Simulacijska Prepast

Pojavljajo se Hibridni Pristopi

Začne se Komercialno Uvajanje

Stavka AMI Labs

Implikacije za Ustvarjanje Videa AI

Povezava z AGI

Vtelešeno Znanje

Interaktivno Učenje

Robotska Uporaba

Kaj Sledi

Tiha Revolucija

Alexis

Like what you read?

Sorodni članki

Platforme AI Video za Pripovedovanje: Kako se Serializirana Vsebina Spreminja v Letu 2026

Veo 3.1 Ingredients to Video: Popoln vodnik za generiranje videov iz slik

Synthesia Dosega Vrednota 4 Milijard Dolarjev: Zakaj se NVIDIA in Alphabet Stavlja na AI Avatare

Vam je bil članek všeč?