Pasaules Modeļi Ārpus Video: Kāpēc Spēles un Robotika ir Patiesie Pierādīšanas Laukumi AGI

Nākamā mākslīgā intelekta revolūcija nerodas no valodas modeļiem. Tā nāks no sistēmām, kas saprot fizisko pasauli, un pirmais cīņu lauks nav pētniecības laboratorijas, bet video spēles.

Kad Yanns LeCun paziņoja par viņa izstāšanos no Meta, lai uzsāktu AMI Labs ar 500 miljonu eiro finansējumu, viņš norādīja uz to, ko daudzi pētnieki bija klusi ticējuši gadus ilgi. Lieli valodas modeļi, neskatoties uz iespaidīgajiem spēkiem, pārstāv strupceļu uz mākslīgās vispārējās intelektas ceļu. Viņi prognozē žetonus bez realitātes izpratnes.

Kāds ir risinājums? Pasaules modeļi. Sistēmas, kas mācās simulēt, kā darbojas fiziskā pasaule.

Valodas Modeļu Fundamentālie Ierobežojumi

💡

Pasaules modeļi mācās prognozēt, kas notiek nākotnē vizuālos vidēs, nevis tikai kādi vārdi nāk nākotnē tekstā. Tas prasa izpratni par fiziku, objektu pastāvību un cēlonības attiecībām.

Valodas modeļi ir teicami teksta paraugu saskaņošanā. Viņi var rakstīt dzejoli, atkļūdot kodu un vadīt sarunas, kas šķiet brīnumaingi cilvēciskas. Bet jautājiet GPT-4, kas notiek, kad nomet bumbu, un tā paļaujas uz iegaumētiem aprakstiem, nevis patiesas fiziskas intuīcijas.

Tas ir svarīgi, jo intelekts, kā mēs to piedzīvojam biologiskajā pasaulē, ir fundamentāli balstīts fiziskajā realitātē. Mazi bērni, kuri mācās likt klucīšus vienu uz otra, attīsta intuitīvu izpratni par gravitāciju, līdzsvaru un materiāla īpašībām daudz pirms valodas apguves. Šī iegultā izziņa, šī izjūta par to, kā darbojas pasaule, pārstāv tieši to, ko šobrīdējās AI sistēmās trūkst.

Pasaules modeļi cenšas aizpildīt šo spraugu. Tā vietā, lai prognozētu nākamo žetonu, viņi prognozē nākamo kadru, nākamo fizisko stāvokli, nākamo darbības sekas.

Trīs Pieejas Pasaules Izpratnei

Sacensība uz pasaules izpratnīguma AI veidošanu ir sadalījusies trīs atšķirīgos paradigmas, katram ar dažādiem spēkiem.

✓Video Prognožu Modeļi

Apmācīti uz masīvajiem video datu kopumiem, lai apgūtu netiešo fiziku. Piemēri ir Sora un Veo. Labāki pie plausīblas turpināšanas ģenerēšanas, bet cīnās ar interaktīviem scenārijiem.

✗Uz Simulāciju Balstīti Modeļi

Veidojiet skaidras fizikas dzinējus un apmāciet AI, lai tos navigētu. Prasa dārgu manuālu vides konstruēšanu, bet piedāvā precīzu fizisko precizitāti.

Trešā pieeja, un varbūt visnelūgtākā, apvieno abus: mācīties pasaules dinamiku no video, vienlaikus saglabājot spēju mijiedarboties ar vidi un to manipulēt. Šeit spēles kļūst būtiskas.

Spēles, Ideāls Apmācības Lauks

Video spēles piedāvā kaut ko unikālu: interaktīvas vides ar konsekventiem fizikas noteikumiem, bezgalīgu variāciju un skaidras sekmju metrikas. Atšķirībā no reālās robotikas, kas prasa dārgu aparatūru un rada drošības jautājumus, spēles piedāvā neierobežotus neveiksmējumus bez sekām.

$500B+

Spēļu tirgus līdz 2030

€500M

AMI Labs finansējums

12%

Gada pieauguma temps

DeepMind šo potenciālu atzina agri. Viņu Genie sistēma var ģenerēt pilnīgi jaunas spēlējamas vides no vienas attēla. Dodiet tai skici no platformas līmeņa, un tas rada pasauli ar konsekventiem fizikas noteikumiem, kur personāžes var lēkt, nokrist un piemērotā veidā mijiedarboties ar objektiem.

Tas, kas padara Genie ievērojamu, ir nevis tikai ģenerācija, bet izpratne. Sistēma apgūst vispārinājamus fizikas jēdzienus, kas pārsūta pa dažādiem vizuālajiem stiliem un spēļu tipiem. Modelis, ko apmāca Mario stila platformās, attīsta intuīciju par gravitāciju un sadursmi, kas vienlīdz attiecas uz roku zīmētām neatkarīgām spēlēm un reālistiskiem 3D vidējiem.

No Spēlēm uz Robotiem

Spēļu-uz-robotikas vīleklis nav teorētisks. Uzņēmumi to jau lieto.

2024

Simulācijas Plaisa Identificēta

Pētījumi parāda, ka modeļi, kas apmācīti tikai simulācijā, cīnās ar reālās pasaules nekārtībām: mainīgs apgaismojums, nepilnīgie sensori, negaidīti objekti.

2025

Hibrīdas Pieejas Parādās

Komandas apvieno spēlē apmācītus pasaules modeļus ar ierobežotu reālās pasaules smalkinājumi, dramatiski samazinot robotikas apmācībai nepieciešamos datus.

2026

Komerciāla Izvietošana Sākas

Pirmie noliktavas roboti ar pasaules modeļu mugurpusi tiek ievietoti ražošanā, apstrādājot jaunus objektus bez skaidras programmēšanas.

Ieskats, kas dala šo pāreju, ir vienkāršs: fizikas ir fizikas. Modelis, kas patiesi saprot, kā objekti krīt, slīd un saduras video spēlē, būtu ar atbilstošu pielāgošanu jāsaprot tie paši principi reālajā pasaulē. Vizuālais izskats mainās, bet pamatā esošā dinamika paliek nemainīga.

Tesla ir sekojusi šīs stratēģijas versijai ar viņu Optimus robotiem, vispirms apmācot simulācijā, tad izvietojot kontrolētās rūpniecības vides. Ierobežojošais faktors vienmēr ir bijis atšķirības starp simulēto un reālo fiziku. Pasaules modeļi, apmācu uz dažādu video datu, var visbeidzot šo plaisu tilti.

AMI Labs Likme

Yanns LeCun jaunā venture, AMI Labs, pārstāv vislielāko vienu ieguldījumu pasaules modeļu pētījumā līdz šim. Ar 500 miljonu eiro Eiropas finansējumu un komandu, kas rekrutēta no Meta, DeepMind un akadēmiskajiem laboratorijiem, viņi seko tam, ko LeCun sauc par "mērķu vadītu AI."

💡

Atšķirībā no LLM, kas prognozē žetonus, AMI pieeja fokusējas uz pasaules attēlojuma apgūšanu, kas ļauj plānošanu un argumentēšanu par fiziskajām sekām.

Tehniskais pamats ir veidots uz Joint Embedding Predictive Architecture,framework, ko LeCun ir atbalstījis gadus ilgi. Tā vietā, lai ģenerētu pikseļu līmeņa prognozes, kas prasa milzīgus skaitļošanas resursus, JEPA apgūst abstraktus attēlojumus, kas uztver fizisko sistēmu būtisko struktūru.

Padomājiet par to šādi: cilvēks, kas raugās, kā bumba ripo pret klinti, ne simulēt katru bumbu trajektorijas pikseļu. Tā vietā mēs atzīstam abstrakto situāciju (bumba, mala, gravitācija) un prognozējam rezultātu (krišanu). JEPA mēģina uztvert šo efektīvu, abstraktu argumentāciju.

Sekas AI Video Ģenerēšanai

Šī pētniecības trajektorija ir dziļi svarīga radošām lietojumprogrammām. Pašreizējie AI video ģeneratori rada iespaidīgus rezultātus, bet cieš no laika nekonsekvences. Personāžes transformācijas, fizikas laužas, un objekti parādās un pazūd.

Pasaules modeļi piedāvā potenciālu risinājumu. Ģenerators, kas patiesi saprot fiziku, vajadzētu ražot videoklipus, kur objekti pakļaujas konsekventiem noteikumiem, kur kritušie elementi paši paredzamā veidā, kur refleksijas izturas pareizi.

✗Pašreizējais Stāvoklis

Modeļi ģenerē vizuāli ticamus kadrus bez fiziskas konsekvences piespiedu izpildes. Darbojas īsiem fragmentiem, bet saplūst garākos ilgumos.

✓Pasaules Modeļu Nākotne

Fiziskā konsekvence rodas no apgūtās pasaules dinamikas. Garāki, sakarīgāki videoklips kļūst iespējami, jo modelis uztur pasaules iekšēju stāvokli.

Mēs jau redzam agrīnās norādes šai pārejai. Runway GWM-1 pārstāv viņu likmi uz pasaules modeļiem, un Veo 3.1 uzlabota fizika simulācija norāda, ka Google iekļauj līdzīgus principus.

AGI Savienojums

Kāpēc tas viss ir svarīgi mākslīgajai vispārējai intelektam? Jo patieusa intelekts prasa vairāk nekā valodas manipulāciju. Tas prasa cēlonības izpratni, sekas prognozēšanu un darbību plānošanu fiziskajā pasaulē.

🧠

Iegultā Izziņa

Patieusai intelektam var būt nepieciešama pamatošanās fiziskajā realitātē, nevis tikai statistiskas modeles tekstā.

🎮

Interaktīvā Mācīšanās

Spēles nodrošina ideālo testēšanas grīdu: bagātas fizikas, skaidrs feedback, bezgalīga atkārtošana.

🤖

Robotikas Pielietojums

Spēlēs apmācu pasaules modeļi varētu pārnest uz reālās pasaules robotiaku ar minimālu pielāgošanu.

Pētnieki, kas dīkstāvi darbā ir piesardzīgi, lai neapgalvotu, ka viņi rada AGI. Bet viņi pārliecinošu argumentēti, ka bez pasaules izpratnes mēs nevaram izveidot sistēmas, kas patiesi domā, nevis vienkārši auto-pabeigz.

Kas Nāk Tālāk

Nākamie divi gadi būs kritiskas. Vairākas tendences, kas jāuzmano:

○AMI Labs pirmās publiskās demonstrācijas (gaidītas vidēs-2026)
○Pasaules modeļu integrācija lielākajās video ģeneratorāsēs
○Spēļu dzinēju uzņēmumi (Unity, Unreal) pievieno pasaules modeļu API
○Pirmie patēriņa roboti, kas izmanto spēlē apmācītus pasaules modeļus

Spēļu tirgus, kurš ir projicēts pārsniegt 500 miljardus dolāru līdz 2030, pārstāv fertilu augsni pasaules modeļu izvietošanai. Ieguldītāji redz pasaules modeļus ne tikai kā pētniecības kuriotātes, bet kā pamata tehnoloģiju interaktīvai izklaidi, simulācijai un robotikai.

Klusa Revolūcija

Atšķirībā no sprāgstošā hype ap ChatGPT, pasaules modeļu revolūcija norisinās klusi pētniecības laboratorijās un spēļu studijās. Nav vīrusu demo, nav ikdienas jaunumu par nākamo pārraidi.

Bet sekas var būt dziļākas. Valodas modeļi mainīja, kā mēs mijiedarbojas ar tekstu. Pasaules modeļi varētu mainīt, kā AI mijiedarbojas ar realitāti.

Tiem no mums, kuri strādā ar AI video ģenerēšanu, šī pētniecība pārstāv gan draudus, gan iespējas. Mūsu pašreizējie rīki var šķist primitīvi atpakaļ skatienā, kā agrīnais CGI, salīdzinot ar moderno vizuālo efektu. Bet pamatā esošais princips, vizuālā satura ģenerēšana caur apgūtiem modeļiem, tikai kļūs spēcīgāks, jo šie modeļi sāks patiesi saprast pasaules, kuras viņi rada.

💡

Tālāka Lasīšana: Pieskaņosies, kā Diffusion Transformers nodrošina arhitektūras pamatu daudziem pasaules modeļiem, vai uzziniet par reālā laika interaktīvo ģenerēšanu, kas balstīta uz pasaules modeļu principiem.

Ceļš no video spēļu fizikas uz mākslīgo vispārējo intelektu var šķist apļveidīgs. Bet intelekts, kur vien mēs to atrodam, rodas no sistēmām, kas saprot savu vidi un var prognozēt savu rīcības sekas. Spēles dod mums drošu vietu šādu sistēmu veidošanai un testēšanai. Roboti, radošie rīki un varbūt patieusā mašīnveida izpratne sekos.

Pasaules Modeļi Ārpus Video: Kāpēc Spēles un Robotika ir Patiesie Pierādīšanas Laukumi AGI

Valodas Modeļu Fundamentālie Ierobežojumi

Trīs Pieejas Pasaules Izpratnei

Spēles, Ideāls Apmācības Lauks

No Spēlēm uz Robotiem

Simulācijas Plaisa Identificēta

Hibrīdas Pieejas Parādās

Komerciāla Izvietošana Sākas

AMI Labs Likme

Sekas AI Video Ģenerēšanai

AGI Savienojums

Iegultā Izziņa

Interaktīvā Mācīšanās

Robotikas Pielietojums

Kas Nāk Tālāk

Klusa Revolūcija

Alexis

Like what you read?

Saistītie raksti

Yann LeCun pamet Meta, lai liktu 3,5 miljardus dolāru uz pasaules modeļiem

Runway GWM-1: Vispārīgais pasaules modelis, kas simulē realitāti reāllaikā

Video valodas modeļi: Nākamā robeža pēc LLM un AI aģentiem

Vai jums patika šis raksts?