Meta Pixel
HenryHenry
6 min read
1157 sõna

Videokeelimudelid: järgmine piir pärast LLM-e ja tehisintellektiagente

Maailmamudelid õpetavad tehisintellekti mõistma füüsilist reaalsust, võimaldades robotitel planeerida tegevusi ja simuleerida tulemusi enne ühtegi liigutust.

Videokeelimudelid: järgmine piir pärast LLM-e ja tehisintellektiagente

Suured keelimudelid vallutasid teksti. Nägemismudelid valdasid pilte. Tehisintellektiagendid õppisid tööriistu kasutama. Nüüd on tekkimas uus kategooria, mis võib neid kõiki kääbustada: videokeelimudelid ehk see, mida teadlased üha enam nimetavad "maailmamudeliteks".

Oleme viimastel aastatel õpetanud tehisintellekti lugema, kirjutama ja isegi keeruliste probleemide üle arutlema. Aga asi on selles: kõik see toimub digitaalses valdkonnas. ChatGPT võib sulle kirjutada luuletuse metsas kõndimisest, kuid tal pole aimugi, milline on tegelikult tunne astuda üle kukkunud puutüve või painutada end madala oksa alt läbi.

Maailmamudelid on siin seda muutmas.

Mis on videokeelimudelid?

💡

Videokeelimudelid (VLM-id) töötlevad visuaalseid jadasid ja keelt samaaegselt, võimaldades tehisintellektil mõista mitte ainult seda, mis on kaadris, vaid ka seda, kuidas stseenid aja jooksul arenevad ja mis võib juhtuda edasi.

Mõtle neile kui nägemis-keelimudelite evolutsioonile, kuid ühe olulise lisaga: ajaline mõistmine. Kui tavaline VLM vaatab ühte pilti ja vastab selle kohta küsimustele, jälgib videokeelemudel jadade arengut ja õpib reegleid, mis valitsevad füüsilist reaalsust.

See pole lihtsalt akadeemiline uudishimu. Praktilised tagajärjed on hämmastuvad.

Kui robot peab kohvitassi üles võtma, ei piisa lihtsalt "tassi" tuvastamisest pildil. Ta peab mõistma:

  • Kuidas objektid käituvad, kui neid lükata või tõsta
  • Mis juhtub, kui vedelikud loksuvad
  • Kuidas tema enda liigutused stseeni mõjutavad
  • Millised tegevused on füüsiliselt võimalikud ja millised mitte

Siin tulevad mängu maailmamudelid.

Simulatsioonist tegevuseni

🤖

Füüsiline intelligentsus

Maailmamudelid genereerivad videotaolisi simulatsioone võimalikest tulevikest, lastes robotitel "ette kujutada" tulemusi enne tegevustele pühendumist.

Kontseptsioon on elegantne: selle asemel, et füüsilisi reegleid kõvakodeerida, treenitakse tehisintellekti miljonite tundide video peal, mis näitab, kuidas maailm tegelikult töötab. Mudel õpib gravitatsiooni, hõõrdumist, objektide püsivust ja põhjuslikkust mitte võrranditest, vaid vaatlusest.

NVIDIA Cosmos esindab üht ambitsioonikaimat katset selles suunas. Nende omandusliku maailmamudeli eesmärk on spetsiaalselt robootikarakendused, kus füüsilise reaalsuse mõistmine pole valikuline. See on ellujäämine.

Google DeepMindi Genie 3 võtab teistsuguse lähenemise, keskendudes interaktiivsele maailma genereerimisele, kus mudelit saab "mängida" nagu videomängukeskkonda.

Traditsiooniline robootika

Käsitsi kodeeritud füüsikareeglid, haprad äärmisjuhtumid, kallid andurisüsteemid, aeglane kohanemine uute keskkondadega

Maailmamudeli lähenemine

Õpitud füüsiline intuitsioon, graatsiline degradatsioon, lihtsamad riistvaranõuded, kiire ülekanne uutesse stsenaariumitesse

PAN-i eksperiment

Mohamed bin Zayedi ülikooli teadlased avaldasid hiljuti PAN-i, üldise maailmamudeli, mis teeb nende sõnul "mõtteeksperimente" kontrollitud simulatsioonides.

🧪

Kuidas PAN töötab

Kasutades generatiivset latentset ennustamist (GLP) ja Causal Swin-DPM arhitektuuri, säilitab PAN stseeni sidususe pikendatud jadade jooksul, ennustades samal ajal füüsiliselt usutavaid tulemusi.

Põhiuuendus on maailma modelleerimise käsitlemine generatiivse videoprobleemina. Selle asemel, et füüsikat otseselt programmeerida, õpib mudel genereerima videojätkusid, mis austavad füüsikalisi seadusi. Kui talle anda algusstseen ja pakutud tegevus, võib ta "ette kujutada", mis järgmisena juhtub.

Sellel on sügavad tagajärjed robootikale. Enne kui humanoidrobot sirutab käe kohvitassi poole, võib ta käivitada sadu simuleeritud katseid, õppides, millised lähenemiskurgad töötavad ja millised lõppevad kohviga põrandal.

Miljardi roboti tulevik

1B
Prognoositud humanoidrobotid aastaks 2050
3x
Robootika tehisintellekti investeeringute kasv alates 2023

Need pole suvalised numbrid dramaatilise efekti jaoks. Tööstuse prognoosid osutavad tõepoolest tulevikule, kus humanoidrobotid muutuvad sama tavaliseks kui nutitelefonid. Ja igaüks neist vajab maailmamudeleid, et inimeste kõrval turvaliselt toimida.

Rakendused ulatuvad kaugemale humanoidrobotitest:

Praegu

Tehase simulatsioonid

Töötajate koolitamine virtuaalkeskkondades enne nende saatmist füüsilistele tehasekorustele

2025

Autonoomsed sõidukid

Ohutussüsteemid, mis ennustavad õnnetusstsenaariume ja võtavad ennetavaid meetmeid

2026

Laonnavigeerumine

Robotid, mis mõistavad keerukaid ruume ja kohanevad muutuvate paigutustega

2027+

Koduabilised

Robotid, mis navigeerivad turvaliselt inimeste eluruumides ja käsitsevad igapäevaseid esemeid

Kus videogenereerimine kohtub maailma mõistmisega

Kui oled jälginud tehisintellekti videogenereerimist, võid märgata siin mõningast kattumist. Tööriistad nagu Sora 2 ja Veo 3 genereerivad juba märkimisväärselt realistlikku videot. Kas need pole samuti maailmamudelid?

Jah ja ei.

OpenAI on selgelt positsioneerinud Sora kui maailma simulatsiooni võimekusega. Mudel mõistab selgelt midagi füüsikast. Vaata ükskõik millist Sora genereeringut ja näed realistlikku valgustust, usutavat liikumist ja objekte, mis käituvad enamasti õigesti.

Kuid on oluline erinevus usutava välimusega video genereerimise ja füüsilise põhjuslikkuse tõelise mõistmise vahel. Praegused videogeneraatorid on optimeeritud visuaalseks realismiks. Maailmamudelid on optimeeritud ennustuse täpsuseks.

💡

Test pole "kas see näeb välja päris?", vaid "antud tegevuse X puhul, kas mudel ennustab õigesti tulemust Y?" See on palju kõrgem latt ületamiseks.

Hallutsinatsioonide probleem

Siin on ebamugav tõde: maailmamudelid kannatavad samade hallutsinatsiooniprobleemide all, mis vaevavad LLM-e.

Kui ChatGPT kinnitab enesekindlalt vale fakti, on see tüütu. Kui maailmamudel ennustab enesekindlalt, et robot saab läbi seina kõndida, on see ohtlik.

⚠️

Maailmamudeli hallutsinatsioonid füüsilistes süsteemides võivad põhjustada reaalset kahju. Ohutusnõuded ja verifitseerimiskihid on hädavajalikud enne inimeste kõrvale juurutamist.

Praegused süsteemid degradeeruvad pikemate jadade jooksul, kaotades sidususe, mida kaugemale tulevikku nad projitseerivad. See loob fundamentaalse pinge: kõige kasulikumad ennustused on pikaajalised, kuid need on ka kõige vähem usaldusväärsed.

Teadlased ründavad seda probleemi mitmest nurgast. Mõned keskenduvad paremale treeningandmetele. Teised töötavad arhitektuuriliste uuendustega, mis säilitavad stseeni sidususe. Veel teised pooldavad hübriidlähenemisi, mis ühendavad õpitud maailmamudeleid selgesõnaliste füüsiliste piirangutega.

Qwen 3-VL läbimurre

Nägemis-keele poolel esindab Alibaba Qwen 3-VL praegust tipptaset avatud lähtekoodiga mudelite seas.

Lipulaev Qwen3-VL-235B mudel konkureerib juhtivate omanduslike süsteemidega multimodaalsetes võrdlusnäitajates, mis hõlmavad üldist küsimuste-vastuste vormingut, 3D põhistamist, video mõistmist, OCR-i ja dokumentide mõistmist.

Mis teeb Qwen 3-VL eriti huvitavaks, on selle "agentsed" võimed. Mudel võib opereerida graafilisi liideseid, tuvastada kasutajaliidese elemente, mõista nende funktsioone ja täita pärismaailma ülesandeid tööriistade kasutamise kaudu.

See on sild mõistmise ja tegevuse vahel, mida maailmamudelid vajavad.

Miks see on oluline loojatele

Kui oled videote looja, filmitegija või animaator, võivad maailmamudelid tunduda sinu igapäevatööst kaugel. Kuid tagajärjed on lähemal, kui arvad.

Praegused tehisintellekti videotööriistad võitlevad füüsilise järjepidevusega. Objektid läbivad teineteist. Gravitatsioon käitub ebaühtlaselt. Põhjus ja tagajärg lähevad sassi. Need kõik on sümptomid mudelitest, mis võivad genereerida realistlikke piksleid, kuid ei mõista tõeliselt füüsilisi reegleid, mis on nende kujutatava aluseks.

Maailmamudelid, mis on treenitud massiivsete videoandmestike peal, võiksid lõpuks toita tagasi videogenereerimisse, luues tehisintellekti tööriistu, mis loomupäraselt austavad füüsilisi seadusi. Kujuta ette videogeneraatorit, kus sa ei pea küsima "realistlikku füüsikat", sest mudel juba teab, kuidas reaalsus toimib.

💡

Seotud lugemist: Lisateavet videogenereerimise arengu kohta leiad meie süvitsiminekust difusioonitrafodest ja maailmamudelitest videogenereerimises.

Tee edasi

Maailmamudelid esindavad võib-olla kõige ambitsioonikaimat eesmärki tehisintellektis: õpetada masinaid mõistma füüsilist reaalsust nii, nagu inimesed seda teevad. Mitte otsese programmeerimise, vaid vaatluse, järelduse ja kujutlusvõime kaudu.

Oleme veel alguses. Praegused süsteemid on muljetavaldavad demonstratsioonid, mitte tootmisvalmis lahendused. Kuid trajektoor on selge.

Mis meil praegu on:

  • Piiratud jada sidusus
  • Valdkonnaspetsiifilised mudelid
  • Kõrged arvutuskulud
  • Uurimisfaasi juurutused

Mis on tulemas:

  • Laiendatud ajaline mõistmine
  • Üldotstarbelised maailmamudelid
  • Servasseadmete juurutus
  • Kaubanduslik robootika integratsioon

Ettevõtted, kes investeerivad sellesse valdkonda tugevalt, NVIDIA, Google DeepMind, OpenAI ja arvukad idufirmad, panustavad sellele, et füüsiline intelligentsus on järgmine piir pärast digitaalset intelligentsust.

Arvestades, kui transformatiivsed on LLM-id olnud tekstipõhise töö jaoks, kujuta ette mõju, kui tehisintellekt suudab mõista ja suhelda füüsilise maailmaga sama sujuvalt.

See on videokeelimudelite lubadus. Seepärast on see piir oluline.

💡

Lisalugemist: Avasta, kuidas tehisintellekti video juba muudab loomingulisi töövooge meie kajastusest natiivsest heli genereerimisest ja ettevõtte tasandi kasutuselevõtust.

Kas see artikkel oli kasulik?

Henry

Henry

Loov tehnoloog

Loov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.

Seotud artiklid

Jätkake uurimist nende seotud postitustega

Kas see artikkel meeldis teile?

Avastage rohkem põnevaid teadmisi ja püsige kursis meie uusima sisuga.

Videokeelimudelid: järgmine piir pärast LLM-e ja tehisintellektiagente