Videokeelimudelid: järgmine piir pärast LLM-e ja tehisintellektiagente
Maailmamudelid õpetavad tehisintellekti mõistma füüsilist reaalsust, võimaldades robotitel planeerida tegevusi ja simuleerida tulemusi enne ühtegi liigutust.

Suured keelimudelid vallutasid teksti. Nägemismudelid valdasid pilte. Tehisintellektiagendid õppisid tööriistu kasutama. Nüüd on tekkimas uus kategooria, mis võib neid kõiki kääbustada: videokeelimudelid ehk see, mida teadlased üha enam nimetavad "maailmamudeliteks".
Oleme viimastel aastatel õpetanud tehisintellekti lugema, kirjutama ja isegi keeruliste probleemide üle arutlema. Aga asi on selles: kõik see toimub digitaalses valdkonnas. ChatGPT võib sulle kirjutada luuletuse metsas kõndimisest, kuid tal pole aimugi, milline on tegelikult tunne astuda üle kukkunud puutüve või painutada end madala oksa alt läbi.
Maailmamudelid on siin seda muutmas.
Mis on videokeelimudelid?
Videokeelimudelid (VLM-id) töötlevad visuaalseid jadasid ja keelt samaaegselt, võimaldades tehisintellektil mõista mitte ainult seda, mis on kaadris, vaid ka seda, kuidas stseenid aja jooksul arenevad ja mis võib juhtuda edasi.
Mõtle neile kui nägemis-keelimudelite evolutsioonile, kuid ühe olulise lisaga: ajaline mõistmine. Kui tavaline VLM vaatab ühte pilti ja vastab selle kohta küsimustele, jälgib videokeelemudel jadade arengut ja õpib reegleid, mis valitsevad füüsilist reaalsust.
See pole lihtsalt akadeemiline uudishimu. Praktilised tagajärjed on hämmastuvad.
Kui robot peab kohvitassi üles võtma, ei piisa lihtsalt "tassi" tuvastamisest pildil. Ta peab mõistma:
- ✓Kuidas objektid käituvad, kui neid lükata või tõsta
- ✓Mis juhtub, kui vedelikud loksuvad
- ✓Kuidas tema enda liigutused stseeni mõjutavad
- ✓Millised tegevused on füüsiliselt võimalikud ja millised mitte
Siin tulevad mängu maailmamudelid.
Simulatsioonist tegevuseni
Füüsiline intelligentsus
Maailmamudelid genereerivad videotaolisi simulatsioone võimalikest tulevikest, lastes robotitel "ette kujutada" tulemusi enne tegevustele pühendumist.
Kontseptsioon on elegantne: selle asemel, et füüsilisi reegleid kõvakodeerida, treenitakse tehisintellekti miljonite tundide video peal, mis näitab, kuidas maailm tegelikult töötab. Mudel õpib gravitatsiooni, hõõrdumist, objektide püsivust ja põhjuslikkust mitte võrranditest, vaid vaatlusest.
NVIDIA Cosmos esindab üht ambitsioonikaimat katset selles suunas. Nende omandusliku maailmamudeli eesmärk on spetsiaalselt robootikarakendused, kus füüsilise reaalsuse mõistmine pole valikuline. See on ellujäämine.
Google DeepMindi Genie 3 võtab teistsuguse lähenemise, keskendudes interaktiivsele maailma genereerimisele, kus mudelit saab "mängida" nagu videomängukeskkonda.
Käsitsi kodeeritud füüsikareeglid, haprad äärmisjuhtumid, kallid andurisüsteemid, aeglane kohanemine uute keskkondadega
Õpitud füüsiline intuitsioon, graatsiline degradatsioon, lihtsamad riistvaranõuded, kiire ülekanne uutesse stsenaariumitesse
PAN-i eksperiment
Mohamed bin Zayedi ülikooli teadlased avaldasid hiljuti PAN-i, üldise maailmamudeli, mis teeb nende sõnul "mõtteeksperimente" kontrollitud simulatsioonides.
Kuidas PAN töötab
Kasutades generatiivset latentset ennustamist (GLP) ja Causal Swin-DPM arhitektuuri, säilitab PAN stseeni sidususe pikendatud jadade jooksul, ennustades samal ajal füüsiliselt usutavaid tulemusi.
Põhiuuendus on maailma modelleerimise käsitlemine generatiivse videoprobleemina. Selle asemel, et füüsikat otseselt programmeerida, õpib mudel genereerima videojätkusid, mis austavad füüsikalisi seadusi. Kui talle anda algusstseen ja pakutud tegevus, võib ta "ette kujutada", mis järgmisena juhtub.
Sellel on sügavad tagajärjed robootikale. Enne kui humanoidrobot sirutab käe kohvitassi poole, võib ta käivitada sadu simuleeritud katseid, õppides, millised lähenemiskurgad töötavad ja millised lõppevad kohviga põrandal.
Miljardi roboti tulevik
Need pole suvalised numbrid dramaatilise efekti jaoks. Tööstuse prognoosid osutavad tõepoolest tulevikule, kus humanoidrobotid muutuvad sama tavaliseks kui nutitelefonid. Ja igaüks neist vajab maailmamudeleid, et inimeste kõrval turvaliselt toimida.
Rakendused ulatuvad kaugemale humanoidrobotitest:
Tehase simulatsioonid
Töötajate koolitamine virtuaalkeskkondades enne nende saatmist füüsilistele tehasekorustele
Autonoomsed sõidukid
Ohutussüsteemid, mis ennustavad õnnetusstsenaariume ja võtavad ennetavaid meetmeid
Laonnavigeerumine
Robotid, mis mõistavad keerukaid ruume ja kohanevad muutuvate paigutustega
Koduabilised
Robotid, mis navigeerivad turvaliselt inimeste eluruumides ja käsitsevad igapäevaseid esemeid
Kus videogenereerimine kohtub maailma mõistmisega
Kui oled jälginud tehisintellekti videogenereerimist, võid märgata siin mõningast kattumist. Tööriistad nagu Sora 2 ja Veo 3 genereerivad juba märkimisväärselt realistlikku videot. Kas need pole samuti maailmamudelid?
Jah ja ei.
OpenAI on selgelt positsioneerinud Sora kui maailma simulatsiooni võimekusega. Mudel mõistab selgelt midagi füüsikast. Vaata ükskõik millist Sora genereeringut ja näed realistlikku valgustust, usutavat liikumist ja objekte, mis käituvad enamasti õigesti.
Kuid on oluline erinevus usutava välimusega video genereerimise ja füüsilise põhjuslikkuse tõelise mõistmise vahel. Praegused videogeneraatorid on optimeeritud visuaalseks realismiks. Maailmamudelid on optimeeritud ennustuse täpsuseks.
Test pole "kas see näeb välja päris?", vaid "antud tegevuse X puhul, kas mudel ennustab õigesti tulemust Y?" See on palju kõrgem latt ületamiseks.
Hallutsinatsioonide probleem
Siin on ebamugav tõde: maailmamudelid kannatavad samade hallutsinatsiooniprobleemide all, mis vaevavad LLM-e.
Kui ChatGPT kinnitab enesekindlalt vale fakti, on see tüütu. Kui maailmamudel ennustab enesekindlalt, et robot saab läbi seina kõndida, on see ohtlik.
Maailmamudeli hallutsinatsioonid füüsilistes süsteemides võivad põhjustada reaalset kahju. Ohutusnõuded ja verifitseerimiskihid on hädavajalikud enne inimeste kõrvale juurutamist.
Praegused süsteemid degradeeruvad pikemate jadade jooksul, kaotades sidususe, mida kaugemale tulevikku nad projitseerivad. See loob fundamentaalse pinge: kõige kasulikumad ennustused on pikaajalised, kuid need on ka kõige vähem usaldusväärsed.
Teadlased ründavad seda probleemi mitmest nurgast. Mõned keskenduvad paremale treeningandmetele. Teised töötavad arhitektuuriliste uuendustega, mis säilitavad stseeni sidususe. Veel teised pooldavad hübriidlähenemisi, mis ühendavad õpitud maailmamudeleid selgesõnaliste füüsiliste piirangutega.
Qwen 3-VL läbimurre
Nägemis-keele poolel esindab Alibaba Qwen 3-VL praegust tipptaset avatud lähtekoodiga mudelite seas.
Lipulaev Qwen3-VL-235B mudel konkureerib juhtivate omanduslike süsteemidega multimodaalsetes võrdlusnäitajates, mis hõlmavad üldist küsimuste-vastuste vormingut, 3D põhistamist, video mõistmist, OCR-i ja dokumentide mõistmist.
Mis teeb Qwen 3-VL eriti huvitavaks, on selle "agentsed" võimed. Mudel võib opereerida graafilisi liideseid, tuvastada kasutajaliidese elemente, mõista nende funktsioone ja täita pärismaailma ülesandeid tööriistade kasutamise kaudu.
See on sild mõistmise ja tegevuse vahel, mida maailmamudelid vajavad.
Miks see on oluline loojatele
Kui oled videote looja, filmitegija või animaator, võivad maailmamudelid tunduda sinu igapäevatööst kaugel. Kuid tagajärjed on lähemal, kui arvad.
Praegused tehisintellekti videotööriistad võitlevad füüsilise järjepidevusega. Objektid läbivad teineteist. Gravitatsioon käitub ebaühtlaselt. Põhjus ja tagajärg lähevad sassi. Need kõik on sümptomid mudelitest, mis võivad genereerida realistlikke piksleid, kuid ei mõista tõeliselt füüsilisi reegleid, mis on nende kujutatava aluseks.
Maailmamudelid, mis on treenitud massiivsete videoandmestike peal, võiksid lõpuks toita tagasi videogenereerimisse, luues tehisintellekti tööriistu, mis loomupäraselt austavad füüsilisi seadusi. Kujuta ette videogeneraatorit, kus sa ei pea küsima "realistlikku füüsikat", sest mudel juba teab, kuidas reaalsus toimib.
Seotud lugemist: Lisateavet videogenereerimise arengu kohta leiad meie süvitsiminekust difusioonitrafodest ja maailmamudelitest videogenereerimises.
Tee edasi
Maailmamudelid esindavad võib-olla kõige ambitsioonikaimat eesmärki tehisintellektis: õpetada masinaid mõistma füüsilist reaalsust nii, nagu inimesed seda teevad. Mitte otsese programmeerimise, vaid vaatluse, järelduse ja kujutlusvõime kaudu.
Oleme veel alguses. Praegused süsteemid on muljetavaldavad demonstratsioonid, mitte tootmisvalmis lahendused. Kuid trajektoor on selge.
Mis meil praegu on:
- Piiratud jada sidusus
- Valdkonnaspetsiifilised mudelid
- Kõrged arvutuskulud
- Uurimisfaasi juurutused
Mis on tulemas:
- Laiendatud ajaline mõistmine
- Üldotstarbelised maailmamudelid
- Servasseadmete juurutus
- Kaubanduslik robootika integratsioon
Ettevõtted, kes investeerivad sellesse valdkonda tugevalt, NVIDIA, Google DeepMind, OpenAI ja arvukad idufirmad, panustavad sellele, et füüsiline intelligentsus on järgmine piir pärast digitaalset intelligentsust.
Arvestades, kui transformatiivsed on LLM-id olnud tekstipõhise töö jaoks, kujuta ette mõju, kui tehisintellekt suudab mõista ja suhelda füüsilise maailmaga sama sujuvalt.
See on videokeelimudelite lubadus. Seepärast on see piir oluline.
Lisalugemist: Avasta, kuidas tehisintellekti video juba muudab loomingulisi töövooge meie kajastusest natiivsest heli genereerimisest ja ettevõtte tasandi kasutuselevõtust.
Kas see artikkel oli kasulik?

Henry
Loov tehnoloogLoov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.
Seotud artiklid
Jätkake uurimist nende seotud postitustega

Runway GWM-1: Üldine maailmamudel, mis simuleerib reaalsust reaalajas
Runway GWM-1 märgib paradigma muutust videote genereerimiselt maailmade simuleerimisele. Uurige, kuidas see autoregressive mudel loob uuritavaid keskkondi, fotorealistlikke avataare ja robotite treenimissimulatsioone.

Maailmamudelid: Järgmine piir AI-video genereerimises
Miks üleminek kaadrite genereerimisest maailma simulatsioonile kujundab AI-videot ümber, ja mida Runway GWM-1 meile räägib selle tehnoloogia suunast.

YouTube toob Veo 3 Fasti Shortsidesse: tasuta AI-videote loomine 2,5 miljardile kasutajale
Google integreerib oma Veo 3 Fast mudeli otse YouTube Shortsidesse, pakkudes loojatele üle maailma tasuta tekst-videoks genereerimist koos heliga. Mida see tähendab platvormile ja AI-video kättesaadavusele.