Meta Pixel
HenryHenry
6 min read
1122 sanaa

Videokielimallit: Seuraava raja LLM:ien ja tekoälyagenttien jälkeen

Maailmamallit opettavat tekoälyä ymmärtämään fyysistä todellisuutta, jotta robotit voivat suunnitella toimia ja simuloida tuloksia ennen yhdenkään toimilaitteen liikuttamista.

Videokielimallit: Seuraava raja LLM:ien ja tekoälyagenttien jälkeen

Suuret kielimallit valloittivat tekstin. Näkömallit hallitsivat kuvat. Tekoälyagentit oppivat käyttämään työkaluja. Nyt on nousemassa uusi kategoria, joka voi ylittää ne kaikki: videokielimallit, tai mitä tutkijat yhä useammin kutsuvat "maailmamalleiksi."

Olemme viettäneet viimeiset vuodet opettaen tekoälyä lukemaan, kirjoittamaan ja jopa päättelemään monimutkaisten ongelmien läpi. Mutta asia on näin: kaikki tämä tapahtuu digitaalisessa maailmassa. ChatGPT voi kirjoittaa runon metsässä kävelystä, mutta sillä ei ole aavistustakaan, miltä oikeasti tuntuu astua kaatuneen puunrungon yli tai kumartua matalan oksan ali.

Maailmamallit ovat täällä muuttamaan sen.

Mitä ovat videokielimallit?

💡

Videokielimallit (VLM:t) käsittelevät sekä visuaalisia sekvenssejä että kieltä samanaikaisesti, mikä mahdollistaa tekoälyn ymmärtää ei vain mitä kuvassa on, vaan miten kohtaukset kehittyvät ajan myötä ja mitä seuraavaksi voi tapahtua.

Ajattele niitä näkö-kielimallien evoluutiona, mutta ratkaisevalla lisäyksellä: ajallinen ymmärrys. Siinä missä tavallinen VLM katsoo yksittäistä kuvaa ja vastaa kysymyksiin siitä, videokielimalli havainnoi sekvenssien kehittymistä ja oppii säännöt, jotka hallitsevat fyysistä todellisuutta.

Tämä ei ole vain akateemista uteliaisuutta. Käytännön seuraukset ovat hämmästyttävät.

Kun robotti tarvitsee poimia kahvikupin, se ei voi vain tunnistaa "kuppi" kuvassa. Sen täytyy ymmärtää:

  • Miten esineet käyttäytyvät kun niitä työnnetään tai nostetaan
  • Mitä tapahtuu kun nesteet loiskuvat
  • Miten sen omat liikkeet vaikuttavat kohtaukseen
  • Mitkä toimet ovat fyysisesti mahdollisia verrattuna mahdottomiin

Tässä maailmamallit astuvat kuvaan.

Simulaatiosta toimintaan

🤖

Fyysinen älykkyys

Maailmamallit generoivat videonomaisia simulaatioita mahdollisista tulevaisuuksista, jotta robotit voivat "kuvitella" tuloksia ennen toimiin sitoutumista.

Konsepti on elegantti: sen sijaan että koodaisit fyysisiä sääntöjä kiinteästi, koulutat tekoälyn miljoonilla tunneilla videota, joka näyttää miten maailma oikeasti toimii. Malli oppii painovoiman, kitkan, esineiden pysyvyyden ja kausaalisuuden ei yhtälöistä, vaan havainnoinnista.

NVIDIAn Cosmos edustaa yhtä kunnianhimoisimmista yrityksistä tähän. Heidän oma maailmamallinsa on suunniteltu erityisesti robotiikkasovelluksiin, joissa fyysisen todellisuuden ymmärtäminen ei ole valinnaista. Se on selviytymistä.

Google DeepMindin Genie 3 ottaa erilaisen lähestymistavan keskittyen interaktiiviseen maailman generointiin, jossa mallia voidaan "pelata" kuin videopelillympäristöä.

Perinteinen robotiikka

Käsin koodatut fysiikkasäännöt, hauraat reunatapaukset, kalliit anturiryhmät, hidas sopeutuminen uusiin ympäristöihin

Maailmamallilähestymistapa

Opittu fyysinen intuitio, asteittainen heikkeneminen, yksinkertaisemmat laitteistovaatimukset, nopea siirto uusiin skenaarioihin

PAN-kokeilu

Mohamed bin Zayed -yliopiston tutkijat esittelivät äskettäin PAN:in, yleisen maailmamallin, joka suorittaa niin kutsuttuja "ajatuskokeita" kontrolloiduissa simulaatioissa.

🧪

Miten PAN toimii

Käyttäen generatiivista latenttia ennustamista (GLP) ja Causal Swin-DPM -arkkitehtuuria, PAN ylläpitää kohtauksen johdonmukaisuutta pidennettyjen sekvenssien yli samalla ennustaen fyysisesti uskottavia tuloksia.

Tärkein innovaatio on maailmamallinnuksen käsitteleminen generatiivisena video-ongelmana. Sen sijaan että ohjelmoisi fysiikkaa eksplisiittisesti, malli oppii generoimaan videojatkoja, jotka kunnioittavat fyysisiä lakeja. Kun sille annetaan aloituskohtaus ja ehdotettu toiminto, se voi "kuvitella" mitä tapahtuu seuraavaksi.

Tällä on syvällisiä vaikutuksia robotiikkaan. Ennen kuin humanoidirobotti kurottaa kohti tuota kahvikuppia, se voi ajaa satoja simuloituja yrityksiä oppien, mitkä lähestymikulmat toimivat ja mitkä päättyvät kahviin lattialla.

Miljardin robotin tulevaisuus

1B
Ennustetut humanoidirobotit vuoteen 2050 mennessä
3x
Robotiikka-AI-investointien kasvu vuodesta 2023

Nämä eivät ole mielivaltaisia lukuja dramaattisen vaikutuksen vuoksi. Toimialaprognoosit todella osoittavat tulevaisuuteen, jossa humanoidirobotit yleistyvät yhtä paljon kuin älypuhelimet. Ja jokainen niistä tarvitsee maailmamalleja toimiakseen turvallisesti ihmisten rinnalla.

Sovellukset ulottuvat humanoidirobottien ulkopuolelle:

Nyt

Tehdassimulaatiot

Työntekijöiden kouluttaminen virtuaaliympäristöissä ennen fyysisille tehdaslattioille sijoittamista

2025

Autonomiset ajoneuvot

Turvallisuusjärjestelmät, jotka ennustavat onnettomuusskenaarioita ja ryhtyvät ennaltaehkäiseviin toimiin

2026

Varastonavigaatio

Robotit, jotka ymmärtävät monimutkaisia tiloja ja sopeutuvat muuttuviin asetteluihin

2027+

Kotiavustajat

Robotit, jotka navigoivat turvallisesti ihmisten asuintiloissa ja käsittelevät arkiesineitä

Missä videogenerointi kohtaa maailman ymmärtämisen

Jos olet seurannut tekoälyn videogenerointia, saatat huomata jonkin verran päällekkäisyyttä tässä. Työkalut kuten Sora 2 ja Veo 3 generoivat jo huomattavan realistista videota. Eivätkö nekin ole maailmamalleja?

Kyllä ja ei.

OpenAI on eksplisiittisesti positioinut Soran maailman simulointikyvykkyyksien omaavaksi. Malli selvästi ymmärtää jotain fysiikasta. Katso mitä tahansa Sora-generointia, ja näet realistisen valaistuksen, uskottavan liikkeen ja esineet, jotka käyttäytyvät enimmäkseen oikein.

Mutta on ratkaiseva ero uskottavan näköisen videon generoinnin ja fyysisen kausaalisuuden todellisen ymmärtämisen välillä. Nykyiset videogeneraattorit on optimoitu visuaaliseen realismiin. Maailmamallit on optimoitu ennustustarkkuuteen.

💡

Testi ei ole "näyttääkö tämä todelliselta?" vaan "kun annetaan toiminto X, ennustaako malli oikein tuloksen Y?" Se on paljon vaikeampi rima ylittää.

Hallusinaatio-ongelma

Tässä on epämukava totuus: maailmamallit kärsivät samoista hallusinaatio-ongelmista, jotka vaivaavat LLM:iä.

Kun ChatGPT itsevarmasti esittää väärän tosiasian, se on ärsyttävää. Kun maailmamalli itsevarmasti ennustaa, että robotti voi kävellä seinän läpi, se on vaarallista.

⚠️

Maailmamallien hallusinaatiot fyysisissä järjestelmissä voivat aiheuttaa todellista vahinkoa. Turvallisuusrajoitukset ja varmennuskerrokset ovat välttämättömiä ennen käyttöönottoa ihmisten rinnalla.

Nykyiset järjestelmät heikkenevät pidempien sekvenssien yli menettäen johdonmukaisuutta mitä kauemmas ne projisoivat tulevaisuuteen. Tämä luo perustavanlaatuisen jännitteen: hyödyllisimmät ennusteet ovat pitkän aikavälin ennusteita, mutta ne ovat myös vähiten luotettavia.

Tutkijat hyökkäävät tätä ongelmaa vastaan useista kulmista. Jotkut keskittyvät parempaan koulutusdataan. Toiset työskentelevät arkkitehtuuristen innovaatioiden parissa, jotka ylläpitävät kohtauksen johdonmukaisuutta. Vielä toiset puolustavat hybridilähestymistapoja, jotka yhdistävät opitut maailmamallit eksplisiittisiin fyysisiin rajoitteisiin.

Qwen 3-VL -läpimurto

Näkö-kielipuolella Alibaban Qwen 3-VL edustaa nykyistä huipputasoa avoimen lähdekoodin malleille.

Lippulaivamalli Qwen3-VL-235B kilpailee johtavien omistettujen järjestelmien kanssa multimodaalisissa vertailuissa, jotka kattavat yleisen Q&A:n, 3D-ankkuroinnin, videoymmärryksen, OCR:n ja asiakirjaymmärryksen.

Mikä tekee Qwen 3-VL:stä erityisen mielenkiintoisen, on sen "agenttiset" kyvyt. Malli voi operoida graafisia käyttöliittymiä, tunnistaa UI-elementtejä, ymmärtää niiden toimintoja ja suorittaa reaalimaailman tehtäviä työkalujen kutsumisen kautta.

Tämä on silta ymmärryksen ja toiminnan välillä, jota maailmamallit tarvitsevat.

Miksi tämä on tärkeää luojille

Jos olet videontekijä, elokuvantekijä tai animaattori, maailmamallit saattavat vaikuttaa kaukaisilta päivittäisestä työstäsi. Mutta seuraukset ovat lähempänä kuin luulet.

Nykyiset tekoälyvideot-työkalut kamppailevat fyysisen johdonmukaisuuden kanssa. Esineet leikkaavat toistensa läpi. Painovoima käyttäytyy epäjohdonmukaisesti. Syy ja seuraus sekoittuvat. Nämä kaikki ovat oireita malleista, jotka voivat generoida realistisia pikseleitä, mutta eivät todella ymmärrä fyysisiä sääntöjä, jotka ovat niiden kuvaamisen taustalla.

Massiivisilla videodatajoukoilla koulutetut maailmamallit voisivat lopulta ruokkia takaisin videogenerointiin tuottaen tekoälytyökaluja, jotka luonnostaan kunnioittavat fyysisiä lakeja. Kuvittele videogeneraattori, jossa sinun ei tarvitse kehottaa "realistista fysiikkaa", koska malli jo tietää miten todellisuus toimii.

💡

Aiheeseen liittyvää luettavaa: Lisätietoja siitä, miten videogenerointi kehittyy, löydät syväsukelluksestamme diffuusiotransformereihin ja maailmamalleihin videogeneroinnissa.

Tie eteenpäin

Maailmamallit edustavat ehkä kunnianhimoisinta tavoitetta tekoälyssä: opettaa koneita ymmärtämään fyysistä todellisuutta kuten ihmiset ymmärtävät. Ei eksplisiittisen ohjelmoinnin kautta, vaan havainnoinnin, päättelyn ja mielikuvituksen kautta.

Olemme vielä alkuvaiheessa. Nykyiset järjestelmät ovat vaikuttavia demonstraatioita, eivät tuotantovalmiita ratkaisuja. Mutta suunta on selvä.

Mitä meillä on nyt:

  • Rajoitettu sekvenssin johdonmukaisuus
  • Toimialakohtaiset mallit
  • Korkeat laskentakustannukset
  • Tutkimusvaiheen käyttöönotot

Mitä on tulossa:

  • Laajennettu ajallinen ymmärrys
  • Yleiskäyttöiset maailmamallit
  • Reunalaitteiden käyttöönotto
  • Kaupallinen robotiikkaintegraatio

Yritykset, jotka investoivat voimakkaasti tälle alueelle, NVIDIA, Google DeepMind, OpenAI ja lukuisat startup-yritykset, lyövät vetoa siitä, että fyysinen älykkyys on seuraava raja digitaalisen älykkyyden jälkeen.

Kun otetaan huomioon, kuinka muuttavia LLM:t ovat olleet tekstipohjaiselle työlle, kuvittele vaikutus, kun tekoäly voi ymmärtää ja olla vuorovaikutuksessa fyysisen maailman kanssa yhtä sujuvasti.

Se on videokielimallien lupaus. Siksi tämä raja on tärkeä.

💡

Lisälukemista: Tutustu siihen, miten tekoälyvideo jo muuttaa luovia työnkulkuja katsauksessamme natiivista äänigeneroinnista ja yritysten käyttöönotosta.

Oliko tämä artikkeli hyödyllinen?

Henry

Henry

Luova teknologi

Lausannesta kotoisin oleva luova teknologi, joka tutkii tekoälyn ja taiteen kohtaamispisteitä. Kokee generatiivisten mallien kanssa elektronisen musiikin sessioiden välissä.

Aiheeseen liittyviä artikkeleita

Jatka tutustumista näihin aiheeseen liittyviin julkaisuihin

Piditkö tästä artikkelista?

Lue lisää ja pysy ajan tasalla uusimmista julkaisuistamme.

Videokielimallit: Seuraava raja LLM:ien ja tekoälyagenttien jälkeen