Maailmamudelid: Järgmine piir AI-video genereerimises

Aastaid on AI-video genereerimine tähendanud pikslite ennustamist kaader kaadri haaval. Nüüd pöördub tööstus millegi palju ambitsioonikama poole: tervete maailmade simuleerimine. Runway GWM-1 väljalase märgib selle muutuse algust ja tagajärjed on sügavad.

Kaadritest maailmadeni

Traditsioonilised video genereerimise mudelid töötavad nagu keerukad pöialpildiraamatu kunstnikud. Nad ennustavad, milline peaks järgmine kaader välja nägema eelmiste põhjal, juhituna teie tekstikäsust. See töötab, kuid sellel on põhilised piirangud.

💡

Kaadri ennustaja teab, kuidas tuli välja näeb. Maailmamudel teab, mida tuli teeb: see levib, see tarbib kütust, see heidab tantsivaid varje ja eraldab soojust, mis moonutab selle kohal olevat õhku.

Maailmamudelid võtavad teistsuguse lähenemise. Selle asemel, et küsida "milline peaks järgmine kaader välja nägema?", küsivad nad "kuidas see keskkond käitub?" Erinevus kõlab peen, kuid see muudab kõike.

Kui palute kaadri ennustajal genereerida palli, mis veereb mäest alla, ligikaudistab see, kuidas see võiks välja näha treeningandmete põhjal. Kui palute maailmamudelil sama, simuleerib see füüsikat: gravitatsioon kiirendab palli, hõõrdumine rohuga aeglustab seda, moment kannab seda üles vastassuunalise nõlva.

Mida Runway GWM-1 tegelikult teeb

Runway avaldas GWM-1 (General World Model 1) detsembris 2025 ja see esindab nende esimest avalikku sammu maailma simulatsiooni. Mudel loob seda, mida nad nimetavad "dünaamilisteks simulatsioonikeskkondadeks", süsteemideks, mis mõistavad mitte ainult seda, kuidas asjad välja näevad, vaid kuidas need aja jooksul arenevad.

1,247

Elo Score (Gen-4.5)

Video Arena Ranking

100

Runway Team Size

Ajastus on oluline. See väljalase tuli koos Gen-4.5 jõudmisega #1 kohale Video Arenal, lükates OpenAI Sora 2 4. kohale. Need ei ole seostamatud saavutused. Gen-4.5 täiustused füüsilises täpsuses, kus objektid liiguvad realistliku kaalu, momendi ja jõuga, tulenevad tõenäoliselt maailmamudeli uuringutest, mis informeerivad selle arhitektuuri.

🌍

Kaadri ennustamine vs maailma simuleerimine

Kaadri ennustamine: "Pall rohul" → mustrituvastus treeningandmetest. Maailma simuleerimine: "Pall rohul" → füüsikamootor määrab trajektoori, hõõrdumise, põrke.

Miks see kõike muudab

1. Füüsika, mis tegelikult toimib

Praegused videomudelid võitlevad füüsikaga, sest nad on füüsikat ainult näinud, mitte kunagi kogenud. Nad teavad, et kukkunud ese langeb, kuid nad ligikaudistavad trajektoori selle asemel, et seda arvutada. Maailmamudelid pööravad selle suhte ümber.

✗Kaadri ennustamine

Ligikaudistab füüsikat visuaalsetest mustrist. Biljardipall võib veereda läbi teise palli, sest mudel ei õppinud kunagi jäiga keha kokkupõrget.

✓Maailma simuleerimine

Simuleerib füüsikareeglit. Kokkupõrke tuvastamine, momendi ülekanne ja hõõrdumine arvutatakse, mitte ei arvata.

See on põhjus, miks Sora 2 füüsika simulatsioonid avaldasid inimestele muljet: OpenAI investeeris tugevalt füüsilisse mõistmisse. Maailmamudelid formaliseerivad seda lähenemist.

2. Ajaline sidusus ilma trikiteta

Suurim valusapunkt AI-videos on olnud järjepidevus aja jooksul. Tegelased muudavad välimust, objektid teleporteeruvad, keskkonnad muutuvad juhuslikult. Oleme uurinud kuidas mudelid õpivad nägusid meelde jätma arhitektuuriliste uuenduste kaudu nagu kaadrite vaheline tähelepanu.

Maailmamudelid pakuvad elegantsmat lahendust: kui simulatsioon jälgib üksuseid püsivate objektidena virtuaalses ruumis, ei saa nad juhuslikult muutuda või kaduda. Pall eksisteerib simuleeritud maailmas. Sellel on omadused (suurus, värv, asukoht, kiirus), mis püsivad, kuni midagi simulatsioonis neid muudab.

3. Pikemad videod muutuvad võimalikuks

Praegused mudelid degradeeruvad aja jooksul. CraftStory kahesuunaline difusioon tõukab 5-minutiliste videote poole, lastes hilisematel kaadritest mõjutada varasemaid. Maailmamudelid lähenevad samale probleemile teisiti: kui simulatsioon on stabiilne, saate seda käitada nii kaua kui soovite.

2024

Sekundid

Standardne AI-video: 4-8 sekundit enne kvaliteedi kokkuvarisemist

Varajane 2025

Minutid

Spetsialiseeritud tehnikad võimaldavad 1-5 minutilisi videosid

Hiline 2025

Piiramatu?

Maailmamudelid eraldavad kestuse arhitektuurist

Konks (alati on konks)

Maailmamudelid kõlavad nagu lahendus kõigile video genereerimise probleemidele. Nad ei ole, vähemalt mitte veel.

⚠️

Reaalsuse kontroll: Praegused maailmamudelid simuleerivad stiilistatud füüsikat, mitte täpset füüsikat. Nad mõistavad, et kukkunud asjad langevad, mitte täpseid liikumisvõrrandeid.

Arvutuskulud

Maailma simuleerimine on kallis. Kaadri ennustamine võib töötada tarbija-GPU-del tänu projektide nagu LTX-2 tööle. Maailma simuleerimine nõuab oleku hoidmist, objektide jälgimist, füüsika arvutuste käitamist. See tõstab riistvaranõudeid märkimisväärselt.

Maailma reeglite õppimine on raske

Mudelile õpetamine, kuidas asjad välja näevad, on lihtne: näidake sellele miljoneid näiteid. Mudelile õpetamine, kuidas maailm toimib, on ebaselgem. Füüsikat saab õppida videoandmetest, kuid ainult teatud määral. Mudel näeb, et kukkunud objektid langevad, kuid ei saa tuletada gravitatsioonikontstante videote vaatamisest.

Hübriidne tulevik: Enamik teadlasi eeldab, et maailmamudelid kombineerivad õpitud füüsika ligikaudseid väärtusi selgesõnaliste simulatsioonireegitega, saades mõlema lähenemise parima.

Loomingulise kontrolli küsimused

Kui mudel simuleerib füüsikat, kes otsustab, millist füüsikat? Mõnikord tahate realistlikku gravitatsiooni. Mõnikord tahate, et teie tegelased hõljuksid. Maailmamudelid vajavad mehhanisme oma simulatsioonide tühistamiseks, kui loojad soovivad ebarealistlikke tulemusi.

Kuhu tööstus liigub

Runway ei ole selles suunas üksi. Arhitektuuripaberid difusioonitransformaatorite taga on sellele muutusele viidanud kuid. Küsimus oli alati millal, mitte kas.

Toimub juba

Runway GWM-1 avaldatud
Gen-4.5 näitab füüsikast informeeritud genereerimist
Uurimistööd levivad
Ettevõtete varajase juurdepääsu programmid

Tuleb varsti

Avatud lähtekoodiga maailmamudeli rakendused
Hübriid kaadri/maailma arhitektuurid
Spetsialiseeritud maailmamudelid (füüsika, bioloogia, ilm)
Reaalajas maailma simuleerimine

Ettevõtete huvi on kõnekas. Runway andis varajase juurdepääsu Ubisoftile, Disney on investeerinud miljard dollarit OpenAI-ga Sora integratsiooniks. Need ei ole ettevõtted, kes on huvitatud kiire sotsiaalmeedia klippide genereerimisest. Nad tahavad AI-d, mis suudab simuleerida mängukeskkondi, genereerida järjepidevaid animeeritud tegelasi, toota sisu, mis peab vastu professionaalsele kontrollile.

Mida see loojatele tähendab

✓Video järjepidevus paraneb dramaatiliselt
✓Füüsikaraskest sisust saab elujõuline
✓Pikemad genereerimised ilma kvaliteedi kokkuvarisemiseta
○Kulud on alguses kõrgemad kui kaadri ennustamine
○Loomingulise kontrolli mehhanismid arenevad veel

Kui toodate AI-videot täna, ei ole maailmamudelid midagi, mida peate kohe kasutusele võtma. Kuid need on midagi jälgitavat. Võrdlus Sora 2, Runway ja Veo 3 vahel, mille avaldasime varem sel aastal, vajab uuendamist, kuna maailmamudeli võimekused rulluvad välja nendel platvormidel.

Praktiliseks kasutamiseks praegu on erinevused olulised konkreetsete kasutusjuhtumite puhul:

Toote visualiseerimine: Maailmamudelid hiilgavad siin. Täpne füüsika objektidele, mis suhtlevad üksteisega.
Abstraktne kunst: Kaadri ennustamine võib tegelikult olla eelistatav. Soovite ootamatuid visuaalseid väljundeid, mitte simuleeritud tegelikkust.
Tegelase animeerimine: Maailmamudelid pluss identiteeti säilitavad tehnikad võiksid lõpuks lahendada järjepidevuse probleemi.

Suurem pilt

Maailmamudelid esindavad AI-video täiskasvanuks saamist. Kaadri ennustamine oli piisav lühikeste klippide genereerimiseks, visuaalsed uudsused, kontseptsiooni tõestamise demonstratsioonid. Maailma simuleerimine on see, mida vajate reaalse tootmistöö jaoks, kus sisu peab olema järjepidev, füüsiliselt usutav ja laiendatav.

💡

Hoidke perspektiivi: Oleme GWM-1 etapis, GPT-1 ekvivalent maailma simulatsiooni jaoks. Lõhe selle ja GWM-4 vahel on tohutu, täpselt nagu lõhe GPT-1 ja GPT-4 vahel muutis keele-AI-d.

Runway võitmine Google'i ja OpenAI eest võrdlustes 100-liikmelise meeskonnaga ütleb meile midagi olulist: õige arhitektuuriline lähenemine tähendab rohkem kui ressursid. Maailmamudelid võivad olla see lähenemine. Kui Runway panus end ära tasub, on nad määratlenud video-AI järgmise põlvkonna.

Ja kui füüsika simulatsioonid muutuvad piisavalt heaks? Me ei genereeri enam lihtsalt videot. Ehitame virtuaalseid maailmu, üks simulatsioon korraga.

💡

Seotud lugemine: Rohkem tehniliste aluste kohta, mis võimaldavad seda muutust, vaadake meie süvitsi sukeldumist difusioonitransformaatoritesse. Praeguste tööriistade võrdluste jaoks vaadake Sora 2 vs Runway vs Veo 3.