Meta Pixel
HenryHenry
6 min read
1199 vārdi

Pasaules modeļi: Nākamā robeža AI video ģenerēšanā

Kāpēc pāreja no kadru ģenerēšanas uz pasaules simulāciju pārveido AI video, un ko Runway GWM-1 mums stāsta par šīs tehnoloģijas virzienu.

Pasaules modeļi: Nākamā robeža AI video ģenerēšanā

Gadiem ilgi AI video ģenerēšana nozīmēja pikseļu paredzēšanu kadrs pēc kadra. Tagad nozare pagriežas uz kaut ko daudz vērienīgāku: veselu pasauļu simulēšanu. Runway GWM-1 izlaišana iezīmē šīs pārmaiņas sākumu, un sekas ir dziļas.

No kadriem uz pasaulēm

Tradicionālie video ģenerēšanas modeļi darbojas kā izsmalcināti flipbuku mākslinieki. Tie prognozē, kā nākamajam kadram vajadzētu izskatīties, pamatojoties uz iepriekšējiem, vadoties no jūsu teksta uzvediena. Tas darbojas, bet tam ir fundamentāli ierobežojumi.

💡

Kadra prognozētājs zina, kā uguns izskatās. Pasaules modelis zina, ko uguns dara: tā izplatās, tā patērē degvielu, tā met dejojošus ēnus un izdala siltumu, kas sagrozī gaisu virs tās.

Pasaules modeļi izmanto citu pieeju. Tā vietā, lai jautātu "kā nākamajam kadram vajadzētu izskatīties?", tie jautā "kā šī vide uzvedas?" Atšķirība skan smalki, bet tā maina visu.

Kad lūdzat kadra prognozētāju ģenerēt bumbu, kas ripināsies lejup pa kāju, tas aptuveni aprēķina, kā tas varētu izskatīties, pamatojoties uz apmācības datiem. Kad lūdzat pasaules modeli to pašu, tas simulē fiziku: gravitācija paātrina bumbu, berze ar zāli to palēnina, impulss to nes augšup pretējā nogāzē.

Ko Runway GWM-1 patiesībā dara

Runway izlaida GWM-1 (General World Model 1) 2025. gada decembrī, un tas pārstāv viņu pirmo publisko soli pasaules simulācijā. Modelis rada to, ko viņi sauc par "dinamiskām simulācijas vidēm", sistēmām, kas saprot ne tikai to, kā lietas izskatās, bet arī to, kā tās attīstās laika gaitā.

1,247
Elo Score (Gen-4.5)
#1
Video Arena Ranking
100
Runway Team Size

Laiks ir svarīgs. Šī izlaišana notika vienlaikus ar Gen-4.5 sasniegšanu #1 vietā Video Arena, nostumjot OpenAI Sora 2 uz 4. vietu. Tie nav nesaistīti sasniegumi. Gen-4.5 uzlabojumi fiziskajā precizitātē, kur objekti kustas ar reālistisku svaru, impulsu un spēku, visticamāk izriet no pasaules modeļa pētījumiem, kas informē tā arhitektūru.

🌍

Kadra prognoze vs pasaules simulācija

Kadra prognoze: "Bumba uz zāles" → rakstu atpazīšana no apmācības datiem. Pasaules simulācija: "Bumba uz zāles" → fizikas dzinējs nosaka trajektoriju, berzi, atsitienu.

Kāpēc tas maina visu

1. Fizika, kas patiešām darbojas

Pašreizējie video modeļi cīnās ar fiziku, jo tie ir tikai redzējuši fiziku, nekad nav to piedzīvojuši. Tie zina, ka nomests objekts krīt, bet tie aptuveni aprēķina trajektoriju, nevis to aprēķina. Pasaules modeļi apgriež šo attiecību.

Kadra prognoze

Aptuveno aprēķinu fiziku no vizuāliem rakstiem. Biljarda bumba var ritināties cauri citai bumbai, jo modelis nekad neiemācījās cieta ķermeņa sadursmi.

Pasaules simulācija

Simulē fizikas likumus. Sadursmes noteikšana, impulsa pārnese un berze tiek aprēķinātas, nevis minētas.

Tāpēc Sora 2 fizikas simulācijas iespaidoja cilvēkus: OpenAI ieguldīja daudz fiziskajā izpratnē. Pasaules modeļi formalizē šo pieeju.

2. Laikiska saskaņa bez trikiem

Lielākais sāpju punkts AI video ir bijusi konsekvence laika gaitā. Rakstzīmes maina izskatu, objekti teleportējas, vides mainās nejauši. Mēs esam pētījuši kā modeļi mācās atcerēties sejas caur arhitektūras inovācijām, piemēram, starpkadru uzmanību.

Pasaules modeļi piedāvā elegantāku risinājumu: ja simulācija izseko vienības kā pastāvīgus objektus virtuālajā telpā, tie nevar nejauši mainīties vai pazust. Bumba pastāv simulētajā pasaulē. Tai ir īpašības (izmērs, krāsa, pozīcija, ātrums), kas saglabājas, līdz kaut kas simulācijā tās maina.

3. Garāki video kļūst iespējami

Pašreizējie modeļi degradējas laika gaitā. CraftStory divvirzienu difūzija virza uz 5 minūšu video, ļaujot vēlākiem kadriem ietekmēt agrākos. Pasaules modeļi tuvojas tai pašai problēmai citādi: ja simulācija ir stabila, jūs varat to palaist tik ilgi, cik vēlaties.

2024

Sekundes

Standarta AI video: 4-8 sekundes pirms kvalitātes sabrukuma

Agrs 2025

Minūtes

Specializētas tehnikas ļauj veidot 1-5 minūšu video

Vēls 2025

Neierobežots?

Pasaules modeļi atdala ilgumu no arhitektūras

Āķis (vienmēr ir āķis)

Pasaules modeļi izklausās kā risinājums visām video ģenerēšanas problēmām. Tādi tie nav, vismaz vēl ne.

⚠️

Realitātes pārbaude: Pašreizējie pasaules modeļi simulē stilizētu fiziku, nevis precīzu fiziku. Tie saprot, ka nomestu lietas krīt, nevis precīzas kustības vienādojumus.

Skaitļošanas izmaksas

Pasaules simulēšana ir dārga. Kadra prognoze var darboties uz patērētāju GPU, pateicoties darbam no projektiem kā LTX-2. Pasaules simulācija prasa uzturēt stāvokli, izsekot objektus, veikt fizikas aprēķinus. Tas būtiski palielina aparatūras prasības.

Pasaules likumu apgūšana ir grūta

Mācīt modeli, kā lietas izskatās, ir vienkārši: parādiet tam miljoniem piemēru. Mācīt modeli, kā pasaule darbojas, ir neskaidrāks. Fiziku var apgūt no video datiem, bet tikai līdz noteiktam punktam. Modelis redz, ka nomesti objekti krīt, bet tas nevar atvasināt gravitācijas konstantes no kadru skatīšanas.

Hibrīdā nākotne: Lielākā daļa pētnieku sagaida, ka pasaules modeļi apvienos apgūtus fizikas tuvināšanas ar skaidriem simulācijas noteikumiem, iegūstot labāko no abām pieejām.

Radošās kontroles jautājumi

Ja modelis simulē fiziku, kas izlemj, kādu fiziku? Dažreiz jūs vēlaties reālistisku gravitāciju. Dažreiz jūs vēlaties, lai jūsu rakstzīmes peldētu. Pasaules modeļiem ir nepieciešami mehānismi, lai ignorētu savas simulācijas, kad veidotāji vēlas nereālistiskus rezultātus.

Kurp nozare virzās

Runway nav vienīgie šajā virzienā. Arhitektūras raksti aiz difūzijas transformatoriem ir mājuši par šo maiņu mēnešiem. Jautājums vienmēr bija kad, nevis vai.

Jau notiek

  • Runway GWM-1 izlaists
  • Gen-4.5 rāda fizikas informētu ģenerāciju
  • Pētījumu raksti izplatās
  • Agrīnas piekļuves programmas uzņēmumiem

Drīzumā

  • Atvērtā pirmkoda pasaules modeļu ieviešana
  • Hibrīda kadru/pasaules arhitektūras
  • Specializēti pasaules modeļi (fizika, bioloģija, laikapstākļi)
  • Reāllaika pasaules simulācija

Uzņēmumu interese ir runīga. Runway deva agru piekļuvi Ubisoft, Disney ir ieguldījis miljardu dolāru ar OpenAI Sora integrācijai. Tie nav uzņēmumi, kas ir ieinteresēti ģenerēt ātrus sociālo mediju klipus. Viņi vēlas AI, kas var simulēt spēļu vides, ģenerēt konsekventus animētus varoņus, ražot saturu, kas iztur profesionālu pārbaudi.

Ko tas nozīmē veidotājiem

  • Video konsekvence būtiski uzlabosies
  • Fizikas smags saturs kļūst dzīvotspējīgs
  • Garākas ģenerācijas bez kvalitātes sabrukuma
  • Izmaksas sākotnēji būs augstākas nekā kadra prognozē
  • Radošās kontroles mehānismi joprojām attīstās

Ja šodien ražojat AI video, pasaules modeļi nav kaut kas, kas jums jāpieņem nekavējoties. Bet tie ir kaut kas, ko vērts vērot. Salīdzinājums starp Sora 2, Runway un Veo 3, ko publicējām iepriekš šogad, būs jāatjaunina, kad pasaules modeļu spējas tiks izlaistas šajās platformās.

Praktiskai lietošanai pašlaik atšķirības ir svarīgas konkrētiem lietošanas gadījumiem:

  • Produktu vizualizācija: Pasaules modeļi šeit izcelsies. Precīza fizika objektiem, kas mijiedarbojas viens ar otru.
  • Abstrakta māksla: Kadra prognoze faktiski var būt labāka. Jūs vēlaties negaidītus vizuālos rezultātus, nevis simulētu realitāti.
  • Varoņa animācija: Pasaules modeļi plus identitāti saglabājošas tehnikas varētu beidzot atrisināt konsekvences problēmu.

Lielākā aina

Pasaules modeļi pārstāv AI video pieaugšanu. Kadra prognoze bija pietiekama, lai ģenerētu īsus klipus, vizuālas jaunības, koncepcijas pierādīšanas demonstrācijas. Pasaules simulācija ir tas, kas nepieciešams reālam ražošanas darbam, kur saturam jābūt konsekventam, fiziski ticamam un paplašināmam.

💡

Saglabājiet perspektīvu: Mēs esam GWM-1 posmā, GPT-1 ekvivalents pasaules simulācijai. Plaisa starp to un GWM-4 būs milzīga, tāpat kā plaisa starp GPT-1 un GPT-4 pārveidoja valodas AI.

Tas, ka Runway uzvar Google un OpenAI salīdzinājumos ar 100 cilvēku komandu, mums stāsta kaut ko svarīgu: pareizā arhitektūras pieeja nozīmē vairāk nekā resursi. Pasaules modeļi var būt šī pieeja. Ja Runway likme atmaksājas, viņi būs definējuši nākamo video AI paaudzi.

Un ja fizikas simulācijas kļūst pietiekami labas? Mēs vairs neģenerējam tikai video. Mēs būvējam virtuālās pasaules, vienu simulāciju vienlaikus.

💡

Saistītā lasīšana: Lai uzzinātu vairāk par tehniskajiem pamatiem, kas ļauj šo maiņu, skatiet mūsu dziļu iegremdēšanos difūzijas transformatoros. Pašreizējiem rīku salīdzinājumiem, pārbaudiet Sora 2 vs Runway vs Veo 3.

Vai šis raksts bija noderīgs?

Henry

Henry

Radošais Tehnoloģists

Radošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.

Saistītie raksti

Turpiniet izpēti ar šiem saistītajiem rakstiem

Vai jums patika šis raksts?

Atklājiet vairāk ieskatu un sekojiet līdzi mūsu jaunākajam saturam.

Pasaules modeļi: Nākamā robeža AI video ģenerēšanā