Meta Pixel
HenryHenry
7 min read
1230 kelmiet

World Models: Il-Fruntiera Li Jmiss fil-Ġenerazzjoni tal-Vidjow AI

Għaliex il-bidla mill-ġenerazzjoni tal-frames għas-simulazzjoni tad-dinja qed terġa' tifforma l-vidjow AI, u x'qed jgħidilna l-GWM-1 ta' Runway dwar fejn sejra din it-teknoloġija.

World Models: Il-Fruntiera Li Jmiss fil-Ġenerazzjoni tal-Vidjow AI

Għal snin, il-ġenerazzjoni tal-vidjow AI kien ifisser l-prevediċjoni tal-pixels frame minn frame. Issa, l-industrija qed tiddawwar lejn xi ħaġa ħafna aktar ambizzjuża: is-simulazzjoni ta' dinjiet sħaħ. Ir-rilaxx tal-GWM-1 minn Runway jimmarka l-bidu ta' din il-bidla, u l-implikazzjonijiet huma profondi.

Minn Frames għal Dinjiet

Il-mudelli tradizzjonali tal-ġenerazzjoni tal-vidjow jaħdmu bħal artisti sofistikati ta' flip-book. Jippreviedu kif għandu jidher il-frame li jmiss abbażi ta' dawk ta' qabel, immexxija mill-prompt tat-test tiegħek. Taħdem, iżda għandha limitazzjonijiet fundamentali.

💡

Previżur ta' frame jaf kif jidher in-nar. World model jaf x'jagħmel in-nar: jinfirex, jikkunsma l-fjuwil, jitfa' dell jiżfnu u joħroġ sħana li tagħmel il-ħabel lill-arja fuqu.

Il-world models jieħdu approċċ differenti. Minflok jistaqsu "kif għandu jidher il-frame li jmiss?", jistaqsu "kif timxi din l-ambjent?" Id-distinzjoni tinstema' sottili, iżda tibdel kollox.

Meta tgħid lil previżur ta' frame biex jiġġenera ballun jiddendu minn għoljiet, japproksima kif jista' jidher dan abbażi ta' data tat-taħriġ. Meta tgħid l-istess ħaġa lil world model, jissimula l-fiżika: il-gravità taċċellera l-ballun, il-frizjoni mal-ħaxix tnaqqaslu, il-momentum iġġorruh 'il fuq mill-inklinazzjoni opposta.

X'Jagħmel fil-Fatt il-GWM-1 ta' Runway

Runway ħarġet il-GWM-1 (General World Model 1) f'Diċembru 2025, u jirrappreżenta l-ewwel pass pubbliku tagħhom fis-simulazzjoni tad-dinja. Il-mudell joħloq dak li jsejħu "ambjenti ta' simulazzjoni dinamiċi" - sistemi li jifhmu mhux biss kif jidhru l-affarijiet iżda kif jevolvu maż-żmien.

1,247
Elo Score (Gen-4.5)
#1
Video Arena Ranking
100
Runway Team Size

Il-ħin jimporta. Dan ir-rilaxx ġie flimkien ma' Gen-4.5 li laħaq l-#1 fuq Video Arena, u ċċaħħad lil OpenAI Sora 2 'l isfel għall-4 post. Dawn mhumiex kisbi mhux relatati. It-titjib ta' Gen-4.5 fl-eżattezza fiżika, fejn l-oġġetti jiċċaqilqu b'piż realistiku, momentum u forza, x'aktarx ġejjin mir-riċerka tal-world model li tinforma l-arkitettura tiegħu.

🌍

Prevediċjoni ta' Frame vs Simulazzjoni tad-Dinja

Prevediċjoni ta' frame: "Ballun fuq il-ħaxix" → tqabbil ta' mudell mid-data tat-taħriġ. Simulazzjoni tad-dinja: "Ballun fuq il-ħaxix" → magna tal-fiżika tiddetermina traiettorja, frizjoni, qabża.

Għaliex Dan Ibiddel Kollox

1. Fiżika Li Verament Taħdem

Il-mudelli tal-vidjow attwali jitħabtu mal-fiżika għax raw biss il-fiżika, qatt ma esperjenzawha. Jafu li oġġett midfun jaqa', iżda japproksimaw it-traiettorja minflok jikkalkula. Il-world models jaqilbu din ir-relazzjoni.

Prevediċjoni ta' Frame

Tapproksima l-fiżika minn mudelli viżwali. Ballun ta' biljard jista' jduru minn ġol-ballun ieħor għax il-mudell qatt ma tgħallem rigid body collision.

Simulazzjoni tad-Dinja

Tissimula r-regoli tal-fiżika. Id-detezzjoni tal-kollizzjoni, it-trasferiment tal-momentum u l-frizjoni jiġu kkalkolati, mhux mħammġa.

Huwa għalhekk li is-simulazzjonijiet tal-fiżika ta' Sora 2 impressjonaw lin-nies: OpenAI investa b'mod sinifikanti fil-fehim fiżiku. Il-world models jifformalizzaw dan l-approċċ.

2. Koerenża Temporali Mingħajr Tricks

L-iżjed punt ta' uġigħ fil-vidjow AI kien il-konsistenza maż-żmien. Il-karattri jbiddlu d-dehra, l-oġġetti jitteletrasportaw, l-ambjenti jitbiddlu b'mod każwali. Aħna esplorajna kif il-mudelli qed jitgħallmu jiftakru wiċċiet permezz ta' innovazzjonijiet arkitetturali bħal cross-frame attention.

Il-world models joffru soluzzjoni aktar eleganti: jekk is-simulazzjoni sseġwi entitajiet bħala oġġetti persistenti f'spazju virtwali, ma jistgħux jinbidlu jew jisparixxi b'mod każwali. Il-ballun jeżisti fid-dinja simulata. Għandu proprjetajiet (daqs, kulur, pożizzjoni, veloċità) li jibqgħu sakemm xi ħaġa fis-simulazzjoni tibdilhom.

3. Vidjows Itwal Isiru Possibbli

Il-mudelli attwali jiddegradaw maż-żmien. Id-diffużjoni bidirezzjonali ta' CraftStory timbotta lejn vidjows ta' 5 minuti billi tħalli frames aktar tard jinfluwenzaw dawk ta' qabel. Il-world models jaqilbu l-istess problema b'mod differenti: jekk is-simulazzjoni hija stabbli, tista' tmexxi kemm trid.

2024

Sekondi

Vidjow AI standard: 4-8 sekondi qabel il-kollass tal-kwalità

Bidu 2025

Minuti

Tekniki speċjalizzati jippermettu vidjows ta' 1-5 minuti

Tmiem 2025

Illimitat?

Il-world models jiddistakkaw id-dewmien mill-arkitettura

Il-Qabda (Dejjem Hemm Qabta)

Il-world models jisimgħu bħala s-soluzzjoni għal kull problema tal-ġenerazzjoni tal-vidjow. Mhumiex, mill-inqas mhux għadu.

⚠️

Verifika tar-realtà: Il-world models attwali jissimulaw fiżika stilizzata, mhux fiżika preċiża. Jifhmu li l-affarijiet midfuna jaqgħu, mhux l-ekwazzjonijiet eżatti tal-moviment.

Spiża Komputazzjonali

Is-simulazzjoni ta' dinja hija għalja. Il-prevediċjoni tal-frame tista' taħdem fuq GPUs tal-konsumatur grazzi għax-xogħol minn proġetti bħal LTX-2. Is-simulazzjoni tad-dinja teħtieġ iż-żamma ta' stat, is-segwitu ta' oġġetti, kalkoli tal-fiżika. Dan jimbotta r-rekwiżiti tal-hardware 'il fuq b'mod sinifikanti.

It-Tagħlim tar-Regoli tad-Dinja Huwa Diffiċli

Li tgħallem mudell kif jidhru l-affarijiet huwa sempliċi: urih miljuni ta' eżempji. Li tgħallem mudell kif taħdem id-dinja huwa aktar mċajpar. Il-fiżika tista' titgħallem mid-data tal-vidjow, iżda biss sa ċertu punt. Il-mudell jara li l-oġġetti midfuna jaqgħu, iżda ma jistax jiddetermina kostanti gravitazzjonali minn wiċċ footage.

Il-futur ibridu: Il-biċċa l-kbira tar-riċerkaturi jistennew li l-world models jgħaqqdu approċċi tal-fiżika t'għallmu ma' regoli ta' simulazzjoni espliċiti, u jieħdu l-aħjar taż-żewġ approċċi.

Mistoqsijiet ta' Kontroll Kreattiv

Jekk il-mudell qed jissimula fiżika, min jiddeċiedi liema fiżika? Xi drabi trid gravità realistika. Xi drabi trid li l-karattri tiegħek jiżfnu. Il-world models jeħtieġu mekkaniżmi biex jaqbżu s-simulazzjonijiet tagħhom meta l-kreaturi jridu riżultati mhux realistiċi.

Fejn Sejra l-Industrija

Runway mhijiex waħidha f'din id-direzzjoni. Il-papers tal-arkitettura wara diffusion transformers ilhom jixħtu lejn din il-bidla għal xhur. Il-mistoqsija dejjem kienet meta, mhux jekk.

Diġà qed jiġri

  • Runway GWM-1 rilaxxat
  • Gen-4.5 turi ġenerazzjoni infurmata mill-fiżika
  • Papers ta' riċerka qed jikbru
  • Programmi ta' aċċess bikri għall-intrapriżi

Ġej Dalwaqt

  • Implimentazzjonijiet ta' world model open-source
  • Arkitetturi ibridi ta' frame/dinja
  • World models speċjalizzati (fiżika, bijoloġija, temp)
  • Simulazzjoni tad-dinja f'ħin reali

L-interess tal-intrapriża huwa sinifikanti. Runway tat aċċess bikri lil Ubisoft, Disney investa biljun dollaru ma' OpenAI għall-integrazzjoni ta' Sora. Dawn mhumiex kumpaniji interessati li jiġġeneraw clips mgħaġġla ta' social media. Iridu AI li tista' tissimula ambjenti tal-logħob, tiġġenera karattri animati konsistenti, tipproduċi kontenut li jżomm għal skrutinju professjonali.

X'Ifisser Dan Għall-Kreaturi

  • Il-konsistenza tal-vidjow se ttejjeb b'mod drammatiku
  • Il-kontenut b'ħafna fiżika jsir vijabbli
  • Ġenerazzjonijiet itwal mingħajr kollass tal-kwalità
  • L-ispejjeż inizjalment se jkunu ogħla mill-prevediċjoni tal-frame
  • Il-mekkaniżmi ta' kontroll kreattiv għadhom qed jevolvu

Jekk illum qed tipproduċi vidjow AI, il-world models mhumiex xi ħaġa li għandek tadotta immedjatament. Iżda huma xi ħaġa li għandek tosserva. Il-paragun bejn Sora 2, Runway u Veo 3 li ppubblikajna kmieni din is-sena se jkollha bżonn aġġornament hekk kif il-kapaċitajiet tal-world model jinħarġu fuq dawn il-pjattaformi.

Għal użu prattiku issa, id-differenzi jimportaw għal każijiet ta' użu speċifiċi:

  • Viżwalizzazzjoni tal-prodott: Il-world models se jeċċellu hawn. Fiżika preċiża għal oġġetti li jinteraġixxu ma' xulxin.
  • Arti astratta: Il-prevediċjoni tal-frame tista' tkun preferita. Trid outputs viżwali mhux mistennija, mhux realtà simulata.
  • Animazzjoni tal-karattri: Il-world models flimkien ma' tekniki li jżommu l-identità jistgħu fl-aħħar isolvu l-problema tal-konsistenza.

Il-Kwadru Akbar

Il-world models jirrappreżentaw il-vidjow AI li qed jikber. Il-prevediċjoni tal-frame kienet biżżejjed biex jiġġeneraw clips qosra, novità viżwali, dimostrazzjonijiet proof-of-concept. Is-simulazzjoni tad-dinja hija dak li għandek bżonn għal xogħol ta' produzzjoni vera, fejn il-kontenut irid ikun konsistenti, fiżikament plawibbli u estensibli.

💡

Żomm perspettiva: Aħna fl-istadju GWM-1, l-ekwivalenti ta' GPT-1 għas-simulazzjoni tad-dinja. Id-distakk bejn dan u GWM-4 se jkun enormi, eżatt kif id-distakk bejn GPT-1 u GPT-4 ttrasforma l-AI tal-lingwa.

Li Runway taqbez lil Google u OpenAI fuq il-benchmarks b'tim ta' 100 persuna tgħidilna xi ħaġa importanti: l-approċċ arkitetturali t-tajjeb jimporta aktar mir-riżorsi. Il-world models jistgħu jkunu dik l-approċċ. Jekk il-gamble ta' Runway taqleb tajjeb, ikunu ddefinixxew il-ġenerazzjoni li jmiss tal-vidjow AI.

U jekk is-simulazzjonijiet tal-fiżika jsiru tajba biżżejjed? Ma għadniex niġġeneraw biss vidjow. Qed nibnu dinjiet virtwali, simulazzjoni waħda f'daqqa.

💡

Qari relatat: Għal aktar dwar il-pedamenti tekniċi li jippermettu din il-bidla, ara d-deep dive tagħna fuq diffusion transformers. Għal paragunijiet ta' għodod attwali, iċċekkja Sora 2 vs Runway vs Veo 3.

Dan l-artiklu kien utli?

Henry

Henry

Teknoloġist Kreattiv

Teknoloġist kreattiv minn Lausanne jesplora fejn l-AI tiltaqa' mal-arti. Jespermenta b'mudelli ġenerattivi bejn sessjonijiet ta' mużika elettronika.

Artikli Relatati

Kompli esplora b'dawn il-postijiet relatati

Għoġbok dan l-artiklu?

Skopri aktar għarfien u żomm ruħek aġġornat bl-aħħar kontenut tagħna.

World Models: Il-Fruntiera Li Jmiss fil-Ġenerazzjoni tal-Vidjow AI