Simulazzjoni tal-Fiżika fil-Vidjo bl-AI: Kif il-Mudelli Finalment Tgħallmu Jirrispettaw ir-Realta
Minn balal tal-basketball li jitteleportaw għal bounces realistiċi, il-mudelli tal-vidjo bl-AI issa jifhmu l-gravita, il-momentum, u d-dinamika tal-materjali. Nesploraw il-kisbiet tekniċi li jagħmlu dan possibbli.

Għal snin, il-vidjos iġġenerati bl-AI kellhom problema tal-fiżika. Il-balal tal-basketball kienu jitilfu l-qoffa u jitteleportaw fiha xorta waħda. L-ilma kien jiġri l gћal fuq. L-oġġetti kienu jgħaddu minn xulxin bħal fantażmi. Fl-2025 u fil-bidu tal-2026, xi ħaġa nbidlet. L-aħħar ġenerazzjoni ta' mudelli tal-vidjo tgħallmu jirrispettaw il-liġijiet fundamentali tad-dinja fiżika.
Il-Problema tal-Basketball
OpenAI deskrivitha perfettament meta nediet Sora 2: f'mudelli aktar kmieni, jekk ballun tal-basketball itilef il-qoffa, sempliċiment kien jimmaterjalizza ġox-xibka xorta waħda. Il-mudell kien jaf ir-riżultat narrattiv (il-ballun jidħol fil-qoffa) iżda ma kellux kunċett tal-limitazzjonijiet fiżiċi li kellhom jirregolaw il-vjaġġ.
Din ma kinitx bug żgħir. Kienet sintomatika ta' limitazzjoni arkitetturali fundamentali. Mudelli tal-ġenerazzjoni tal-vidjo kmieni eċċellaw fit-tqabbil tal-patterns viżwali, tgħallmu jiġġeneraw frames li individwalment jidhru plawiżibbli filwaqt li jibqgħu fiżikament inkoerenti meta jiġu vvistjati f'sekwenza.
OpenAI speċifikament elenkaw limitazzjonijiet ta' "morph object" bħala problema ewlenija li Sora 2 kien iddiżinjat biex issolvi. Dan il-vojt arkitetturali kien frustra kemm riċerkaturi kif ukoll kreaturi.
Tliet Pilastri tal-Fehim Fiżiku
Il-kisbiet fis-simulazzjoni tal-fiżika jistrieħu fuq tliet avvanzi interkonnessi: mudelli tad-dinja, raġunament tal-katina tal-ħsieb, u mekkaniżmi temporali tal-attenzjoni mtejba.
Mudelli tad-Dinja vs Predizzjoni ta' Frames
Il-ġenerazzjoni tradizzjonali tal-vidjo trattaċ il-kompitu bħala predizzjoni sekwenzjali ta' frames: mogħtija frames 1 sa N, ibbaża frame N+1. Dan l-approċċ inerentemente jbati biex jimmaniġġja l-fiżika għax ma għandux rappreżentazzjoni espliċita tal-istat fiżiku sottostanti.
Il-mudelli tad-dinja jieħdu approċċ fundamentalment differenti. Minflok jipprediċu pixels direttament, l-ewwel jikkostruwixxu rappreżentazzjoni interna tal-istat fiżiku tax-xena, inklużi pożizzjonijiet tal-oġġetti, veloċitajiet, materjali, u interazzjonijiet. Imbagħad biss jirrendjaw dan l-istat f'frames viżwali. Dan l-approċċ, esplorat fil-fond fl-analiżi tagħna tal-mudelli tad-dinja, jirrappreżenta bidla ta' paradimma f'kif naħsbu dwar il-ġenerazzjoni tal-vidjo.
Jipprediċi pixels minn pixels. L-ebda fiżika espliċita. Suxxettibbli għat-teleportazzjoni, żbalji ta' pass-through, u vjolazzjonijiet tal-gravita. Veloċi iżda fiżikament inkoerenti.
Jissimula l-ewwel l-istat fiżiku. Traċċar espliċitu tal-oġġetti. Jirrispetta liġijiet tal-konservazzjoni u dinamika tal-kolliżjonijiet. Aktar intensiv komputazzjonalment iżda bbażat fiżikament.
Katina tal-Ħsieb għall-Vidjo
Kling O1, rilaxxat fl-aħħar tal-2025, introduċa raġunament tal-katina tal-ħsieb fil-ġenerazzjoni tal-vidjo. Qabel ma jiġġenera frames, il-mudell espliċitament jirraġuna dwar x'għandu jiġri fiżikament fix-xena.
Għal xena ta' tazza li taqa' minn fuq mejda, il-mudell l-ewwel jirraġuna:
- It-tazza għandha veloċita inizjali żero, pożizzjoni fuq it-tarf tal-mejda
- Il-gravita taċċelera t-tazza l isfel b'9.8 m/s²
- It-tazza tikkontattja l-art wara madwar 0.45 sekondi
- Il-materjal tat-tazza huwa fraġli, l-art hija wiċċ iebes
- L-impatt jeċċedi l-livell tal-fraktura, it-tazza tinqasam
- Il-biċċiet jixterrdu bil-konservazzjoni tal-momentum
Dan il-pass ta' raġunament espliċitu jseħħ fl-ispazju latenti tal-mudell qabel ma jiġi ġenerat xi pixel. Ir-riżultat huwa vidjo li jirrispetta mhux biss l-estetika viżwali iżda wkoll ktajjen kawżali.
Attenzjoni Temporali fuq Skala
Il-pedament arkitetturali li jippermetti dawn l-avvanzi huwa l-attenzjoni temporali, il-mekkaniżmu li bih il-mudelli tal-vidjo jżommu konsistenza bejn il-frames. L-arkitettura tad-diffusion transformer li tħaddem mudelli moderni tal-vidjo tipproċessa vidjo bħala patches tal-ispazju-ħin, li tippermetti l-attenzjoni li tiċċirkola kemm spazjalment fil-frames kif ukoll temporalment madwarhom.
Mudelli moderni tal-vidjo jipproċessaw miljuni ta' patches tal-ispazju-ħin kull vidjo, b'attention heads speċjalizzati ddedikati għall-konsistenza fiżika. Din l-iskala tippermetti lill-mudelli biex isegwu l-identita tal-oġġetti u l-istat fiżiku fuq mijiet ta' frames, iżommu koerenza li kienet impossibbli b'arkitetturi aktar kmieni.
Benchmarks tal-Fiżika tad-Dinja Reali
Kif attwalment inkejlu l-kwalita tas-simulazzjoni tal-fiżika? Il-qasam żviluppa diversi testijiet standardizzati:
| Benchmark | Jittestja | Mexxejja |
|---|---|---|
| Permanenza tal-Oġġetti | L-oġġetti jibqgħu meta jiġu moħbija | Sora 2, Veo 3 |
| Konsistenza tal-Gravita | L-aċċelerazzjoni tal-waqgħa libera hija uniformi | Kling O1, Runway Gen-4.5 |
| Realiżmu tal-Kolliżjonijiet | L-oġġetti jaqbżu, jiddeformaw, jew jinkisru b'mod xieraq | Sora 2, Veo 3.1 |
| Dinamika tal-Fluwidi | L-ilma, id-duħħan, u d-drapp jissimula b'mod realistiku | Kling 2.6 |
| Konservazzjoni tal-Momentum | Il-moviment jiġi ttrasferit korrettament bejn l-oġġetti | Sora 2 |
Il-mudelli Kling konsistentement eċċellaw fid-dinamika tal-fluwidi, b'simulazzjoni tal-ilma u fiżika tad-drapp partikolarment impressjonanti. Sora 2 ta' OpenAI jmexxi fir-realiżmu tal-kolliżjonijiet u l-konservazzjoni tal-momentum, jimmaniġġja interazzjonijiet kumplessi ta' diversi oġġetti b'preċiżjoni impressjonanti.
Għal simulazzjoni tal-ilma, duħħan, u drapp, il-mudelli Kling bħalissa joffru l-fiżika l-aktar realistika. Għal kolliżjonijiet kumplessi ta' diversi korpi u xenarji sportivi, Sora 2 huwa l-għażla aktar b'saħħitha.
It-Test tal-Ġinnastika
Wieħed mill-aktar benchmarks tal-fiżika diffiċli jinvolvi ġinnastika Olimpika. Ġinnast li qed jagħmel tumbling jgħaddi minn dinamika tar-rotazzjoni kumplessa: konservazzjoni tal-momentum angolari, mument ta' inerzja varjabbli meta d-dirgħajn jitwalu u jinġabru, u timing preċiż tal-applikazzjoni tal-forza għat-takeoffs u landings.
Mudelli tal-vidjo kmieni kienu jiġġeneraw frames individwali impressjonanti ta' ġinnasti fl-arja iżda jfallu katastrofikament fil-fiżika. Ir-rotazzjonijiet kienu jgħaġġlu jew ibattu b'mod każwali. Il-landings kienu jseħħu f'pożizzjonijiet impossibbli. Il-ġisem kien jiddeforma b'modi li jiksru limitazzjonijiet anatomiċi.
Sora 2 speċifikament enfasizza l-ġinnastika Olimpika bħala benchmark li issa jimmaniġġja korrettament. Il-mudell isegwi l-momentum angolari tal-ġinnast matul-rottina kollha, jaċċelera r-rotazzjoni meta d-dirgħajn jinġabru (effett tal-ispin tal-pattinatur fuq is-silġ) u jnaqqas meta jitwalu.
Fehim tal-Materjali
Is-simulazzjoni tal-fiżika testendi lil hinn mill-moviment għall-proprjetajiet tal-materjali. Kif jaf mudell li l-ħġieġ jinqasam filwaqt li l-lastiku jaqbeż? Li l-ilma jisplash filwaqt li ż-żejt jitferra? Li l-metall jiddeforma plastikament filwaqt li l-injam jinkiser?
It-tweġiba tinsab fid-data tat-taħriġ u l-priors tal-mudell li tgħallem. Billi jitħarreġ fuq miljuni ta' vidjos li juru materjali jinteraġixxu mad-dinja, il-mudelli jiżviluppaw fehim impliċitu tal-materjali. Tazza li taqa' fuq konkrit tipproduċi riżultat differenti minn tazza li taqa' fuq tappit, u mudelli moderni jaqbdu din id-distinzjoni.
Klassifikazzjoni tal-Materjali
Il-mudelli issa impliċitament jikklassifikaw oġġetti skont il-proprjetajiet tal-materjali: fraġli vs duttili, elastiku vs plastiku, kompressibbli vs inkompressibbli.
Tipi ta' Fluwidi
Viskożitajiet u tensjonijiet tal-wiċċ differenti tal-fluwidi jiġu mmaniġġjati korrettament: l-ilma jisplash, l-għasel jibqa' nieżel, id-duħħan jixxerred.
Fiżika tal-Kombustjoni
In-nar u l-isplużjonijiet isegwu propagazzjoni tas-sħana realistika u dinamika tal-gass minflok effetti sempliċi ta' partiċelli.
Limitazzjonijiet u Każijiet Estremi
Minkejja dawn l-avvanzi, is-simulazzjoni tal-fiżika fil-vidjo bl-AI tibqa' imperfetta. Diversi limitazzjonijiet magħrufa jippersistu:
Stabbilta fit-tul: Il-fiżika tibqa' preċiża għal 5-10 sekondi iżda tista' tiddrift fuq durati itwal. Vidjos estiżi jistgħu gradwalment jiksru liġijiet tal-konservazzjoni.
Sistemi multi-body kumplessi: Filwaqt li żewġ oġġetti li jħabbtu ma' xulxin jaħdmu tajjeb, xeni b'għexieren ta' oġġetti li jinteraġixxu (bħal torri Jenga li jaqa') jistgħu jipproduċu żbalji.
Materjali mhux tas-soltu: Preġudizzji tad-data tat-taħriġ ifissru li materjali komuni (ilma, ħġieġ, metall) jissimula aħjar minn dawk eżotiċi (fluwidi mhux Newtonian, materjali manjetiċi).
Kondizzjonijiet estremi: Il-fiżika f'skali żgħar ħafna (molekulari), skali kbar ħafna (astronomiku), jew kondizzjonijiet estremi (qrib il-veloċita tad-dawl) spiss tiffall.
Il-preċiżjoni tas-simulazzjoni tal-fiżika tiddegrada b'mod sinifikanti għal vidjos itwal minn 30 sekonda. Għal kontenut fit-tul, ikkunsidra li tuża tekniki tal-estensjoni tal-vidjo b'attenzjoni b'reqqa għall-kontinwita fiżika fil-fruntieri.
Implikazzjonijiet għall-Kreaturi
Xi jfisser titjib fis-simulazzjoni tal-fiżika għall-kreaturi tal-vidjo?
L-ewwel, drammatikament inaqqas il-bżonn għal tiswijiet ta' wara l-produzzjoni. Xeni li qabel kienu jeħtieġu editjar b'reqqa biex jikkorreġu impossibbiltajiet fiżiċi issa jiġġeneraw korrettament mill-ewwel darba.
It-tieni, jippermetti possibbiltajiet kreattivi ġodda. Simulazzjoni preċiża tal-fiżika tfisser li magni Rube Goldberg, sekwenzi sportivi, u xeni ta' azzjoni jistgħu jiġu ġġenerati mingħajr korrezzjoni manwali metikolużu.
It-tielet, itejjeb il-perċezzjoni tal-udjenza. L-udjenzi subkonxjament jinnotaw vjolazzjonijiet tal-fiżika, li jagħmlu vidjos fiżikament preċiżi jħossuhom aktar reali anki meta d-differenza hija diffiċli biex tiġi artikolata.
It-Triq 'il Quddiem
Is-simulazzjoni tal-fiżika se tkompli titjjeb fuq diversi assi:
Konsistenza temporali itwal: Mudelli attwali jżommu l-fiżika għal sekondi, mudelli futuri se jżommuha għal minuti.
Interazzjonijiet aktar kumplessi: Xeni b'mijiet ta' oġġetti li jinteraġixxu se jsiru fattibbli.
Engines tal-fiżika mtgħallma: Minflok fiżika impliċita mid-data tat-taħriġ, mudelli futuri jistgħu jinkorpuraw simulazzjoni tal-fiżika espliċita bħala komponent.
Fiżika f'ħin reali: Bħalissa l-ġenerazzjoni konxja tal-fiżika hija bil-mod, iżda l-ottimizzazzjoni tista' tippermetti ġenerazzjoni f'ħin reali b'preċiżjoni fiżika.
Il-vjaġġ minn balal tal-basketball li jitteleportaw għal bounces realistiċi jirrappreżenta wieħed mill-avvanzi l-aktar sinifikanti fil-ġenerazzjoni tal-vidjo bl-AI. Il-mudelli tgħallmu, jekk mhux jifhmu l-fiżika bil-mod li l-bnedmin jagħmlu, almenu jirrispettaw il-limitazzjonijiet tagħha. Għall-kreaturi, dan ifisser inqas korrezzjonijiet, aktar possibbiltajiet, u vidjos li sempliċiment iħossuhom aktar reali.
Ipprova int innifsek: Bonega.ai juża Veo 3, li jinkorporla simulazzjoni avvanzata tal-fiżika għal dinamika realistika tal-oġġetti. Iġġenera xeni b'fiżika kumplessa u ara kif il-mudell jimmaniġġja l-gravita, il-kolliżjonijiet, u l-interazzjonijiet tal-materjali.
Dan l-artiklu kien utli?

Alexis
Inġinier AIInġinier AI minn Lausanne li jgħaqqad riċerka profonda ma' innovazzjoni prattika. Jaqsam iż-żmien bejn arkitetturi tal-mudelli u l-qċaċet Alpini.
Artikli Relatati
Kompli esplora b'dawn il-postijiet relatati

World Models: Il-Fruntiera Li Jmiss fil-Ġenerazzjoni tal-Vidjow AI
Għaliex il-bidla mill-ġenerazzjoni tal-frames għas-simulazzjoni tad-dinja qed terġa' tifforma l-vidjow AI, u x'qed jgħidilna l-GWM-1 ta' Runway dwar fejn sejra din it-teknoloġija.

AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026
Mill-ghaqdiet waħdiet sal-interi serje, il-vidjo tal-AI tat-trasformazzjoniet minn għodda ta' ġenerazzjoni għal magna ta' storytelling. Iltaqa' mal-platformi li jagħmluha possibbli.

Mudelli tad-Dinja Lil hinn mil-Video: Għaliex l-Għames u r-Robotika huma l-Bażi Reali għal AGI
Minn DeepMind Genie sa AMI Labs, mudelli tad-dinja qaranqgħalin issiru l-pedament għal AI li verament jifhem il-fiżika. Il-merkitu tal-għames ta' $500B jista' jkun il-post fejn jimqabbdu stess għall-ewwel.