Meta Pixel
AlexisAlexis
7 min read
1313 kelmiet

Simulazzjoni tal-Fiżika fil-Vidjo bl-AI: Kif il-Mudelli Finalment Tgħallmu Jirrispettaw ir-Realta

Minn balal tal-basketball li jitteleportaw għal bounces realistiċi, il-mudelli tal-vidjo bl-AI issa jifhmu l-gravita, il-momentum, u d-dinamika tal-materjali. Nesploraw il-kisbiet tekniċi li jagħmlu dan possibbli.

Simulazzjoni tal-Fiżika fil-Vidjo bl-AI: Kif il-Mudelli Finalment Tgħallmu Jirrispettaw ir-Realta

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Għal snin, il-vidjos iġġenerati bl-AI kellhom problema tal-fiżika. Il-balal tal-basketball kienu jitilfu l-qoffa u jitteleportaw fiha xorta waħda. L-ilma kien jiġri l gћal fuq. L-oġġetti kienu jgħaddu minn xulxin bħal fantażmi. Fl-2025 u fil-bidu tal-2026, xi ħaġa nbidlet. L-aħħar ġenerazzjoni ta' mudelli tal-vidjo tgħallmu jirrispettaw il-liġijiet fundamentali tad-dinja fiżika.

Il-Problema tal-Basketball

OpenAI deskrivitha perfettament meta nediet Sora 2: f'mudelli aktar kmieni, jekk ballun tal-basketball itilef il-qoffa, sempliċiment kien jimmaterjalizza ġox-xibka xorta waħda. Il-mudell kien jaf ir-riżultat narrattiv (il-ballun jidħol fil-qoffa) iżda ma kellux kunċett tal-limitazzjonijiet fiżiċi li kellhom jirregolaw il-vjaġġ.

Din ma kinitx bug żgħir. Kienet sintomatika ta' limitazzjoni arkitetturali fundamentali. Mudelli tal-ġenerazzjoni tal-vidjo kmieni eċċellaw fit-tqabbil tal-patterns viżwali, tgħallmu jiġġeneraw frames li individwalment jidhru plawiżibbli filwaqt li jibqgħu fiżikament inkoerenti meta jiġu vvistjati f'sekwenza.

💡

OpenAI speċifikament elenkaw limitazzjonijiet ta' "morph object" bħala problema ewlenija li Sora 2 kien iddiżinjat biex issolvi. Dan il-vojt arkitetturali kien frustra kemm riċerkaturi kif ukoll kreaturi.

Tliet Pilastri tal-Fehim Fiżiku

Il-kisbiet fis-simulazzjoni tal-fiżika jistrieħu fuq tliet avvanzi interkonnessi: mudelli tad-dinja, raġunament tal-katina tal-ħsieb, u mekkaniżmi temporali tal-attenzjoni mtejba.

Mudelli tad-Dinja vs Predizzjoni ta' Frames

Il-ġenerazzjoni tradizzjonali tal-vidjo trattaċ il-kompitu bħala predizzjoni sekwenzjali ta' frames: mogħtija frames 1 sa N, ibbaża frame N+1. Dan l-approċċ inerentemente jbati biex jimmaniġġja l-fiżika għax ma għandux rappreżentazzjoni espliċita tal-istat fiżiku sottostanti.

Il-mudelli tad-dinja jieħdu approċċ fundamentalment differenti. Minflok jipprediċu pixels direttament, l-ewwel jikkostruwixxu rappreżentazzjoni interna tal-istat fiżiku tax-xena, inklużi pożizzjonijiet tal-oġġetti, veloċitajiet, materjali, u interazzjonijiet. Imbagħad biss jirrendjaw dan l-istat f'frames viżwali. Dan l-approċċ, esplorat fil-fond fl-analiżi tagħna tal-mudelli tad-dinja, jirrappreżenta bidla ta' paradimma f'kif naħsbu dwar il-ġenerazzjoni tal-vidjo.

Predizzjoni ta' Frames

Jipprediċi pixels minn pixels. L-ebda fiżika espliċita. Suxxettibbli għat-teleportazzjoni, żbalji ta' pass-through, u vjolazzjonijiet tal-gravita. Veloċi iżda fiżikament inkoerenti.

Mudelli tad-Dinja

Jissimula l-ewwel l-istat fiżiku. Traċċar espliċitu tal-oġġetti. Jirrispetta liġijiet tal-konservazzjoni u dinamika tal-kolliżjonijiet. Aktar intensiv komputazzjonalment iżda bbażat fiżikament.

Katina tal-Ħsieb għall-Vidjo

Kling O1, rilaxxat fl-aħħar tal-2025, introduċa raġunament tal-katina tal-ħsieb fil-ġenerazzjoni tal-vidjo. Qabel ma jiġġenera frames, il-mudell espliċitament jirraġuna dwar x'għandu jiġri fiżikament fix-xena.

Għal xena ta' tazza li taqa' minn fuq mejda, il-mudell l-ewwel jirraġuna:

  • It-tazza għandha veloċita inizjali żero, pożizzjoni fuq it-tarf tal-mejda
  • Il-gravita taċċelera t-tazza l isfel b'9.8 m/s²
  • It-tazza tikkontattja l-art wara madwar 0.45 sekondi
  • Il-materjal tat-tazza huwa fraġli, l-art hija wiċċ iebes
  • L-impatt jeċċedi l-livell tal-fraktura, it-tazza tinqasam
  • Il-biċċiet jixterrdu bil-konservazzjoni tal-momentum

Dan il-pass ta' raġunament espliċitu jseħħ fl-ispazju latenti tal-mudell qabel ma jiġi ġenerat xi pixel. Ir-riżultat huwa vidjo li jirrispetta mhux biss l-estetika viżwali iżda wkoll ktajjen kawżali.

Attenzjoni Temporali fuq Skala

Il-pedament arkitetturali li jippermetti dawn l-avvanzi huwa l-attenzjoni temporali, il-mekkaniżmu li bih il-mudelli tal-vidjo jżommu konsistenza bejn il-frames. L-arkitettura tad-diffusion transformer li tħaddem mudelli moderni tal-vidjo tipproċessa vidjo bħala patches tal-ispazju-ħin, li tippermetti l-attenzjoni li tiċċirkola kemm spazjalment fil-frames kif ukoll temporalment madwarhom.

Mudelli moderni tal-vidjo jipproċessaw miljuni ta' patches tal-ispazju-ħin kull vidjo, b'attention heads speċjalizzati ddedikati għall-konsistenza fiżika. Din l-iskala tippermetti lill-mudelli biex isegwu l-identita tal-oġġetti u l-istat fiżiku fuq mijiet ta' frames, iżommu koerenza li kienet impossibbli b'arkitetturi aktar kmieni.

Benchmarks tal-Fiżika tad-Dinja Reali

Kif attwalment inkejlu l-kwalita tas-simulazzjoni tal-fiżika? Il-qasam żviluppa diversi testijiet standardizzati:

BenchmarkJittestjaMexxejja
Permanenza tal-OġġettiL-oġġetti jibqgħu meta jiġu moħbijaSora 2, Veo 3
Konsistenza tal-GravitaL-aċċelerazzjoni tal-waqgħa libera hija uniformiKling O1, Runway Gen-4.5
Realiżmu tal-KolliżjonijietL-oġġetti jaqbżu, jiddeformaw, jew jinkisru b'mod xieraqSora 2, Veo 3.1
Dinamika tal-FluwidiL-ilma, id-duħħan, u d-drapp jissimula b'mod realistikuKling 2.6
Konservazzjoni tal-MomentumIl-moviment jiġi ttrasferit korrettament bejn l-oġġettiSora 2

Il-mudelli Kling konsistentement eċċellaw fid-dinamika tal-fluwidi, b'simulazzjoni tal-ilma u fiżika tad-drapp partikolarment impressjonanti. Sora 2 ta' OpenAI jmexxi fir-realiżmu tal-kolliżjonijiet u l-konservazzjoni tal-momentum, jimmaniġġja interazzjonijiet kumplessi ta' diversi oġġetti b'preċiżjoni impressjonanti.

💡

Għal simulazzjoni tal-ilma, duħħan, u drapp, il-mudelli Kling bħalissa joffru l-fiżika l-aktar realistika. Għal kolliżjonijiet kumplessi ta' diversi korpi u xenarji sportivi, Sora 2 huwa l-għażla aktar b'saħħitha.

It-Test tal-Ġinnastika

Wieħed mill-aktar benchmarks tal-fiżika diffiċli jinvolvi ġinnastika Olimpika. Ġinnast li qed jagħmel tumbling jgħaddi minn dinamika tar-rotazzjoni kumplessa: konservazzjoni tal-momentum angolari, mument ta' inerzja varjabbli meta d-dirgħajn jitwalu u jinġabru, u timing preċiż tal-applikazzjoni tal-forza għat-takeoffs u landings.

Mudelli tal-vidjo kmieni kienu jiġġeneraw frames individwali impressjonanti ta' ġinnasti fl-arja iżda jfallu katastrofikament fil-fiżika. Ir-rotazzjonijiet kienu jgħaġġlu jew ibattu b'mod każwali. Il-landings kienu jseħħu f'pożizzjonijiet impossibbli. Il-ġisem kien jiddeforma b'modi li jiksru limitazzjonijiet anatomiċi.

Sora 2 speċifikament enfasizza l-ġinnastika Olimpika bħala benchmark li issa jimmaniġġja korrettament. Il-mudell isegwi l-momentum angolari tal-ġinnast matul-rottina kollha, jaċċelera r-rotazzjoni meta d-dirgħajn jinġabru (effett tal-ispin tal-pattinatur fuq is-silġ) u jnaqqas meta jitwalu.

Fehim tal-Materjali

Is-simulazzjoni tal-fiżika testendi lil hinn mill-moviment għall-proprjetajiet tal-materjali. Kif jaf mudell li l-ħġieġ jinqasam filwaqt li l-lastiku jaqbeż? Li l-ilma jisplash filwaqt li ż-żejt jitferra? Li l-metall jiddeforma plastikament filwaqt li l-injam jinkiser?

It-tweġiba tinsab fid-data tat-taħriġ u l-priors tal-mudell li tgħallem. Billi jitħarreġ fuq miljuni ta' vidjos li juru materjali jinteraġixxu mad-dinja, il-mudelli jiżviluppaw fehim impliċitu tal-materjali. Tazza li taqa' fuq konkrit tipproduċi riżultat differenti minn tazza li taqa' fuq tappit, u mudelli moderni jaqbdu din id-distinzjoni.

🧱

Klassifikazzjoni tal-Materjali

Il-mudelli issa impliċitament jikklassifikaw oġġetti skont il-proprjetajiet tal-materjali: fraġli vs duttili, elastiku vs plastiku, kompressibbli vs inkompressibbli.

💨

Tipi ta' Fluwidi

Viskożitajiet u tensjonijiet tal-wiċċ differenti tal-fluwidi jiġu mmaniġġjati korrettament: l-ilma jisplash, l-għasel jibqa' nieżel, id-duħħan jixxerred.

🔥

Fiżika tal-Kombustjoni

In-nar u l-isplużjonijiet isegwu propagazzjoni tas-sħana realistika u dinamika tal-gass minflok effetti sempliċi ta' partiċelli.

Limitazzjonijiet u Każijiet Estremi

Minkejja dawn l-avvanzi, is-simulazzjoni tal-fiżika fil-vidjo bl-AI tibqa' imperfetta. Diversi limitazzjonijiet magħrufa jippersistu:

Stabbilta fit-tul: Il-fiżika tibqa' preċiża għal 5-10 sekondi iżda tista' tiddrift fuq durati itwal. Vidjos estiżi jistgħu gradwalment jiksru liġijiet tal-konservazzjoni.

Sistemi multi-body kumplessi: Filwaqt li żewġ oġġetti li jħabbtu ma' xulxin jaħdmu tajjeb, xeni b'għexieren ta' oġġetti li jinteraġixxu (bħal torri Jenga li jaqa') jistgħu jipproduċu żbalji.

Materjali mhux tas-soltu: Preġudizzji tad-data tat-taħriġ ifissru li materjali komuni (ilma, ħġieġ, metall) jissimula aħjar minn dawk eżotiċi (fluwidi mhux Newtonian, materjali manjetiċi).

Kondizzjonijiet estremi: Il-fiżika f'skali żgħar ħafna (molekulari), skali kbar ħafna (astronomiku), jew kondizzjonijiet estremi (qrib il-veloċita tad-dawl) spiss tiffall.

⚠️

Il-preċiżjoni tas-simulazzjoni tal-fiżika tiddegrada b'mod sinifikanti għal vidjos itwal minn 30 sekonda. Għal kontenut fit-tul, ikkunsidra li tuża tekniki tal-estensjoni tal-vidjo b'attenzjoni b'reqqa għall-kontinwita fiżika fil-fruntieri.

Implikazzjonijiet għall-Kreaturi

Xi jfisser titjib fis-simulazzjoni tal-fiżika għall-kreaturi tal-vidjo?

L-ewwel, drammatikament inaqqas il-bżonn għal tiswijiet ta' wara l-produzzjoni. Xeni li qabel kienu jeħtieġu editjar b'reqqa biex jikkorreġu impossibbiltajiet fiżiċi issa jiġġeneraw korrettament mill-ewwel darba.

It-tieni, jippermetti possibbiltajiet kreattivi ġodda. Simulazzjoni preċiża tal-fiżika tfisser li magni Rube Goldberg, sekwenzi sportivi, u xeni ta' azzjoni jistgħu jiġu ġġenerati mingħajr korrezzjoni manwali metikolużu.

It-tielet, itejjeb il-perċezzjoni tal-udjenza. L-udjenzi subkonxjament jinnotaw vjolazzjonijiet tal-fiżika, li jagħmlu vidjos fiżikament preċiżi jħossuhom aktar reali anki meta d-differenza hija diffiċli biex tiġi artikolata.

It-Triq 'il Quddiem

Is-simulazzjoni tal-fiżika se tkompli titjjeb fuq diversi assi:

Konsistenza temporali itwal: Mudelli attwali jżommu l-fiżika għal sekondi, mudelli futuri se jżommuha għal minuti.

Interazzjonijiet aktar kumplessi: Xeni b'mijiet ta' oġġetti li jinteraġixxu se jsiru fattibbli.

Engines tal-fiżika mtgħallma: Minflok fiżika impliċita mid-data tat-taħriġ, mudelli futuri jistgħu jinkorpuraw simulazzjoni tal-fiżika espliċita bħala komponent.

Fiżika f'ħin reali: Bħalissa l-ġenerazzjoni konxja tal-fiżika hija bil-mod, iżda l-ottimizzazzjoni tista' tippermetti ġenerazzjoni f'ħin reali b'preċiżjoni fiżika.

Il-vjaġġ minn balal tal-basketball li jitteleportaw għal bounces realistiċi jirrappreżenta wieħed mill-avvanzi l-aktar sinifikanti fil-ġenerazzjoni tal-vidjo bl-AI. Il-mudelli tgħallmu, jekk mhux jifhmu l-fiżika bil-mod li l-bnedmin jagħmlu, almenu jirrispettaw il-limitazzjonijiet tagħha. Għall-kreaturi, dan ifisser inqas korrezzjonijiet, aktar possibbiltajiet, u vidjos li sempliċiment iħossuhom aktar reali.

Ipprova int innifsek: Bonega.ai juża Veo 3, li jinkorporla simulazzjoni avvanzata tal-fiżika għal dinamika realistika tal-oġġetti. Iġġenera xeni b'fiżika kumplessa u ara kif il-mudell jimmaniġġja l-gravita, il-kolliżjonijiet, u l-interazzjonijiet tal-materjali.

Dan l-artiklu kien utli?

Alexis

Alexis

Inġinier AI

Inġinier AI minn Lausanne li jgħaqqad riċerka profonda ma' innovazzjoni prattika. Jaqsam iż-żmien bejn arkitetturi tal-mudelli u l-qċaċet Alpini.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Artikli Relatati

Kompli esplora b'dawn il-postijiet relatati

Għoġbok dan l-artiklu?

Skopri aktar għarfien u żomm ruħek aġġornat bl-aħħar kontenut tagħna.

Simulazzjoni tal-Fiżika fil-Vidjo bl-AI: Kif il-Mudelli Finalment Tgħallmu Jirrispettaw ir-Realta