Fizikas simulācija AI video: kā modeļi beidzot iemācījās cienīt realitāti
No teleportējošām basketbola bumbām līdz reālistiskiem atlēcieniem, AI video modeļi tagad saprot gravitāciju, impulsu un materiālu dinamiku. Mēs izpētām tehniskos sasniegumus, kas to padara iespējamu.

Gadiem ilgi AI ģenerētajiem video bija fizikas problēma. Basketbola bumbas garām grozam teleportējās tajā tik un tā. Ūdens tecēja uz augšu. Objekti caurvija viens otru kā spoki. 2025. gadā un 2026. gada sākumā kaut kas mainījās. Jaunākās paaudzes video modeļi ir iemācījušies cienīt fiziskās pasaules pamatlikumus.
Basketbola problēma
OpenAI to aprakstīja precīzi, laižot klajā Sora 2: agrākajos modeļos, ja basketbola bumba garām grozam, tā vienkārši materializējās tīklā tik un tā. Modelis zināja stāstījuma iznākumu (bumba iekļūst grozā), bet tam nebija nekādas izpratnes par fiziskajiem ierobežojumiem, kam būtu jāpārvalda ceļojums.
Tā nebija nenozīmīga kļūda. Tā bija simptomātiska fundamentālam arhitektūras ierobežojumam. Agrīnie video ģenerēšanas modeļi izcēlās vizuālajā modeļu saskaņošanā, iemācoties ģenerēt kadrus, kas individuāli izskatījās ticami, bet palika fiziski nesakarīgi, skatoties secīgi.
OpenAI skaidri uzskaitīja "objektu morfēšanas" ierobežojumus kā galveno problēmu, ko Sora 2 bija paredzēts atrisināt. Šī arhitektūras plaisa bija sarūgtinājusi gan pētniekus, gan veidotājus.
Trīs fiziskās izpratnes pīlāri
Izrāviens fizikas simulācijā balstās uz trim savstarpēji saistītiem sasniegumiem: pasaules modelēšana, domāšanas ķēde un uzlaboti temporālie uzmanības mehānismi.
Pasaules modeļi pret kadru prognozēšanu
Tradicionālā video ģenerēšana uzskatīja uzdevumu par secīgu kadru prognozēšanu: dotie kadri no 1 līdz N, prognozēt kadru N+1. Šī pieeja pēc būtības cīnās ar fiziku, jo tai nav eksplicīta pamata fiziskā stāvokļa reprezentācija.
Pasaules modeļi izmanto fundamentāli atšķirīgu pieeju. Tā vietā, lai tieši prognozētu pikseļus, tie vispirms konstruē iekšēju reprezentāciju par ainas fizisko stāvokli, ieskaitot objektu pozīcijas, ātrumu, materiālus un mijiedarbības. Tikai tad tie renderē šo stāvokli vizuālos kadros. Šī pieeja, kas padziļināti izpētīta mūsu pasaules modeļu analīzē, pārstāv paradigmas maiņu tajā, kā mēs domājam par video ģenerēšanu.
Prognozē pikseļus no pikseļiem. Nav eksplicītas fizikas. Pakļauta teleportācijai, cauriešanas kļūdām un gravitācijas pārkāpumiem. Ātra, bet fiziski nesakarīga.
Vispirms simulē fizisko stāvokli. Eksplicīta objektu izsekošana. Ievēro saglabāšanas likumus un sadursmju dinamiku. Skaitļošanas ziņā smagāki, bet fiziski pamatoti.
Domāšanas ķēde video
Kling O1, kas izlaists 2025. gada beigās, ieviesa domāšanas ķēdes spriešanu video ģenerēšanā. Pirms kadru ģenerēšanas modelis eksplicīti spriež par to, kam fiziski vajadzētu notikt ainā.
Ainai, kur glāze nokrīt no galda, modelis vispirms spriež:
- Glāzei sākotnējais ātrums ir nulle, pozīcija uz galda malas
- Gravitācija paātrina glāzi uz leju ar 9,8 m/s²
- Glāze saskaras ar grīdu pēc aptuveni 0,45 sekundēm
- Glāzes materiāls ir trausls, grīda ir cieta virsma
- Trieciens pārsniedz lūzuma slieksni, glāze sašķīst
- Lauskas izklīst ar impulsa saglabāšanu
Šis eksplicītais spriešanas solis notiek modeļa latentajā telpā pirms jebkādu pikseļu ģenerēšanas. Rezultāts ir video, kas ievēro ne tikai vizuālo estētiku, bet cēloņsakarības ķēdes.
Temporālā uzmanība mērogā
Arhitektūras pamats, kas ļauj šos sasniegumus, ir temporālā uzmanība, mehānisms, ar kuru video modeļi uztur konsekvenci starp kadriem. Difūzijas transformeru arhitektūra, kas darbina modernos video modeļus, apstrādā video kā telplaika plāksterus, ļaujot uzmanībai plūst gan telpiski kadru ietvaros, gan temporāli pāri tiem.
Mūsdienu video modeļi apstrādā miljoniem telplaika plāksteru katrā video, ar specializētām uzmanības galvām, kas veltītas fiziskai konsekvencei. Šis mērogs ļauj modeļiem izsekot objektu identitāti un fizisko stāvokli simtiem kadru garumā, uzturot sakritību, kas agrākajās arhitektūrās bija neiespējama.
Reālās pasaules fizikas kritēriji
Kā mēs faktiski mērām fizikas simulācijas kvalitāti? Joma ir izstrādājusi vairākus standartizētus testus:
| Kritērijs | Testē | Līderi |
|---|---|---|
| Objektu pastāvība | Objekti saglabājas, kad aizsegti | Sora 2, Veo 3 |
| Gravitācijas konsekvence | Brīvās krišanas paātrinājums ir vienmērīgs | Kling O1, Runway Gen-4.5 |
| Sadursmju reālisms | Objekti atlec, deformējas vai saplīst atbilstoši | Sora 2, Veo 3.1 |
| Šķidrumu dinamika | Ūdens, dūmi un audums simulējas reālistiski | Kling 2.6 |
| Impulsa saglabāšana | Kustība pareizi pāriet starp objektiem | Sora 2 |
Kling modeļi ir konsekventi izcēlušies šķidrumu dinamikā, ar īpaši iespaidīgu ūdens simulāciju un auduma fiziku. OpenAI Sora 2 ved sadursmju reālismā un impulsa saglabāšanā, apstrādājot sarežģītas daudzobjektu mijiedarbības ar iespaidīgu precizitāti.
Ūdens, dūmu un auduma simulācijai Kling modeļi pašlaik piedāvā visreālistiskāko fiziku. Sarežģītām daudzķermeņu sadursmēm un sporta scenārijiem Sora 2 ir spēcīgākā izvēle.
Vingrotāja tests
Viens no prasīgākajiem fizikas kritērijiem ietver olimpisko vingrošanu. Kūleņojošs vingrotājs iziet cauri sarežģītai rotācijas dinamikai: leņķiskā impulsa saglabāšana, mainīgs inerces moments, kad ekstremitātes izstiepjas un saraujas, un precīzs spēka pielietojuma laiks pacelšanās un nolaišanās brīdī.
Agrīnie video modeļi ģenerētu iespaidīgus individuālus kadrus ar vingrotājiem gaisā, bet katastrofāli izgāztos fizikā. Rotācijas paātrinātos vai palēninātos nejauši. Nolaišanās notiktu neiespējamās pozīcijās. Ķermenis deformētos veidos, kas pārkāptu anatomiskos ierobežojumus.
Sora 2 eksplicīti izceļa olimpisko vingrošanu kā kritēriju, ko tas tagad apstrādā pareizi. Modelis izseko vingrotāja leņķisko impulsu visā programmā, paātrinot rotāciju, kad ekstremitātes savelkas (slidotāja grieziena efekts), un palēninot, kad tās izstiepjas.
Materiālu izpratne
Fizikas simulācija sniedzas tālāk par kustību līdz materiālu īpašībām. Kā modelis zina, ka stikls sašķīst, kamēr gumija atlec? Ka ūdens šļakstās, kamēr eļļa sakrājas? Ka metāls plastiski deformējas, kamēr koks lūst?
Atbilde slēpjas apmācības datos un modeļa apgūtajos priekšstatos. Apmācoties ar miljoniem video, kas parāda materiālu mijiedarbību ar pasauli, modeļi attīsta implicītu materiālu izpratni. Stikls, kas krīt uz betona, rada atšķirīgu iznākumu nekā stikls, kas krīt uz paklāja, un mūsdienu modeļi uztver šo atšķirību.
Materiālu klasifikācija
Modeļi tagad implicīti klasificē objektus pēc materiālu īpašībām: trausls pret elastīgu, elastīgs pret plastisku, saspiežams pret nesaspiežamu.
Šķidrumu veidi
Dažādas šķidrumu viskozitātes un virsmas spraigumi tiek apstrādāti pareizi: ūdens šļakstās, medus pil, dūmi kuplojas.
Degšanas fizika
Uguns un sprādzieni seko reālistiskai siltuma izplatībai un gāzu dinamikai, nevis vienkāršiem daļiņu efektiem.
Ierobežojumi un izņēmuma gadījumi
Neskatoties uz šiem sasniegumiem, fizikas simulācija AI video paliek nepilnīga. Vairāki zināmi ierobežojumi saglabājas:
Ilgtermiņa stabilitāte: Fizika paliek precīza 5-10 sekundes, bet var novirzīties ilgākā laika posmā. Pagarināti video var pakāpeniski pārkāpt saglabāšanas likumus.
Sarežģītas daudzķermeņu sistēmas: Kamēr divu objektu sadursme darbojas labi, ainas ar desmitiem mijiedarbojošos objektu (kā krītoša Jenga torņa) var radīt kļūdas.
Neparasti materiāli: Apmācības datu novirzes nozīmē, ka izplatīti materiāli (ūdens, stikls, metāls) simulējas labāk nekā eksotiski (ne-Ņūtona šķidrumi, magnētiski materiāli).
Ekstrēmi apstākļi: Fizika ļoti mazos mērogos (molekulāri), ļoti lielos mērogos (astronomiski) vai ekstrēmos apstākļos (tuvu gaismas ātrumam) bieži neizdodas.
Fizikas simulācijas precizitāte ievērojami degradējas video garākiem par 30 sekundēm. Garformāta saturam apsveriet video pagarināšanas tehnikas ar rūpīgu uzmanību fiziskajai nepārtrauktībai robežās.
Ietekme uz veidotājiem
Ko uzlabota fizikas simulācija nozīmē video veidotājiem?
Pirmkārt, tā dramatiski samazina nepieciešamību pēc postprodukcijas labojumiem. Ainas, kas iepriekš prasīja rūpīgu rediģēšanu, lai izlabotu fiziskas neiespējamības, tagad ģenerējas pareizi pirmajā reizē.
Otrkārt, tā ļauj jaunas radošās iespējas. Precīza fizikas simulācija nozīmē, ka Rūbes Goldberga mašīnas, sporta secības un darbības ainas var tikt ģenerētas bez rūpīgas manuālas korekcijas.
Treškārt, tā uzlabo skatītāju uztveri. Skatītāji zemapziņā uztver fizikas pārkāpumus, padarot fiziski precīzus video reālākus pat tad, kad atšķirību ir grūti formulēt.
Ceļš uz priekšu
Fizikas simulācija turpinās uzlaboties vairākos virzienos:
Garāka temporālā konsekvence: Pašreizējie modeļi uztur fiziku sekundes, nākotnes modeļi to uzturēs minūtes.
Sarežģītākas mijiedarbības: Ainas ar simtiem mijiedarbojošos objektu kļūs iespējamas.
Apgūti fizikas dzinēji: Tā vietā, lai būtu implicīta fizika no apmācības datiem, nākotnes modeļi var iekļaut eksplicītu fizikas simulāciju kā komponentu.
Reāllaika fizika: Pašlaik fizikas apzinīga ģenerēšana ir lēna, bet optimizācija varētu ļaut reāllaika ģenerēšanu ar fizisko precizitāti.
Ceļojums no teleportējošām basketbola bumbām līdz reālistiskiem atlēcieniem pārstāv vienu no nozīmīgākajiem sasniegumiem AI video ģenerēšanā. Modeļi ir iemācījušies, ja ne saprast fiziku tā, kā to dara cilvēki, vismaz cienīt tās ierobežojumus. Veidotājiem tas nozīmē mazāk korekciju, vairāk iespēju un video, kas vienkārši jūtas reālāki.
Izmēģiniet paši: Bonega.ai izmanto Veo 3, kas iekļauj uzlabotu fizikas simulāciju reālistiskai objektu dinamikai. Ģenerējiet ainas ar sarežģītu fiziku un skatiet, kā modelis apstrādā gravitāciju, sadursmes un materiālu mijiedarbības.
Vai šis raksts bija noderīgs?

Alexis
MI InženierisMI inženieris no Lozannas, kurš apvieno pētniecības dziļumu ar praktisku inovāciju. Dala laiku starp modeļu arhitektūrām un Alpu kalniem.
Saistītie raksti
Turpiniet izpēti ar šiem saistītajiem rakstiem

Pasaules modeļi: Nākamā robeža AI video ģenerēšanā
Kāpēc pāreja no kadru ģenerēšanas uz pasaules simulāciju pārveido AI video, un ko Runway GWM-1 mums stāsta par šīs tehnoloģijas virzienu.

AI Video Stāstīšanas Platformas: Kā Seriālis Saturs Maina Visu 2026. gadā
No atsevišķiem klipiem līdz pilnām sērijām, AI video attīstās no ģenerēšanas rīka uz stāstīšanas dzinēju. Iepazīstieties ar platformām, kas to iespējo.

Pasaules Modeļi Ārpus Video: Kāpēc Spēles un Robotika ir Patiesie Pierādīšanas Laukumi AGI
No DeepMind Genie uz AMI Labs, pasaules modeļi klusi kļūst par pamatu AI, kas patiesi saprot fiziku. 500 miljardi dolāru spēļu tirgus var būt vieta, kur viņi vispirms sevi pierāda.