Eðlisfræðihermir í gervigreindarmyndböndum: Hvernig líkön lærðu loksins að virða raunveruleikann
Frá fjarfluttum körfuboltum til raunsærra skopp, gervigreindar myndbandslíkön skilja nú þyngdarafl, skriðþunga og efnishreyfingu. Við könnum tæknilegu byltingarnar sem gera þetta mögulegt.

Í mörg ár áttu gervigreindarmyndbönd við eðlisfræðivandamál. Körfuboltar sem misstu körfuna fjarfluttu sig inn í hana samt. Vatn flæddi upp á við. Hlutir fóru í gegnum hvern annan eins og draugar. Árið 2025 og snemma árs 2026 breyttist eitthvað. Nýjasta kynslóð myndbandslíkana hefur lært að virða grundvallarlögmál hins líkamlega heims.
Körfuboltavandamálið
OpenAI lýsti þessu nákvæmlega þegar Sora 2 var sett á markað: í fyrri líkönum, ef körfubolti missti körfuna, myndi hann einfaldlega efnast inni í netinu samt. Líkanið vissi frásagnarniðurstöðuna (bolti fer í körfu) en hafði enga hugmynd um eðlisfræðilegu takmarkanirnar sem ættu að stjórna ferðinni.
Þetta var ekki minniháttar villa. Það var einkenni grundvallar arkitektúrtakmarkana. Snemma myndbandagerðarlíkön voru frábær í sjónrænu mynstursamsvörun, þau lærðu að búa til ramma sem litu einstaklingslega trúverðugir út en héldust eðlisfræðilega ósamkvæmir þegar þeir voru skoðaðir í röð.
OpenAI skráði sérstaklega "breytingu hluta" takmarkanir sem lykilván sem Sora 2 var hannað til að leysa. Þetta arkitektúrbil hafði pirrað bæði rannsakendur og skaparendur.
Þrjár stoðir eðlisfræðiskilnings
Byltingin í eðlisfræðihermingu hvílir á þremur samtengdum framförum: heimslíkönum, hugsunakeðjurökhugsun og bættum tímabundnum athyglisbúnaði.
Heimslíkön gegn ramagiskun
Hefðbundin myndbandagerð meðhöndlaði verkefnið sem raðbundna ramagiskun: gefnir ramar 1 til N, spá fyrir um ramma N+1. Þessi nálgun á í erfiðleikum með eðlisfræði vegna þess að hún hefur enga skýra framsetningu á undirliggjandi eðlisfræðiástandi.
Heimslíkön taka grundvallar ólíka nálgun. Í stað þess að spá beint fyrir um pixla, smíða þau fyrst innri framsetningu á eðlisfræðiástandi sviðsins, þar með talið staðsetningu hluta, hraða, efni og víxlverkanir. Aðeins þá gefa þau þetta ástand sem sjónræna ramma. Þessi nálgun, sem könnuð er í dýpt í heimslíkanagreiningu okkar, táknar hugmyndafræðilega breytingu í því hvernig við hugsum um myndbandagerð.
Spáir fyrir um pixla frá pixlum. Engin skýr eðlisfræði. Viðkvæm fyrir fjarflutningi, gegnumfarvillum og þyngdaraflbrotum. Hröð en eðlisfræðilega ósamkvæm.
Hermir fyrst eðlisfræðiástand. Skýr hlutarakning. Virðir varðveislulögmál og árekstrahreyfifræði. Reiknikostnaðarsamari en eðlisfræðilega grunduð.
Hugsunakeðja fyrir myndbönd
Kling O1, sem kom út seint á árinu 2025, kynnti hugsunakeðjurökhugsun í myndbandagerð. Áður en ramar eru búnir til, rökhugsar líkanið sérstaklega um hvað ætti eðlisfræðilega að gerast í sviðsmyndinni.
Fyrir sviðsmynd þar sem glas dettur af borði, rökhugsar líkanið fyrst:
- Glas hefur upphaflegan hraða núll, staðsetningu á borðsbrún
- Þyngdarafl flýtir glasinu niður á við með 9,8 m/s²
- Glas snertir gólf eftir um það bil 0,45 sekúndur
- Glasefni er stökkt, gólf er hörð yfirborð
- Högg fer yfir brotsþröskuld, glas brotnar
- Brot dreifist með skriðþungavarðveislu
Þetta skýra rökhugsanaskref gerist í leyndu rými líkansins áður en nokkrir pixlar eru búnir til. Niðurstaðan er myndband sem virðir ekki aðeins sjónræna fagurfræði heldur orsakakeðjur.
Tímabundin athygli í stærðargráðu
Arkitektúrgrundvöllurinn sem gerir þessar framfarir mögulegar er tímabundin athygli, búnaðurinn sem myndbandslíkön nota til að viðhalda samkvæmni milli ramma. Dreifingartransformer arkitektúran sem knýr nútíma myndbandslíkön vinnur úr myndböndum sem rúmtímaflekkjum, sem gerir athygli kleift að flæða bæði rúmlega innan ramma og tímalega yfir þá.
Nútíma myndbandslíkön vinna úr milljónum rúmtímaflekkja á hvert myndband, með sérhæfðum athyglisköllum sem eru tileinkaðir eðlisfræðilegri samkvæmni. Þessi stærðargráða gerir líkönum kleift að rekja auðkenni hluta og eðlisfræðiástand yfir hundruð ramma, og viðhalda samræmi sem var ómögulegt með fyrri arkitektúrum.
Raunverulegir eðlisfræðiviðmiðanir
Hvernig mælum við í raun gæði eðlisfræðihermunar? Sviðið hefur þróað nokkur stöðluð próf:
| Viðmið | Prófar | Leiðtogar |
|---|---|---|
| Varanleiki hluta | Hlutir endast þegar huldir | Sora 2, Veo 3 |
| Þyngdaraflssamkvæmni | Frjálst fall flýtir jafnt | Kling O1, Runway Gen-4.5 |
| Áreksturseðlisfræði | Hlutir skoppa, aflöguðust eða brotna á viðeigandi hátt | Sora 2, Veo 3.1 |
| Vökvaflæði | Vatn, reykur og dúkur hermast raunverulega | Kling 2.6 |
| Skriðþungavarðveisla | Hreyfing flyst rétt milli hluta | Sora 2 |
Kling líkön hafa stöðugt skarað fram úr í vökvaflæði, með sérstaklega tilkomumikla vatnshermun og dúkeðlisfræði. Sora 2 frá OpenAI leiðir í áreksturseðlisfræði og skriðþungavarðveislu, og meðhöndlar flóknar víxlverkanir margra hluta með tilkomumikilli nákvæmni.
Fyrir vatns-, reyk- og dúkhermun bjóða Kling líkön nú upp á raunsærustu eðlisfræðina. Fyrir flóknar árekstra margra hluta og íþróttasviðsmyndir er Sora 2 sterkari kosturinn.
Fimleikakappprófið
Ein mest krefjandi eðlisfræðiviðmiðin felur í sér ólympíska fimleikar. Veltandi fimleikaiðkandi fer í gegnum flókna snúningshreyfifræði: varðveisla hverfiþunga, breytilegur tregðuvægi þegar útlimir teygja og dragast saman, og nákvæm tímasetning kraftbeitingar við brottför og lendingu.
Snemma myndbandslíkön myndu búa til tilkomumikla einstaklingsramma af fimleikaiðkendum í lofti en mistókust hörmulega í eðlisfræðinni. Snúningar myndu hraða eða hægja á sér af handahófi. Lendingar myndu eiga sér stað í ómögulegum stöðum. Líkaminn myndi aflöguðust á hátt sem braut líffærafræðilegar takmarkanir.
Sora 2 benti sérstaklega á ólympíska fimleikar sem viðmið sem það meðhöndlar nú rétt. Líkanið rekur hverfiþunga fimleikaiðkandans í gegnum alla æfinguna, flýtir snúningi þegar útlimir draga sig að (íshlauparsnúningsáhrif) og hægir þegar þeir teygja sig.
Efnisskilningur
Eðlisfræðiherming nær lengra en hreyfingu til efniseiginleika. Hvernig veit líkan að gler brotnar en gúmmí skoppar? Að vatn slettist en olía safnast? Að málmur aflöguðust plastískt en tré brotnar?
Svarið liggur í þjálfunargögnunum og lærðum forsendum líkansins. Með þjálfun á milljónum myndbanda sem sýna efni í víxlverkun við heiminn, þróa líkön óbeinan efnisskilning. Gler sem dettur á steypu gefur aðra niðurstöðu en gler sem dettur á teppi, og nútíma líkön fanga þennan mismun.
Efnisflokkun
Líkön flokka nú óbeint hluti eftir efniseiginleikum: stökkt gegn seigt, teygjanleg gegn plastísk, þjappanlegt gegn óþjappanlegt.
Vökvagerðir
Mismunandi seigja vökva og yfirborðsspennu eru meðhöndlaðar rétt: vatn slettist, hunang drýpur, reykur bólgnar.
Brunaviðlisfræði
Eldur og sprengingar fylgja raunsærri hitadreifingu og gashreyfifræði frekar en einföldum agnabrigðum.
Takmarkanir og jaðartilvik
Þrátt fyrir þessar framfarir er eðlisfræðiherming í gervigreindarmyndböndum enn ófullkomin. Nokkrar þekktar takmarkanir eru enn til staðar:
Langtímastöðugleiki: Eðlisfræði helst nákvæm í 5-10 sekúndur en getur skriðið yfir lengri tíma. Lengri myndbönd geta smám saman brotið varðveislulögmál.
Flókin marghlutakerfi: Þó árekstrar tveggja hluta virki vel, geta sviðsmyndir með tugum hluta í víxlverkun (eins og fallandi Jenga-turn) valdið villum.
Óvenjuleg efni: Þjálfunargagnabjögun þýðir að algeng efni (vatn, gler, málmur) hermast betur en framandi (ekki-Newtonskir vökvar, segulefni).
Öfgaaðstæður: Eðlisfræði á mjög litlum skala (sameindastærð), mjög stórum skala (stjörnufræðilegt) eða við öfgaaðstæður (nálægt ljóshraða) mistekst oft.
Nákvæmni eðlisfræðihermunar minnkar verulega fyrir myndbönd lengri en 30 sekúndur. Fyrir langt efni skaltu íhuga að nota myndbandslengingartækni með nákvæmri athygli að eðlisfræðilegum samfellu við mörk.
Afleiðingar fyrir skaparendur
Hvað þýðir bætt eðlisfræðiherming fyrir myndbandsskaparendur?
Í fyrsta lagi dregur það verulega úr þörf fyrir lagfæringar eftir framleiðslu. Sviðsmyndir sem áður kröfðust vandlegrar klippingar til að leiðrétta eðlisfræðilegar ómöguleikar myndast nú rétt í fyrsta skipti.
Í öðru lagi veitir það nýja sköpunarmöguleika. Nákvæm eðlisfræðiherming þýðir að Rube Goldberg vélar, íþróttaatriði og hasarsvið geta myndast án mikillar handvirkrar leiðréttingar.
Í þriðja lagi bætir það upplifun áhorfenda. Áhorfendur skynja ómeðvitað eðlisfræðibrot, sem gerir eðlisfræðilega nákvæm myndbönd raunsærri jafnvel þegar erfitt er að setja mismuninn í orð.
Leiðin áfram
Eðlisfræðiherming mun halda áfram að batna á nokkrum sviðum:
Lengri tímabundin samkvæmni: Núverandi líkön halda eðlisfræði í nokkrar sekúndur, framtíðarlíkön munu halda henni í mínútur.
Flóknari víxlverkanir: Sviðsmyndir með hundruðum hluta í víxlverkun verða framkvæmanlegar.
Lærðar eðlisfræðivélar: Frekar en óbein eðlisfræði úr þjálfunargögnum, gætu framtíðarlíkön innihaldið skýra eðlisfræðihermun sem íhluta.
Rauntímaeðlisfræði: Sem stendur er eðlisfræðimeðvituð myndun hæg, en hagræðing gæti gert rauntímamyndun með eðlisfræðilegri nákvæmni mögulega.
Ferðin frá fjarfluttum körfuboltum til raunsærra skopp táknar eina mikilvægustu framfarirnar í gervigreindarmyndbandagerð. Líkön hafa lært, ef ekki að skilja eðlisfræði eins og menn gera, að minnsta kosti að virða takmarkanir hennar. Fyrir skaparendur þýðir þetta færri leiðréttingar, fleiri möguleika og myndbönd sem einfaldlega finnast raunsærri.
Prófaðu sjálfur: Bonega.ai notar Veo 3, sem inniheldur háþróaða eðlisfræðihermun fyrir raunsæra hreyfifræði hluta. Búðu til sviðsmyndir með flókinni eðlisfræði og sjáðu hvernig líkanið meðhöndlar þyngdarafl, árekstra og efnisviðbrögð.
Var þessi grein gagnleg?

Alexis
GervigreindartæknirGervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.
Tengdar greinar
Haltu áfram að kanna með þessum tengdu færslum

Heimslíkön: Næsta landamæri í AI-myndbandsgerð
Hvers vegna breytingin frá ramma-gerð til heimshermunar er að endurmóta AI-myndbönd, og hvað GWM-1 frá Runway segir okkur um hvert þessi tækni stefnir.

Stöðugleiki persóna í gerviefnaaflfræðilegum myndböndum: Hvernig að halda andlitum stöðugum
Tæknileg greining á arkitektúrbreytingum sem gera kleift að viðhalda persónuleika yfir klipp, frá athygliskerfi til auðkenna sem varðveita persónuna.

AI Video Storytelling Platforms: Hvernig raðað efni breytir öllu árið 2026
Frá einstökum myndbútum til heilla seríu, AI myndband er að breytast frá myndbútakerfinu yfir í sögusögun. Kynntu þér pallana sem gera þetta mögulegt.