Meta Pixel
AlexisAlexis
7 min read
1291 orð

Eðlisfræðihermir í gervigreindarmyndböndum: Hvernig líkön lærðu loksins að virða raunveruleikann

Frá fjarfluttum körfuboltum til raunsærra skopp, gervigreindar myndbandslíkön skilja nú þyngdarafl, skriðþunga og efnishreyfingu. Við könnum tæknilegu byltingarnar sem gera þetta mögulegt.

Eðlisfræðihermir í gervigreindarmyndböndum: Hvernig líkön lærðu loksins að virða raunveruleikann

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Í mörg ár áttu gervigreindarmyndbönd við eðlisfræðivandamál. Körfuboltar sem misstu körfuna fjarfluttu sig inn í hana samt. Vatn flæddi upp á við. Hlutir fóru í gegnum hvern annan eins og draugar. Árið 2025 og snemma árs 2026 breyttist eitthvað. Nýjasta kynslóð myndbandslíkana hefur lært að virða grundvallarlögmál hins líkamlega heims.

Körfuboltavandamálið

OpenAI lýsti þessu nákvæmlega þegar Sora 2 var sett á markað: í fyrri líkönum, ef körfubolti missti körfuna, myndi hann einfaldlega efnast inni í netinu samt. Líkanið vissi frásagnarniðurstöðuna (bolti fer í körfu) en hafði enga hugmynd um eðlisfræðilegu takmarkanirnar sem ættu að stjórna ferðinni.

Þetta var ekki minniháttar villa. Það var einkenni grundvallar arkitektúrtakmarkana. Snemma myndbandagerðarlíkön voru frábær í sjónrænu mynstursamsvörun, þau lærðu að búa til ramma sem litu einstaklingslega trúverðugir út en héldust eðlisfræðilega ósamkvæmir þegar þeir voru skoðaðir í röð.

💡

OpenAI skráði sérstaklega "breytingu hluta" takmarkanir sem lykilván sem Sora 2 var hannað til að leysa. Þetta arkitektúrbil hafði pirrað bæði rannsakendur og skaparendur.

Þrjár stoðir eðlisfræðiskilnings

Byltingin í eðlisfræðihermingu hvílir á þremur samtengdum framförum: heimslíkönum, hugsunakeðjurökhugsun og bættum tímabundnum athyglisbúnaði.

Heimslíkön gegn ramagiskun

Hefðbundin myndbandagerð meðhöndlaði verkefnið sem raðbundna ramagiskun: gefnir ramar 1 til N, spá fyrir um ramma N+1. Þessi nálgun á í erfiðleikum með eðlisfræði vegna þess að hún hefur enga skýra framsetningu á undirliggjandi eðlisfræðiástandi.

Heimslíkön taka grundvallar ólíka nálgun. Í stað þess að spá beint fyrir um pixla, smíða þau fyrst innri framsetningu á eðlisfræðiástandi sviðsins, þar með talið staðsetningu hluta, hraða, efni og víxlverkanir. Aðeins þá gefa þau þetta ástand sem sjónræna ramma. Þessi nálgun, sem könnuð er í dýpt í heimslíkanagreiningu okkar, táknar hugmyndafræðilega breytingu í því hvernig við hugsum um myndbandagerð.

Ramagiskun

Spáir fyrir um pixla frá pixlum. Engin skýr eðlisfræði. Viðkvæm fyrir fjarflutningi, gegnumfarvillum og þyngdaraflbrotum. Hröð en eðlisfræðilega ósamkvæm.

Heimslíkön

Hermir fyrst eðlisfræðiástand. Skýr hlutarakning. Virðir varðveislulögmál og árekstrahreyfifræði. Reiknikostnaðarsamari en eðlisfræðilega grunduð.

Hugsunakeðja fyrir myndbönd

Kling O1, sem kom út seint á árinu 2025, kynnti hugsunakeðjurökhugsun í myndbandagerð. Áður en ramar eru búnir til, rökhugsar líkanið sérstaklega um hvað ætti eðlisfræðilega að gerast í sviðsmyndinni.

Fyrir sviðsmynd þar sem glas dettur af borði, rökhugsar líkanið fyrst:

  • Glas hefur upphaflegan hraða núll, staðsetningu á borðsbrún
  • Þyngdarafl flýtir glasinu niður á við með 9,8 m/s²
  • Glas snertir gólf eftir um það bil 0,45 sekúndur
  • Glasefni er stökkt, gólf er hörð yfirborð
  • Högg fer yfir brotsþröskuld, glas brotnar
  • Brot dreifist með skriðþungavarðveislu

Þetta skýra rökhugsanaskref gerist í leyndu rými líkansins áður en nokkrir pixlar eru búnir til. Niðurstaðan er myndband sem virðir ekki aðeins sjónræna fagurfræði heldur orsakakeðjur.

Tímabundin athygli í stærðargráðu

Arkitektúrgrundvöllurinn sem gerir þessar framfarir mögulegar er tímabundin athygli, búnaðurinn sem myndbandslíkön nota til að viðhalda samkvæmni milli ramma. Dreifingartransformer arkitektúran sem knýr nútíma myndbandslíkön vinnur úr myndböndum sem rúmtímaflekkjum, sem gerir athygli kleift að flæða bæði rúmlega innan ramma og tímalega yfir þá.

Nútíma myndbandslíkön vinna úr milljónum rúmtímaflekkja á hvert myndband, með sérhæfðum athyglisköllum sem eru tileinkaðir eðlisfræðilegri samkvæmni. Þessi stærðargráða gerir líkönum kleift að rekja auðkenni hluta og eðlisfræðiástand yfir hundruð ramma, og viðhalda samræmi sem var ómögulegt með fyrri arkitektúrum.

Raunverulegir eðlisfræðiviðmiðanir

Hvernig mælum við í raun gæði eðlisfræðihermunar? Sviðið hefur þróað nokkur stöðluð próf:

ViðmiðPrófarLeiðtogar
Varanleiki hlutaHlutir endast þegar huldirSora 2, Veo 3
ÞyngdaraflssamkvæmniFrjálst fall flýtir jafntKling O1, Runway Gen-4.5
ÁreksturseðlisfræðiHlutir skoppa, aflöguðust eða brotna á viðeigandi háttSora 2, Veo 3.1
VökvaflæðiVatn, reykur og dúkur hermast raunverulegaKling 2.6
SkriðþungavarðveislaHreyfing flyst rétt milli hlutaSora 2

Kling líkön hafa stöðugt skarað fram úr í vökvaflæði, með sérstaklega tilkomumikla vatnshermun og dúkeðlisfræði. Sora 2 frá OpenAI leiðir í áreksturseðlisfræði og skriðþungavarðveislu, og meðhöndlar flóknar víxlverkanir margra hluta með tilkomumikilli nákvæmni.

💡

Fyrir vatns-, reyk- og dúkhermun bjóða Kling líkön nú upp á raunsærustu eðlisfræðina. Fyrir flóknar árekstra margra hluta og íþróttasviðsmyndir er Sora 2 sterkari kosturinn.

Fimleikakappprófið

Ein mest krefjandi eðlisfræðiviðmiðin felur í sér ólympíska fimleikar. Veltandi fimleikaiðkandi fer í gegnum flókna snúningshreyfifræði: varðveisla hverfiþunga, breytilegur tregðuvægi þegar útlimir teygja og dragast saman, og nákvæm tímasetning kraftbeitingar við brottför og lendingu.

Snemma myndbandslíkön myndu búa til tilkomumikla einstaklingsramma af fimleikaiðkendum í lofti en mistókust hörmulega í eðlisfræðinni. Snúningar myndu hraða eða hægja á sér af handahófi. Lendingar myndu eiga sér stað í ómögulegum stöðum. Líkaminn myndi aflöguðust á hátt sem braut líffærafræðilegar takmarkanir.

Sora 2 benti sérstaklega á ólympíska fimleikar sem viðmið sem það meðhöndlar nú rétt. Líkanið rekur hverfiþunga fimleikaiðkandans í gegnum alla æfinguna, flýtir snúningi þegar útlimir draga sig að (íshlauparsnúningsáhrif) og hægir þegar þeir teygja sig.

Efnisskilningur

Eðlisfræðiherming nær lengra en hreyfingu til efniseiginleika. Hvernig veit líkan að gler brotnar en gúmmí skoppar? Að vatn slettist en olía safnast? Að málmur aflöguðust plastískt en tré brotnar?

Svarið liggur í þjálfunargögnunum og lærðum forsendum líkansins. Með þjálfun á milljónum myndbanda sem sýna efni í víxlverkun við heiminn, þróa líkön óbeinan efnisskilning. Gler sem dettur á steypu gefur aðra niðurstöðu en gler sem dettur á teppi, og nútíma líkön fanga þennan mismun.

🧱

Efnisflokkun

Líkön flokka nú óbeint hluti eftir efniseiginleikum: stökkt gegn seigt, teygjanleg gegn plastísk, þjappanlegt gegn óþjappanlegt.

💨

Vökvagerðir

Mismunandi seigja vökva og yfirborðsspennu eru meðhöndlaðar rétt: vatn slettist, hunang drýpur, reykur bólgnar.

🔥

Brunaviðlisfræði

Eldur og sprengingar fylgja raunsærri hitadreifingu og gashreyfifræði frekar en einföldum agnabrigðum.

Takmarkanir og jaðartilvik

Þrátt fyrir þessar framfarir er eðlisfræðiherming í gervigreindarmyndböndum enn ófullkomin. Nokkrar þekktar takmarkanir eru enn til staðar:

Langtímastöðugleiki: Eðlisfræði helst nákvæm í 5-10 sekúndur en getur skriðið yfir lengri tíma. Lengri myndbönd geta smám saman brotið varðveislulögmál.

Flókin marghlutakerfi: Þó árekstrar tveggja hluta virki vel, geta sviðsmyndir með tugum hluta í víxlverkun (eins og fallandi Jenga-turn) valdið villum.

Óvenjuleg efni: Þjálfunargagnabjögun þýðir að algeng efni (vatn, gler, málmur) hermast betur en framandi (ekki-Newtonskir vökvar, segulefni).

Öfgaaðstæður: Eðlisfræði á mjög litlum skala (sameindastærð), mjög stórum skala (stjörnufræðilegt) eða við öfgaaðstæður (nálægt ljóshraða) mistekst oft.

⚠️

Nákvæmni eðlisfræðihermunar minnkar verulega fyrir myndbönd lengri en 30 sekúndur. Fyrir langt efni skaltu íhuga að nota myndbandslengingartækni með nákvæmri athygli að eðlisfræðilegum samfellu við mörk.

Afleiðingar fyrir skaparendur

Hvað þýðir bætt eðlisfræðiherming fyrir myndbandsskaparendur?

Í fyrsta lagi dregur það verulega úr þörf fyrir lagfæringar eftir framleiðslu. Sviðsmyndir sem áður kröfðust vandlegrar klippingar til að leiðrétta eðlisfræðilegar ómöguleikar myndast nú rétt í fyrsta skipti.

Í öðru lagi veitir það nýja sköpunarmöguleika. Nákvæm eðlisfræðiherming þýðir að Rube Goldberg vélar, íþróttaatriði og hasarsvið geta myndast án mikillar handvirkrar leiðréttingar.

Í þriðja lagi bætir það upplifun áhorfenda. Áhorfendur skynja ómeðvitað eðlisfræðibrot, sem gerir eðlisfræðilega nákvæm myndbönd raunsærri jafnvel þegar erfitt er að setja mismuninn í orð.

Leiðin áfram

Eðlisfræðiherming mun halda áfram að batna á nokkrum sviðum:

Lengri tímabundin samkvæmni: Núverandi líkön halda eðlisfræði í nokkrar sekúndur, framtíðarlíkön munu halda henni í mínútur.

Flóknari víxlverkanir: Sviðsmyndir með hundruðum hluta í víxlverkun verða framkvæmanlegar.

Lærðar eðlisfræðivélar: Frekar en óbein eðlisfræði úr þjálfunargögnum, gætu framtíðarlíkön innihaldið skýra eðlisfræðihermun sem íhluta.

Rauntímaeðlisfræði: Sem stendur er eðlisfræðimeðvituð myndun hæg, en hagræðing gæti gert rauntímamyndun með eðlisfræðilegri nákvæmni mögulega.

Ferðin frá fjarfluttum körfuboltum til raunsærra skopp táknar eina mikilvægustu framfarirnar í gervigreindarmyndbandagerð. Líkön hafa lært, ef ekki að skilja eðlisfræði eins og menn gera, að minnsta kosti að virða takmarkanir hennar. Fyrir skaparendur þýðir þetta færri leiðréttingar, fleiri möguleika og myndbönd sem einfaldlega finnast raunsærri.

Prófaðu sjálfur: Bonega.ai notar Veo 3, sem inniheldur háþróaða eðlisfræðihermun fyrir raunsæra hreyfifræði hluta. Búðu til sviðsmyndir með flókinni eðlisfræði og sjáðu hvernig líkanið meðhöndlar þyngdarafl, árekstra og efnisviðbrögð.

Var þessi grein gagnleg?

Alexis

Alexis

Gervigreindartæknir

Gervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Eðlisfræðihermir í gervigreindarmyndböndum: Hvernig líkön lærðu loksins að virða raunveruleikann