Meta Pixel
HenryHenry
7 min read
1262 orð

Heimslíkön: Næsta landamæri í AI-myndbandsgerð

Hvers vegna breytingin frá ramma-gerð til heimshermunar er að endurmóta AI-myndbönd, og hvað GWM-1 frá Runway segir okkur um hvert þessi tækni stefnir.

Heimslíkön: Næsta landamæri í AI-myndbandsgerð

Í mörg ár hefur AI-myndbandsgerð þýtt að spá fyrir um pixla ramma fyrir ramma. Nú er iðnaðurinn að snúa sér að einhverju mun metnaðarfyllra: að herma heilar heimsbyggðir. Útgáfa Runway á GWM-1 markar upphaf þessarar breytingar og afleiðingarnar eru djúpstæðar.

Frá römmum til heima

Hefðbundin myndbandsgerðarlíkön virka eins og vandaðir flipbókalistarar. Þau spá fyrir um hvernig næsti rammi ætti að líta út byggð á þeim fyrri, stýrt af textaskilaboðunum þínum. Það virkar, en það hefur grundvallartak markanir.

💡

Rammaforspá veit hvernig eldur lítur út. Heimslíkan veit hvað eldur gerir: hann breiðist út, hann eyðir eldsneyti, hann kastar dansandi skuggum og sendir frá sér hita sem afmyndar loftið fyrir ofan.

Heimslíkön taka aðra nálgun. Í stað þess að spyrja "hvernig ætti næsti rammi að líta út?", spyrja þau "hvernig hegðar þetta umhverfi sér?" Munurinn hljómar lúmskur en hann breytir öllu.

Þegar þú biður rammaforspá að búa til bolta sem rúllar niður brekku, nálgast hún hvað það gæti litið út eins og byggð á þjálfunargögnum. Þegar þú biður heimslíkan um það sama, hermir það eðlisfræðina: þyngdarkraftur flýtir boltanum, núningur við grasið hægir á honum, skriðþungi ber hann upp gagnstæða hlíðina.

Hvað GWM-1 frá Runway gerir í raun

Runway gaf út GWM-1 (General World Model 1) í desember 2025 og það táknar fyrsta opinbera skref þeirra inn í heimshermunar. Líkanið skapar það sem þeir kalla "kvikt hermiumhverfi", kerfi sem skilja ekki bara hvernig hlutir líta út heldur hvernig þeir þróast með tímanum.

1,247
Elo Score (Gen-4.5)
#1
Video Arena Ranking
100
Runway Team Size

Tímasetningin skiptir máli. Þessi útgáfa kom samhliða því að Gen-4.5 náði #1 á Video Arena og ýtti OpenAI Sora 2 niður í 4. sæti. Þetta eru ekki ótengd afrek. Umbætur Gen-4.5 í eðlisfræðilegri nákvæmni, þar sem hlutir hreyfast með raunhæfu þyngd, skriðþunga og krafti, stafa líklega frá heimslíkanarannsóknum sem upplýsa arkitektúr þess.

🌍

Rammaforspá vs heimshermun

Rammaforspá: "Bolti á grasi" → mynsturpörun frá þjálfunargögnum. Heimshermun: "Bolti á grasi" → eðlisfræðivél ákvarðar ferli, núning, hopp.

Af hverju þetta breytir öllu

1. Eðlisfræði sem virkar í raun

Núverandi myndböndslíkön eiga í erfiðleikum með eðlisfræði vegna þess að þau hafa aðeins séð eðlisfræði, aldrei upplifað hana. Þau vita að fallið hlut fellur, en þau nálgast ferilinn frekar en að reikna hann. Heimslíkön snúa þessu sambandi við.

Rammaforspá

Nálgast eðlisfræði frá sjónmynstri. Biljarðbolti gæti rúllað í gegnum annan bolta vegna þess að líkanið lærði aldrei stífa líkama árekstur.

Heimshermun

Hermir eðlisfræðireglur. Árekstursgreining, skriðþungaflutningur og núningur eru reiknaðir, ekki giskaðir.

Þetta er ástæðan fyrir því að eðlisfræðihermingar Sora 2 vöktu athygli fólks: OpenAI fjárfesti miklu í eðlisfræðilegum skilningi. Heimslíkön formfesta þessa nálgun.

2. Tímabundin samræmi án bragða

Stærsti sársaukapunkturinn í AI-myndböndum hefur verið stöðugleiki yfir tíma. Persónur breyta útliti, hlutir flytjast strax, umhverfi breytast handahófskennt. Við höfum kannað hvernig líkön eru að læra að muna andlit í gegnum arkitektúrnýjungar eins og kross-rammaathygli.

Heimslíkön bjóða upp á glæsilegri lausn: ef hermunin rekur einingar sem viðvarandi hluti í sýndarrými, geta þeir ekki handahófskennt breyst eða horfið. Boltinn er til í hermuðum heimi. Hann hefur eiginleika (stærð, litur, staðsetning, hraði) sem vara við þar til eitthvað í hermuninni breytir þeim.

3. Lengri myndbönd verða möguleg

Núverandi líkön rýrna með tímanum. Tvíátta dreifing CraftStory ýtir í átt að 5 mínútna myndböndum með því að láta síðari ramma hafa áhrif á fyrri. Heimslíkön nálgast sama vandamálið öðruvísi: ef hermunin er stöðug geturðu keyrt hana eins lengi og þú vilt.

2024

Sekúndur

Staðlað AI-myndband: 4-8 sekúndur áður en gæði hrynja

Snemma 2025

Mínútur

Sérhæfðar aðferðir gera 1-5 mínútna myndbönd möguleik

Seint 2025

Ótakmarkað?

Heimslíkön aftengja lengd frá arkitektúr

Aflinn (það er alltaf afli)

Heimslíkön hljóma eins og lausnin á öllum myndbandsgerðarvandamálum. Þau eru það ekki, að minnsta kosti ekki ennþá.

⚠️

Raunveruleikaskoðun: Núverandi heimslíkön herma stílseraða eðlisfræði, ekki nákvæma eðlisfræði. Þau skilja að fallnir hlutir falla, ekki nákvæmar hreyfijöfnur.

Útreiknakostnaður

Að herma heim er dýrt. Rammaforspá getur keyrt á neytenda-GPU þökk sé vinnu frá verkefnum eins og LTX-2. Heimshermun krefst þess að viðhalda ástandi, rekja hluti, keyra eðlisfræðiútreikninga. Þetta ýtir vélbúnaðarkröfum verulega upp.

Að læra heimsreglur er erfitt

Að kenna líkani hvað hlutir líta út er einfalt: sýna því milljónir dæma. Að kenna líkani hvernig heimurinn virkar er óljósara. Eðlisfræði er hægt að læra úr myndböndsgögnum, en aðeins að vissu marki. Líkanið sér að fallnir hlutir falla, en það getur ekki leitt þyngdarfastar af því að horfa á upptökur.

Blönduð framtíð: Flestir vísindamenn búast við að heimslíkön sameini lærðar eðlisfræðinálganir með skýrum hermunarreglum og fái það besta úr báðum aðferðum.

Spurningar um skapandi stjórn

Ef líkanið hermir eðlisfræði, hver ákveður hvaða eðlisfræði? Stundum viltu raunhæfa þyngdarafl. Stundum viltu að persónurnar þínar svífi. Heimslíkön þurfa leiðir til að hnekkja hermunum sínum þegar höfundar vilja óraunhæfar niðurstöður.

Hvert iðnaðurinn er á leið

Runway er ekki einn í þessari átt. Arkitektúrpappírarnir á bak við dreifingabreytendur hafa gefið vísbendingu um þetta breyting í mánuði. Spurningin var alltaf hvenær, ekki hvort.

Gerist nú þegar

  • Runway GWM-1 gefið út
  • Gen-4.5 sýnir eðlisfræðiupplýsta gerð
  • Rannsóknarpappírar fjölga sér
  • Snemma aðgangsáætlanir fyrirtækja

Kemur fljótlega

  • Opinn uppspretta heimslíkanaútfærslur
  • Blenduð rammi/heims arkitektúr
  • Sérhæfð heimslíkön (eðlisfræði, líffræði, veður)
  • Rauntíma heimshermun

Áhugi fyrirtækja er marktækur. Runway gaf snemma aðgang að Ubisoft, Disney hefur fjárfest milljarð dollara með OpenAI fyrir Sora samþættingu. Þetta eru ekki fyrirtæki sem hafa áhuga á að búa til hraða samfélagsmiðlklippur. Þau vilja AI sem getur hermt leikjaumhverfi, búið til samkvæmar hreyfimyndaðar persónur, framleitt efni sem stenst faglega athugun.

Hvað þetta þýðir fyrir höfunda

  • Myndbandasamræmi mun batna verulega
  • Eðlisfræðiþungt efni verður framkvæmanlegt
  • Lengri myndbandagerðir án gæðahrunar
  • Kostnaður verður upphaflega hærri en rammaforspá
  • Skapandi stjórnkerfi eru enn að þróast

Ef þú ert að framleiða AI-myndband í dag eru heimslíkön ekki eitthvað sem þú þarft að taka upp strax. En þau eru eitthvað til að fylgjast með. Samanburðurinn á milli Sora 2, Runway og Veo 3 sem við gáfum út fyrr á árinu mun þurfa uppfærslu eftir því sem heimslíkanahæfileikar rúlla út á þessum kerfum.

Til hagnýtrar notkunar núna skipta munurinn máli fyrir ákveðin notkunartilvik:

  • Vörusýning: Heimslíkön munu skara fram úr hér. Nákvæm eðlisfræði fyrir hluti sem hafa samskipti við hvern annan.
  • Abstrakt list: Rammaforspá gæti í raun verið æskilegri. Þú vilt óvæntar sjónrænar niðurstöður, ekki hermuðan veruleika.
  • Persónuhreyfimynd: Heimslíkön ásamt auðkennis-viðhaldsaðferðum gætu loksins leyst samkvæmnivandamálið.

Stærri myndin

Heimslíkön tákna að AI-myndband sé að þroskast. Rammaforspá var nægjanlegt til að búa til stutta klippur, sjónrænar nýjungar, sönnunargögn. Heimshermun er það sem þú þarft fyrir raunverulegt framleiðslustarf, þar sem efni verður að vera samkvæmt, eðlisfræðilega trúverðugt og útvíkkanlegt.

💡

Haltu sjónarhorni: Við erum á GWM-1 stiginu, jafngilda GPT-1 fyrir heimshermunar. Bilið á milli þessa og GWM-4 verður gríðarlegt, alveg eins og bilið á milli GPT-1 og GPT-4 umbreytti tungumála-AI.

Að Runway slái Google og OpenAI á viðmiðum með 100 manna liði segir okkur eitthvað mikilvægt: rétta arkitektúrnálgunin skiptir meira máli en auðlindir. Heimslíkön gætu verið sú nálgun. Ef veðmál Runway borgar sig munu þeir hafa skilgreint næstu kynslóð myndbandsgerðar-AI.

Og ef eðlisfræðihermingar verða nógu góðar? Við erum ekki bara að búa til myndbönd lengur. Við erum að byggja sýndarheima, eina hermunar í einu.

💡

Tengt lesefni: Fyrir meira um tæknilega grundvöll sem gerir þessa breytingu mögulega, sjá djúpa köfun okkar í dreifingabreytendur. Fyrir núverandi tólssamanburði, skoðaðu Sora 2 vs Runway vs Veo 3.

Var þessi grein gagnleg?

Henry

Henry

Skapandi tæknimaður

Skapandi tæknimaður frá Lausanne sem kannar þar sem gervigreind hittir listir. Tilraunir með framleiðandi líkön á milli rafeindatónleikaþátta.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Heimslíkön: Næsta landamæri í AI-myndbandsgerð