Myndbandslengdarlikan: Naesti arangur eftir LLM og gervigreppahjalpara

Stor tungumalalikan sigrudu texta. Sjónlikan nadum tökum a myndum. Gervigreppahjalpara laerdu ad nota verkfaeri. Nu er ny flokkun ad spretta upp sem gaeti dvergad allt hitt: myndbandstungumalalikan, eda thad sem rannsakendur kalla i auknum maeli "heimslikan."

Við höfum eytt sidustu arum i ad kenna gervigreind ad lesa, skrifa og jafnvel rökraeda i gegnum flókin vandamal. En hérna er hluturinn: allt thetta gerist a stafraenu sviði. ChatGPT getur skrifad thaer ljoð um göngutúr i gegnum skóg, en thad hefur enga hugmynd um hvad thad i raun finnst ad stíga yfir fallinn trjástofn eda lúta undir lágri grein.

Heimslikan eru komin til ad breyta thessu.

Hvad eru myndbandstungumalalikan?

💡

Myndbandstungumalalikan (VLM) vinna úr badi sjónraenum rödum og tungumali samtímis, sem gerir gervigreind kleift ad skilja ekki bara hvad er í ramma, heldur hvernig atburdarasir throskast med tímanum og hvad gaeti gerist naest.

Hugsa um thau sem throun sjóntungumalalíkana, en med mikilvagri vidbót: tímaskilning. Thar sem venjulegt VLM horfir a eina mynd og svarar spurningum um hana, athuga myndbandstungumalalikan hvernig adraedarasir throskast og laera reglurnar sem stýra efnislegum veruleika.

Thetta er ekki bara fredinleg forvitni. Verkleg ahrif eru stórkostleg.

Thegar vélmenni tharf ad taka upp kaffibolla getur thad ekki bara thekkt "bolla" í mynd. Thad tharf ad skilja:

✓Hvernig hlutir hegda sér thegar ýtt er a tha eda lyft
✓Hvad gerist thegar vökvar skola
✓Hvernig eigin hreyfingar thess hafa ahrif a adraedarasina
✓Hvaða adgerdir eru mögulegar a moti ómögulegum

Thetta er thar sem heimslikan koma inn.

Fra hermun til adgerda

🤖

Efnisleg greind

Heimslikan bua til hermun líkt og myndbönd af mogulegum framtiðum, sem gerir vélmennum kleift ad "imynda sér" nidurstödur adur en thau skuldbinda sig til adgerda.

Hugmyndin er glaesileg: í stad thess ad harðkóda efnislegar reglur, thjalfar thu gervigreind a milljónum klukktíma af myndböndum sem sýna hvernig heimurinn virkar í raun. Likanið laeri thyngdarafl, núning, hlutvaranlega og orsakasamband, ekki úr jöfnum, heldur úr athugun.

Cosmos fra NVIDIA taknast eina af metnadarlegustu tilraunum vid thetta. Sérstakt heimslikan theirra er hannað sérstaklega fyrir vélmennaforrit, thar sem skilningur á efnislegum veruleika er ekki valkostur. Thetta er afgjöf.

Genie 3 fra Google DeepMind tekur adra nadgun og leggur aerslu a gagnvirka heimsgerð thar sem haegt er ad "spila" likanid eins og tölvuleikjaumhverfi.

✗Hefðbundin vélmenni

Handkódadar edlisfraeðireglur, viðkvaemar jaðartilvik, dýrar skynjararadir, haegt adlögun ad nýjum umhverfum

✓Heimslíkananadgun

Laerd efnisleg innsaei, viðeigandi skerðing, einfaldari vélbunaðarkröfur, öra yfirfaerslu a nýjar aðstaeður

PAN tilraunin

Rannsakendur vid Mohamed bin Zayed háskólann afhjúpuðu nýlega PAN, almennt heimslikan sem framkvaemir thad sem thau kalla "hugsunatilraunir" í stýrðum hermunum.

🧪

Hvernig PAN virkar

Med Generative Latent Prediction (GLP) og Causal Swin-DPM arkitektúr heldur PAN samraemi atburðarasa yfir lengri radir a meðan thad spair efnislega sennilegum niðurstöðum.

Lykilnýjung er ad meðhöndla heimslíkanagerð sem myndgerðarvandamál. Í staðinn fyrir ad forrita efnisfraedi beinlínis, laeri líkanið ad búa til myndbandsframhald sem virða efnislegar reglur. Thegar gefin er upphafssena og fyrirhugaðar adgerðir, getur thad "imynda sér" hvað gerist næst.

Thetta hefur djúpstaed ahrif a vélmenni. Aður en vélmenni teygir sig eftir kaffibollanum getur thad keyrt hundruð hermdra tilrauna og laert hvaða nadgunarhorn virka og hver enda med kaffi a gólfinu.

Milljarðs vélmenna framtíð

Spáð mannlíkum vélmennum fyrir 2050

Vöxtur í vélmenni gervigreind fjárfestingu síðan 2023

Þetta eru ekki handahófskenndar tölur dregnar fram til dramatísks ahrifa. Spár idnadarins benda virkilega á framtíð thar sem mannlík vélmenni verða jafn algeng og snjallsímar. Og hvert einstakt theirra mun thurfa heimslikan til ad virka örugglega vid hlið manna.

Notkun teygist lengra en mannlík vélmenni:

Nú

Verksmiðjuhermun

Thjalfun starfsmanna í sýndarumhverfi aður en thau eru send a efnisleg verksmiðjugólf

2025

Sjálfakandi ökutaeki

Öryggiskerfi sem spa slysaadraedarösum og grípa til forvarnaadgerða

2026

Vöruhúsasiglingar

Vélmenni sem skilja flókin rými og adlagast breyttum skipulagi

2027+

Heimilisaðstoðarmenn

Vélmenni sem sigla örugglega í mannlegum búseturýmum og handleika daglega hluti

Thar sem myndbandsgerð maetir heimskilningi

Ef thú hefur fylgst med gervigreind myndbandsgerð gaetir thú tekid eftir nokkurri skörun hér. Verkfaeri eins og Sora 2 og Veo 3 búa nú thegar til merkilega raunsaejan myndband. Eru thau ekki líka heimslikan?

Já og nei.

OpenAI hefur beinlínis staðsett Sora sem ad hafa heimshermunargetu. Líkanið skilur greinilega eitthvað um eðlisfræði. Horfðu á hverja Sora myndun og þú munt sjá raunhaefa lýsingu, sennilegar hreyfingar og hluti sem hegda sér mest rétt.

En thad er mikilvægur munur á ad bua til myndband sem lítur sennilega út og ad skilja virkilega efnislega orsakasambandið. Núverandi myndbandsgerðarforrit eru hagrædd fyrir sjónraent raunsæi. Heimslikan eru hagrædd fyrir spánaukvæmni.

💡

Profið er ekki "lítur thetta raunverulega út?" heldur "miðað við aðgerð X, spair líkanið rétt niðurstöðu Y?" Thad er mun erfiðari mælikvarði að ná.

Ofskynjanarvandamalið

Hér er óþægilegur sannleikur: heimslíkön þjást af sömu ofskynjanavandamálum og hrjá LLM.

Þegar ChatGPT fullyrðir rangar staðreyndir af öryggi, er þad pirrandi. Þegar heimslíkan spair af öryggi að vélmenni geti gengið í gegnum vegg, er þad hættulegt.

⚠️

Ofskynjun heimslíkana í efnislegum kerfum gæti valdið raunverulegum skaða. Öryggistakmarkanir og sannprófunarlög eru nauðsynleg fyrir notkun við hlið manna.

Núverandi kerfi skerðast yfir lengri raðir og missa samræmi því lengra sem þau spá inn í framtíðina. Þetta skapar grundvallar spennu: gagnlegustu spárnar eru langtíma, en þær eru líka minnst áreiðanlegar.

Rannsakendur ráðast á þetta vandamál frá mörgum sjónarhornum. Sumir leggja áherslu á betri þjálfunargögn. Aðrir vinna að arkitektúrnýjungum sem halda samræmi atburðarasa. Enn aðrir tala fyrir blönduðum aðferðum sem sameina lærð heimslíkön og skýrar efnislegar takmarkanir.

Qwen 3-VL bylting

Á sjóntungumálahlið táknar Qwen 3-VL frá Alibaba núverandi nýjustu greiningu fyrir opna frumkóða líkön.

Flaggskip Qwen3-VL-235B líkanið keppir við leiðandi sérlíkön þvert á marglaga viðmið sem ná yfir almenn spurningar og svör, 3D grundvöllun, myndbandsskilning, sjónrænan textalestrar og skjalaskilning.

Það sem gerir Qwen 3-VL sérstaklega áhugavert eru "umboðsgetu" þess. Líkanið getur stjórnað grafískum viðmótum, þekkt UI-þætti, skilið virkni þeirra og framkvæmt raunverulegar verkefni með verkfæraköllun.

Þetta er brúin milli skilnings og aðgerða sem heimslíkön þurfa.

Af hverju þetta skiptir höfunda máli

Ef þú ert myndbandsgerðarmaður, kvikmyndagerðarmaður eda hreyfimyndahöfundur, gætu heimslíkön virst fjarlæg þínu daglega starfi. En afleiðingarnar eru nær en þú heldur.

Núverandi gervigreind myndbandsverkfæri eiga í erfiðleikum með efnislegt samræmi. Hlutir fara í gegnum hvorn annan. Þyngdarafl hegðar sér ósamræmi. Orsök og afleiðing blandast saman. Þetta eru allt einkenni líkana sem geta búið til raunsæja pixla en skilja ekki virkilega efnislegar reglur sem liggja að baki þess sem þau sýna.

Heimslíkön þjálfuð á gríðarlegum myndbandsgögnum gætu að lokum fóðrað til baka í myndbandsgerð, sem framleiðir gervigreindarverkfæri sem virða efnislegar reglur. Ímyndaðu þér myndbandsgerðartæki þar sem þú þarft ekki að biðja um "raunhæfa eðlisfræði" vegna þess að líkanið veit nú þegar hvernig veruleikinn virkar.

💡

Tengd lesning: Fyrir meira um hvernig myndbandsgerð þróast, sjáðu djúpa köfun okkar á diffusion transformers og heimslíkön í myndbandsgerð.

Leiðin áfram

Heimslíkön tákna kannski metnaðarfyllsta markmið í gervigreind: að kenna vélum að skilja efnislegan veruleika á sama hátt og menn. Ekki með skýrri forritun, heldur með athugun, ályktun og ímyndunarafli.

Við erum enn á byrjunarstigi. Núverandi kerfi eru glæsileg sýningar, ekki framleiðslutilbúin lausn. En stefnan er skýr.

Það sem við höfum núna:

Takmarkað raðasamræmi
Lénsértæk líkön
Hár reiknikostnaður
Rannsóknarstigsuppsetningar

Það sem er að koma:

Lengri tímaskilningur
Almenn heimslíkön
Uppsetning á jaðartækjum
Viðskiptaleg vélmennasamþætting

Fyrirtækin sem fjárfesta mikið á þessu sviði, NVIDIA, Google DeepMind, OpenAI og fjölmörg sprotafyrirtæki, veðja á að efnisleg greind sé næsti áfangi eftir stafræna greind.

Miðað við hversu umbreytandi LLM hafa verið fyrir textamiðað starf, ímyndaðu þér áhrifin þegar gervigreind getur skilið og haft samskipti við efnislegan heim jafn reiprennandi.

Þetta er fyrirheit myndbandstungumálalíkana. Þetta er ástæðan fyrir því að þessi landamæri skipta máli.

💡

Frekari lesning: Kannaðu hvernig gervigreind myndband er nú þegar að umbreyta skapandi verkferlum í umfjöllun okkar um innfædda hljóðgerð og ættleiðingu fyrirtækja.