Mudelli tal-Lingwa tal-Vidjo: Il-Fruntiera li Jmiss Wara LLMs u Agenti AI

Il-mudelli kbar tal-lingwa rbaħu t-test. Il-mudelli tal-viżjoni kkontrollaw l-immaġni. L-aġenti AI tgħallmu jużaw l-għodod. Issa, qiegħda toħroġ kategorija ġdida li tista' ddawwar kollox: mudelli tal-lingwa tal-vidjo, jew dak li r-riċerkaturi qegħdin isejħu dejjem aktar "mudelli tad-dinja."

Għaddejna l-aħħar ftit snin ngħallmu lill-AI jaqra, jikteb, u saħansitra jirraġuna fuq problemi kumplessi. Imma hawn hu l-punt: dan kollu jseħħ fid-dominju diġitali. ChatGPT jista' jiktiblek poeżija dwar mixi fi foresta, imma m'għandux idea x'inhu li tħoss tassew taqbeż fuq zokk ta' siġra mwaqqa' jew tbaxxxi taħt fergħa baxxa.

Il-mudelli tad-dinja qegħdin hawn biex ibiddlu dan.

X'inhuma l-Mudelli tal-Lingwa tal-Vidjo?

💡

Il-mudelli tal-lingwa tal-vidjo (VLMs) jipproċessaw kemm sekwenzi viżwali kif ukoll lingwa fl-istess ħin, u b'hekk jippermettu lill-AI jifhem mhux biss x'hemm ġo kwadru, imma kif ix-xeni jevolvew maż-żmien u x'jista' jiġri wara.

Aħseb fihom bħala l-evoluzzjoni tal-mudelli viżjoni-lingwa, imma b'żieda kruċjali: fehim temporali. Fejn VLM standard iħares lejn immaġni waħda u jwieġeb mistoqsijiet dwarha, mudell tal-lingwa tal-vidjo josserva sekwenzi jiżviluppaw u jitgħallem ir-regoli li jiggvernaw ir-realta fiżika.

Dan mhux biss kurżita akkademika. L-implikazzjonijiet prattiċi huma enormi.

Meta robot ikollu bżonn jaqbad tazza tal-kafè, ma jistax sempliċiment jagħraf "tazza" f'immaġni. Irid jifhem:

✓Kif l-oġġetti jġibu ruħhom meta jitimbxu jew jintrefgħu
✓X'jiġri meta l-likwidi jċaqalqu
✓Kif il-movimenti tiegħu stess jaffettwaw ix-xena
✓Liema azzjonijiet huma possibbli kontra impossibbli

Hawn fejn jidħlu l-mudelli tad-dinja.

Mis-Simulazzjoni għall-Azzjoni

🤖

Intelliġenza Fiżika

Il-mudelli tad-dinja jiġġeneraw simulazzjonijiet bħal vidjo ta' futuri possibbli, u jħallu lir-robots "jimmaġinaw" riżultati qabel ma jimpenjaw ruħhom għal azzjonijiet.

Il-kunċett hu eleganti: minflok tikkowdja regoli fiżiċi b'mod iffissat, tħarreġ l-AI fuq miljuni ta' sigħat ta' vidjo li juru kif id-dinja taħdem tassew. Il-mudell jitgħallem il-gravita, il-frizzjoni, il-permanenza tal-oġġetti, u l-kawżalita mhux minn ekwazzjonijiet, imma mill-osservazzjoni.

Cosmos ta' NVIDIA tirrappreżenta waħda mill-aktar tentattivi ambizzjużi f'dan. Il-mudell tad-dinja propjetarju tagħhom hu ddisinjat speċifikament għal applikazzjonijiet ta' robotika, fejn il-fehim tar-realta fiżika mhux fakultattiv. Hu essenzjali.

Genie 3 ta' Google DeepMind tieħu approċċ differenti, u tiffoka fuq ġenerazzjoni tad-dinja interattiva fejn il-mudell jista' "jintlagħab" bħal ambjent ta' logħba tal-vidjo.

✗Robotika Tradizzjonali

Regoli fiżiċi kkodifikati bl-idejn, każijiet ta' tarf fraġili, arrays ta' sensors għalja, adattament bil-mod għal ambjenti ġodda

✓Approċċ tal-Mudell tad-Dinja

Intuwizzjoni fiżika mitgħallma, degradazzjoni grazzjuża, rekwiżiti ta' hardware aktar sempliċi, trasferiment mgħaġġel għal xenarji ġodda

L-Esperiment PAN

Riċerkaturi fl-Universita Mohamed bin Zayed żvelaw riċentement PAN, mudell tad-dinja ġenerali li jwettaq dak li jsejħu "esperimenti tal-ħsieb" f'simulazzjonijiet ikkontrollati.

🧪

Kif Jaħdem PAN

Billi juża Generative Latent Prediction (GLP) u arkitettura Causal Swin-DPM, PAN iżomm il-koerenza tax-xena fuq sekwenzi estiżi filwaqt li jbassar riżultati fiżikament plawżibbli.

L-innovazzjoni ewlenija hi li tittratta l-mudellazzjoni tad-dinja bħala problema ta' vidjo ġenerattiv. Minflok tipprogramma l-fiżika b'mod espliċitu, il-mudell jitgħallem jiġġenera kontinwazzjonijiet ta' vidjo li jirrispettaw il-liġijiet fiżiċi. Meta jingħata xena tal-bidu u azzjoni proposta, jista' "jimmaġina" x'jiġri wara.

Dan għandu implikazzjonijiet profondi għar-robotika. Qabel ma robot umanojde jilħaq dik it-tazza tal-kafè, jista' jħaddem mijiet ta' tentattivi ssimulati, u jitgħallem liema angoli ta' approċċ jaħdmu u liema jispiċċaw bil-kafè fuq l-art.

Il-Futur ta' Biljun Robot

Robots umanojdi pprojettati sal-2050

Tkabbir fl-investiment tal-AI tar-robotika mill-2023

Dawn mhumiex numri arbitrarji miġbudin għal effett drammatiku. Il-projezzjonijiet tal-industrija tassew jindikaw futur fejn ir-robots umanojdi jsiru komuni daqs l-ismartphones. U kull wieħed minnhom se jkollu bżonn mudelli tad-dinja biex jiffunzjona b'mod sigur ħdejn il-bnedmin.

L-applikazzjonijiet jestendu lil hinn mir-robots umanojdi:

Issa

Simulazzjonijiet tal-Fabbrika

Taħriġ tal-ħaddiema f'ambjenti virtwali qabel ma jiġu skjerati għall-art tal-fabbrika fiżika

2025

Vetturi Awtonomużi

Sistemi tas-sigurta li jbassru xenarji ta' inċidenti u jieħdu azzjoni preventiva

2026

Navigazzjoni tal-Maħżen

Robots li jifhmu spazji kumplessi u jadattaw għal layouts li jinbidlu

2027+

Assistenti tad-Dar

Robots li jinnavigaw b'mod sigur fi spazji tal-għajxien uman u jimmanipolaw oġġetti ta' kuljum

Fejn il-Ġenerazzjoni tal-Vidjo Tiltaqa' mal-Fehim tad-Dinja

Jekk kont qed issegwi l-ġenerazzjoni tal-vidjo bl-AI, tista' tinnota xi sovrapożizzjoni hawn. Għodod bħal Sora 2 u Veo 3 diġa jiġġeneraw vidjo notevolment realistiku. Mhumiex mudelli tad-dinja wkoll?

Iva u le.

OpenAI pożizzjonat b'mod espliċitu lil Sora bħala li għandha kapaċitajiet ta' simulazzjoni tad-dinja. Il-mudell b'mod ċar jifhem xi ħaġa dwar il-fiżika. Ħares lejn kwalunkwe ġenerazzjoni ta' Sora u se tara dawl realistiku, moviment plawżibbli, u oġġetti li jġibu ruħhom ġeneralment b'mod korrett.

Imma hemm differenza kruċjali bejn li tiġġenera vidjo li jidher plawżibbli u li tifhem tassew il-kawżalita fiżika. Il-ġeneraturi tal-vidjo attwali huma ottimizzati għar-realiżmu viżwali. Il-mudelli tad-dinja huma ottimizzati għall-preċiżjoni predittiva.

💡

It-test mhux "dan jidher reali?" imma "jekk tingħata l-azzjoni X, il-mudell ibbassar b'mod korrett ir-riżultat Y?" Dik hi stanga ferm aktar diffiċli biex tilħaq.

Il-Problema tal-Alluċinazzjoni

Hawn hi l-verita skomda: il-mudelli tad-dinja jbatu mill-istess problemi ta' alluċinazzjoni li jaffettwaw lil-LLMs.

Meta ChatGPT jiddikjara b'kunfidenza fatt falz, hu irritanti. Meta mudell tad-dinja jbassar b'kunfidenza li robot jista' jimxi minn ġol-ħajt, hu perikoluż.

⚠️

L-alluċinazzjonijiet tal-mudelli tad-dinja f'sistemi fiżiċi jistgħu jikkawżaw ħsara reali. Restrizzjonijiet tas-sigurta u saffi ta' verifika huma essenzjali qabel l-iskjerament ħdejn il-bnedmin.

Is-sistemi attwali jiddegradaw fuq sekwenzi itwal, u jitilfu l-koerenza aktar ma jipprojettaw 'il quddiem fil-futur. Dan joħloq tensjoni fundamentali: il-previżjonijiet l-aktar utli huma dawk fit-tul, imma huma wkoll l-inqas affidabbli.

Ir-riċerkaturi qegħdin jattakkaw din il-problema minn diversi angoli. Xi wħud jiffokaw fuq data ta' taħriġ aħjar. Oħrajn jaħdmu fuq innovazzjonijiet arkitettoniċi li jżommu l-konsistenza tax-xena. Oħrajn għadhom jsostnu approċċi ibridi li jikkombinaw mudelli tad-dinja mitgħallma ma' restrizzjonijiet fiżiċi espliċiti.

Il-Breakthrough ta' Qwen 3-VL

Fuq in-naħa tal-viżjoni-lingwa, Qwen 3-VL ta' Alibaba tirrappreżenta l-aqwa stat tal-arti attwali għal mudelli open-source.

Il-mudell flagship Qwen3-VL-235B tikkompeti ma' sistemi propjetarji ewlenin fuq benchmarks multimodali li jkopru Q&A ġenerali, grounding 3D, fehim tal-vidjo, OCR, u fehim tad-dokumenti.

Dak li jagħmel lil Qwen 3-VL partikolarment interessanti huma l-kapaċitajiet "aġentiċi" tagħha. Il-mudell jista' jopera interfaces grafiċi, jagħraf elementi tal-UI, jifhem il-funzjonijiet tagħhom, u jwettaq kompiti tad-dinja reali permezz ta' invokazzjoni tal-għodod.

Din hi l-pont bejn il-fehim u l-azzjoni li l-mudelli tad-dinja jeħtieġu.

Għaliex Dan Jinteressa lill-Kreaturi

Jekk int kreatur tal-vidjo, filmmaker, jew animatur, il-mudelli tad-dinja jistgħu jidhru mbiegħda mix-xogħol tiegħek ta' kuljum. Imma l-implikazzjonijiet huma eqreb milli taħseb.

L-għodod attwali tal-vidjo bl-AI jbatu biex iżommu konsistenza fiżika. L-oġġetti jgħaddu minn xulxin. Il-gravita taġixxi b'mod inkonsistenti. Il-kawża u l-effett jitħawdu. Dawn kollha huma sintomi ta' mudelli li jistgħu jiġġeneraw pixels realistiċi imma ma jifhmux tassew ir-regoli fiżiċi li hemm taħt dak li qegħdin jiddepinġu.

Mudelli tad-dinja mħarrġa fuq datasets massivi ta' vidjo jistgħu eventwalment jinfirxu lura fil-ġenerazzjoni tal-vidjo, u jipproduċu għodod tal-AI li jirrispettaw b'mod inerenti l-liġijiet fiżiċi. Immaġina ġeneratur tal-vidjo fejn m'għandekx bżonn titlob "fiżika realistika" għaliex il-mudell diġa jaf kif taħdem ir-realta.

💡

Qari relatat: Għal aktar dwar kif qiegħda tevolvi l-ġenerazzjoni tal-vidjo, ara l-analiżi profonda tagħna dwar diffusion transformers u mudelli tad-dinja fil-ġenerazzjoni tal-vidjo.

It-Triq 'il Quddiem

Il-mudelli tad-dinja jirrappreżentaw forsi l-aktar għan ambizzjuż fl-AI: li ngħallmu lill-magni jifhmu r-realta fiżika kif jagħmlu l-bnedmin. Mhux permezz ta' programmazzjoni espliċita, imma permezz ta' osservazzjoni, inferenza, u immaġinazzjoni.

Għadna kmieni. Is-sistemi attwali huma dimostrazzjonijiet impressjonanti, mhux soluzzjonijiet lesti għall-produzzjoni. Imma t-trajettorja hi ċara.

X'Għandna Issa:

Koerenza tas-sekwenzi limitata
Mudelli speċifiċi għad-dominju
Spejjeż komputazzjonali għolja
Skjeramenti f'fażi ta' riċerka

X'Qiegħed Jiġi:

Fehim temporali estiż
Mudelli tad-dinja ġenerali
Skjerament fuq tagħmir tal-edge
Integrazzjoni kummerċjali tar-robotika

Il-kumpaniji li qegħdin jinvestu ħafna f'dan l-ispazju, NVIDIA, Google DeepMind, OpenAI, u bosta startups, qegħdin jimmarkaw li l-intelliġenza fiżika hi l-fruntiera li jmiss wara l-intelliġenza diġitali.

Jekk tikkunsidra kemm kienu trasformattivi l-LLMs għax-xogħol ibbażat fuq it-test, immaġina l-impatt meta l-AI tkun tista' tifhem u tinteraġixxi mad-dinja fiżika bl-istess fluwenza.

Din hi l-wegħda tal-mudelli tal-lingwa tal-vidjo. Għalhekk din il-fruntiera hi importanti.

💡

Qari ulterjuri: Esplora kif il-vidjo bl-AI diġa qiegħed jittrasforma l-workflows kreattivi fil-kopertura tagħna dwar ġenerazzjoni ta' awdjo nattiva u adozzjoni mill-intrapriżi.