Mudelli tal-Lingwa tal-Vidjo: Il-Fruntiera li Jmiss Wara LLMs u Agenti AI
Il-mudelli tad-dinja qeghdin jghallmu lill-AI biex jifhem ir-realta fizika, u b'hekk jippermettu lir-robots jippjanaw azzjonijiet u jsimmulaw rizultati qabel ma jcaqalqu anke attwatur wiehed.

Il-mudelli kbar tal-lingwa rbaħu t-test. Il-mudelli tal-viżjoni kkontrollaw l-immaġni. L-aġenti AI tgħallmu jużaw l-għodod. Issa, qiegħda toħroġ kategorija ġdida li tista' ddawwar kollox: mudelli tal-lingwa tal-vidjo, jew dak li r-riċerkaturi qegħdin isejħu dejjem aktar "mudelli tad-dinja."
Għaddejna l-aħħar ftit snin ngħallmu lill-AI jaqra, jikteb, u saħansitra jirraġuna fuq problemi kumplessi. Imma hawn hu l-punt: dan kollu jseħħ fid-dominju diġitali. ChatGPT jista' jiktiblek poeżija dwar mixi fi foresta, imma m'għandux idea x'inhu li tħoss tassew taqbeż fuq zokk ta' siġra mwaqqa' jew tbaxxxi taħt fergħa baxxa.
Il-mudelli tad-dinja qegħdin hawn biex ibiddlu dan.
X'inhuma l-Mudelli tal-Lingwa tal-Vidjo?
Il-mudelli tal-lingwa tal-vidjo (VLMs) jipproċessaw kemm sekwenzi viżwali kif ukoll lingwa fl-istess ħin, u b'hekk jippermettu lill-AI jifhem mhux biss x'hemm ġo kwadru, imma kif ix-xeni jevolvew maż-żmien u x'jista' jiġri wara.
Aħseb fihom bħala l-evoluzzjoni tal-mudelli viżjoni-lingwa, imma b'żieda kruċjali: fehim temporali. Fejn VLM standard iħares lejn immaġni waħda u jwieġeb mistoqsijiet dwarha, mudell tal-lingwa tal-vidjo josserva sekwenzi jiżviluppaw u jitgħallem ir-regoli li jiggvernaw ir-realta fiżika.
Dan mhux biss kurżita akkademika. L-implikazzjonijiet prattiċi huma enormi.
Meta robot ikollu bżonn jaqbad tazza tal-kafè, ma jistax sempliċiment jagħraf "tazza" f'immaġni. Irid jifhem:
- ✓Kif l-oġġetti jġibu ruħhom meta jitimbxu jew jintrefgħu
- ✓X'jiġri meta l-likwidi jċaqalqu
- ✓Kif il-movimenti tiegħu stess jaffettwaw ix-xena
- ✓Liema azzjonijiet huma possibbli kontra impossibbli
Hawn fejn jidħlu l-mudelli tad-dinja.
Mis-Simulazzjoni għall-Azzjoni
Intelliġenza Fiżika
Il-mudelli tad-dinja jiġġeneraw simulazzjonijiet bħal vidjo ta' futuri possibbli, u jħallu lir-robots "jimmaġinaw" riżultati qabel ma jimpenjaw ruħhom għal azzjonijiet.
Il-kunċett hu eleganti: minflok tikkowdja regoli fiżiċi b'mod iffissat, tħarreġ l-AI fuq miljuni ta' sigħat ta' vidjo li juru kif id-dinja taħdem tassew. Il-mudell jitgħallem il-gravita, il-frizzjoni, il-permanenza tal-oġġetti, u l-kawżalita mhux minn ekwazzjonijiet, imma mill-osservazzjoni.
Cosmos ta' NVIDIA tirrappreżenta waħda mill-aktar tentattivi ambizzjużi f'dan. Il-mudell tad-dinja propjetarju tagħhom hu ddisinjat speċifikament għal applikazzjonijiet ta' robotika, fejn il-fehim tar-realta fiżika mhux fakultattiv. Hu essenzjali.
Genie 3 ta' Google DeepMind tieħu approċċ differenti, u tiffoka fuq ġenerazzjoni tad-dinja interattiva fejn il-mudell jista' "jintlagħab" bħal ambjent ta' logħba tal-vidjo.
Regoli fiżiċi kkodifikati bl-idejn, każijiet ta' tarf fraġili, arrays ta' sensors għalja, adattament bil-mod għal ambjenti ġodda
Intuwizzjoni fiżika mitgħallma, degradazzjoni grazzjuża, rekwiżiti ta' hardware aktar sempliċi, trasferiment mgħaġġel għal xenarji ġodda
L-Esperiment PAN
Riċerkaturi fl-Universita Mohamed bin Zayed żvelaw riċentement PAN, mudell tad-dinja ġenerali li jwettaq dak li jsejħu "esperimenti tal-ħsieb" f'simulazzjonijiet ikkontrollati.
Kif Jaħdem PAN
Billi juża Generative Latent Prediction (GLP) u arkitettura Causal Swin-DPM, PAN iżomm il-koerenza tax-xena fuq sekwenzi estiżi filwaqt li jbassar riżultati fiżikament plawżibbli.
L-innovazzjoni ewlenija hi li tittratta l-mudellazzjoni tad-dinja bħala problema ta' vidjo ġenerattiv. Minflok tipprogramma l-fiżika b'mod espliċitu, il-mudell jitgħallem jiġġenera kontinwazzjonijiet ta' vidjo li jirrispettaw il-liġijiet fiżiċi. Meta jingħata xena tal-bidu u azzjoni proposta, jista' "jimmaġina" x'jiġri wara.
Dan għandu implikazzjonijiet profondi għar-robotika. Qabel ma robot umanojde jilħaq dik it-tazza tal-kafè, jista' jħaddem mijiet ta' tentattivi ssimulati, u jitgħallem liema angoli ta' approċċ jaħdmu u liema jispiċċaw bil-kafè fuq l-art.
Il-Futur ta' Biljun Robot
Dawn mhumiex numri arbitrarji miġbudin għal effett drammatiku. Il-projezzjonijiet tal-industrija tassew jindikaw futur fejn ir-robots umanojdi jsiru komuni daqs l-ismartphones. U kull wieħed minnhom se jkollu bżonn mudelli tad-dinja biex jiffunzjona b'mod sigur ħdejn il-bnedmin.
L-applikazzjonijiet jestendu lil hinn mir-robots umanojdi:
Simulazzjonijiet tal-Fabbrika
Taħriġ tal-ħaddiema f'ambjenti virtwali qabel ma jiġu skjerati għall-art tal-fabbrika fiżika
Vetturi Awtonomużi
Sistemi tas-sigurta li jbassru xenarji ta' inċidenti u jieħdu azzjoni preventiva
Navigazzjoni tal-Maħżen
Robots li jifhmu spazji kumplessi u jadattaw għal layouts li jinbidlu
Assistenti tad-Dar
Robots li jinnavigaw b'mod sigur fi spazji tal-għajxien uman u jimmanipolaw oġġetti ta' kuljum
Fejn il-Ġenerazzjoni tal-Vidjo Tiltaqa' mal-Fehim tad-Dinja
Jekk kont qed issegwi l-ġenerazzjoni tal-vidjo bl-AI, tista' tinnota xi sovrapożizzjoni hawn. Għodod bħal Sora 2 u Veo 3 diġa jiġġeneraw vidjo notevolment realistiku. Mhumiex mudelli tad-dinja wkoll?
Iva u le.
OpenAI pożizzjonat b'mod espliċitu lil Sora bħala li għandha kapaċitajiet ta' simulazzjoni tad-dinja. Il-mudell b'mod ċar jifhem xi ħaġa dwar il-fiżika. Ħares lejn kwalunkwe ġenerazzjoni ta' Sora u se tara dawl realistiku, moviment plawżibbli, u oġġetti li jġibu ruħhom ġeneralment b'mod korrett.
Imma hemm differenza kruċjali bejn li tiġġenera vidjo li jidher plawżibbli u li tifhem tassew il-kawżalita fiżika. Il-ġeneraturi tal-vidjo attwali huma ottimizzati għar-realiżmu viżwali. Il-mudelli tad-dinja huma ottimizzati għall-preċiżjoni predittiva.
It-test mhux "dan jidher reali?" imma "jekk tingħata l-azzjoni X, il-mudell ibbassar b'mod korrett ir-riżultat Y?" Dik hi stanga ferm aktar diffiċli biex tilħaq.
Il-Problema tal-Alluċinazzjoni
Hawn hi l-verita skomda: il-mudelli tad-dinja jbatu mill-istess problemi ta' alluċinazzjoni li jaffettwaw lil-LLMs.
Meta ChatGPT jiddikjara b'kunfidenza fatt falz, hu irritanti. Meta mudell tad-dinja jbassar b'kunfidenza li robot jista' jimxi minn ġol-ħajt, hu perikoluż.
L-alluċinazzjonijiet tal-mudelli tad-dinja f'sistemi fiżiċi jistgħu jikkawżaw ħsara reali. Restrizzjonijiet tas-sigurta u saffi ta' verifika huma essenzjali qabel l-iskjerament ħdejn il-bnedmin.
Is-sistemi attwali jiddegradaw fuq sekwenzi itwal, u jitilfu l-koerenza aktar ma jipprojettaw 'il quddiem fil-futur. Dan joħloq tensjoni fundamentali: il-previżjonijiet l-aktar utli huma dawk fit-tul, imma huma wkoll l-inqas affidabbli.
Ir-riċerkaturi qegħdin jattakkaw din il-problema minn diversi angoli. Xi wħud jiffokaw fuq data ta' taħriġ aħjar. Oħrajn jaħdmu fuq innovazzjonijiet arkitettoniċi li jżommu l-konsistenza tax-xena. Oħrajn għadhom jsostnu approċċi ibridi li jikkombinaw mudelli tad-dinja mitgħallma ma' restrizzjonijiet fiżiċi espliċiti.
Il-Breakthrough ta' Qwen 3-VL
Fuq in-naħa tal-viżjoni-lingwa, Qwen 3-VL ta' Alibaba tirrappreżenta l-aqwa stat tal-arti attwali għal mudelli open-source.
Il-mudell flagship Qwen3-VL-235B tikkompeti ma' sistemi propjetarji ewlenin fuq benchmarks multimodali li jkopru Q&A ġenerali, grounding 3D, fehim tal-vidjo, OCR, u fehim tad-dokumenti.
Dak li jagħmel lil Qwen 3-VL partikolarment interessanti huma l-kapaċitajiet "aġentiċi" tagħha. Il-mudell jista' jopera interfaces grafiċi, jagħraf elementi tal-UI, jifhem il-funzjonijiet tagħhom, u jwettaq kompiti tad-dinja reali permezz ta' invokazzjoni tal-għodod.
Din hi l-pont bejn il-fehim u l-azzjoni li l-mudelli tad-dinja jeħtieġu.
Għaliex Dan Jinteressa lill-Kreaturi
Jekk int kreatur tal-vidjo, filmmaker, jew animatur, il-mudelli tad-dinja jistgħu jidhru mbiegħda mix-xogħol tiegħek ta' kuljum. Imma l-implikazzjonijiet huma eqreb milli taħseb.
L-għodod attwali tal-vidjo bl-AI jbatu biex iżommu konsistenza fiżika. L-oġġetti jgħaddu minn xulxin. Il-gravita taġixxi b'mod inkonsistenti. Il-kawża u l-effett jitħawdu. Dawn kollha huma sintomi ta' mudelli li jistgħu jiġġeneraw pixels realistiċi imma ma jifhmux tassew ir-regoli fiżiċi li hemm taħt dak li qegħdin jiddepinġu.
Mudelli tad-dinja mħarrġa fuq datasets massivi ta' vidjo jistgħu eventwalment jinfirxu lura fil-ġenerazzjoni tal-vidjo, u jipproduċu għodod tal-AI li jirrispettaw b'mod inerenti l-liġijiet fiżiċi. Immaġina ġeneratur tal-vidjo fejn m'għandekx bżonn titlob "fiżika realistika" għaliex il-mudell diġa jaf kif taħdem ir-realta.
Qari relatat: Għal aktar dwar kif qiegħda tevolvi l-ġenerazzjoni tal-vidjo, ara l-analiżi profonda tagħna dwar diffusion transformers u mudelli tad-dinja fil-ġenerazzjoni tal-vidjo.
It-Triq 'il Quddiem
Il-mudelli tad-dinja jirrappreżentaw forsi l-aktar għan ambizzjuż fl-AI: li ngħallmu lill-magni jifhmu r-realta fiżika kif jagħmlu l-bnedmin. Mhux permezz ta' programmazzjoni espliċita, imma permezz ta' osservazzjoni, inferenza, u immaġinazzjoni.
Għadna kmieni. Is-sistemi attwali huma dimostrazzjonijiet impressjonanti, mhux soluzzjonijiet lesti għall-produzzjoni. Imma t-trajettorja hi ċara.
X'Għandna Issa:
- Koerenza tas-sekwenzi limitata
- Mudelli speċifiċi għad-dominju
- Spejjeż komputazzjonali għolja
- Skjeramenti f'fażi ta' riċerka
X'Qiegħed Jiġi:
- Fehim temporali estiż
- Mudelli tad-dinja ġenerali
- Skjerament fuq tagħmir tal-edge
- Integrazzjoni kummerċjali tar-robotika
Il-kumpaniji li qegħdin jinvestu ħafna f'dan l-ispazju, NVIDIA, Google DeepMind, OpenAI, u bosta startups, qegħdin jimmarkaw li l-intelliġenza fiżika hi l-fruntiera li jmiss wara l-intelliġenza diġitali.
Jekk tikkunsidra kemm kienu trasformattivi l-LLMs għax-xogħol ibbażat fuq it-test, immaġina l-impatt meta l-AI tkun tista' tifhem u tinteraġixxi mad-dinja fiżika bl-istess fluwenza.
Din hi l-wegħda tal-mudelli tal-lingwa tal-vidjo. Għalhekk din il-fruntiera hi importanti.
Qari ulterjuri: Esplora kif il-vidjo bl-AI diġa qiegħed jittrasforma l-workflows kreattivi fil-kopertura tagħna dwar ġenerazzjoni ta' awdjo nattiva u adozzjoni mill-intrapriżi.
Dan l-artiklu kien utli?

Henry
Teknoloġist KreattivTeknoloġist kreattiv minn Lausanne jesplora fejn l-AI tiltaqa' mal-arti. Jespermenta b'mudelli ġenerattivi bejn sessjonijiet ta' mużika elettronika.
Artikli Relatati
Kompli esplora b'dawn il-postijiet relatati

Runway GWM-1: Il-Mudell Dinji Ġenerali li Jissimula r-Realtà f'Ħin Reali
Il-GWM-1 ta' Runway jimarka bidla paradiġmatika mill-ġenerazzjoni ta' videos għas-simulazzjoni ta' dinjiet. Esplora kif dan il-mudell awtoregressiv joħloq ambjenti esplorabbli, avatars fotorealistiċi u simulazzjonijiet ta' taħriġ għar-robots.

World Models: Il-Fruntiera Li Jmiss fil-Ġenerazzjoni tal-Vidjow AI
Għaliex il-bidla mill-ġenerazzjoni tal-frames għas-simulazzjoni tad-dinja qed terġa' tifforma l-vidjow AI, u x'qed jgħidilna l-GWM-1 ta' Runway dwar fejn sejra din it-teknoloġija.

YouTube Iġib Veo 3 Fast għal Shorts: Ġenerazzjoni ta' Video bl-IA B'xejn għal 2.5 Biljun Utent
Google tintegra l-mudell Veo 3 Fast direttament f'YouTube Shorts, toffri ġenerazzjoni ta' video mit-test għall-awdjo b'xejn għall-kreaturi madwar id-dinja. Dan hu x'ifisser għall-pjattaforma u l-aċċessibbiltà tal-video bl-IA.