Meta Pixel
HenryHenry
9 min read
1639 paraules

Models de Llenguatge de Vídeo: La Nova Frontera Després dels LLM i els Agents d'IA

Els models del món estan ensenyant la IA a comprendre la realitat física, permetent que els robots planifiquin accions i simulin resultats abans de moure cap actuador.

Models de Llenguatge de Vídeo: La Nova Frontera Després dels LLM i els Agents d'IA

Els grans models de llenguatge van conquerir el text. Els models de visió van dominar les imatges. Els agents d'IA van aprendre a utilitzar eines. Ara, una nova categoria està emergint que podria superar-les totes: els models de llenguatge de vídeo, o el que els investigadors anomenen cada cop més "models del món".

Hem passat els últims anys ensenyant la IA a llegir, escriure i fins i tot raonar a través de problemes complexos. Però aquí hi ha la qüestió: tot això passa en l'àmbit digital. ChatGPT pot escriure't un poema sobre caminar per un bosc, però no té ni idea de què se sent realment en passar per sobre d'un tronc caigut o ajupir-se sota una branca baixa.

Els models del món han vingut per canviar això.

Què Són els Models de Llenguatge de Vídeo?

💡

Els models de llenguatge de vídeo (VLM) processen seqüències visuals i llenguatge simultàniament, permetent que la IA comprengui no només què hi ha en un fotograma, sinó com evolucionen les escenes al llarg del temps i què podria passar després.

Pensa en ells com l'evolució dels models visió-llenguatge, però amb una addició crucial: la comprensió temporal. Mentre un VLM estàndard mira una sola imatge i respon preguntes sobre ella, un model de llenguatge de vídeo observa com es despleguen les seqüències i aprèn les regles que governen la realitat física.

Això no és només curiositat acadèmica. Les implicacions pràctiques són impressionants.

Quan un robot necessita agafar una tassa de cafè, no pot simplement reconèixer "tassa" en una imatge. Necessita comprendre:

  • Com es comporten els objectes quan els empentes o els aixeques
  • Què passa quan els líquids es mouen
  • Com els seus propis moviments afecten l'escena
  • Quines accions són físicament possibles versus impossibles

Aquí és on entren els models del món.

De la Simulació a l'Acció

🤖

Intel·ligència Física

Els models del món generen simulacions semblants a vídeos de futurs possibles, permetent que els robots "imaginin" resultats abans de comprometre's amb accions.

El concepte és elegant: en lloc de codificar regles físiques de manera fixa, entrenes la IA amb milions d'hores de vídeo que mostren com funciona realment el món. El model aprèn gravetat, fricció, permanència d'objectes i causalitat no a partir d'equacions, sinó de l'observació.

Cosmos de NVIDIA representa un dels intents més ambiciosos en aquest camp. El seu model del món propietari està dissenyat específicament per a aplicacions robòtiques, on comprendre la realitat física no és opcional. És supervivència.

Genie 3 de Google DeepMind adopta un enfocament diferent, centrant-se en la generació de mons interactius on el model es pot "jugar" com un entorn de videojoc.

Robòtica Tradicional

Regles de física codificades manualment, casos límit fràgils, matrius de sensors costoses, adaptació lenta a nous entorns

Enfocament de Models del Món

Intuïció física apresa, degradació elegant, requisits de maquinari més simples, transferència ràpida a nous escenaris

L'Experiment PAN

Investigadors de la Universitat Mohamed bin Zayed van presentar recentment PAN, un model del món general que realitza el que anomenen "experiments mentals" en simulacions controlades.

🧪

Com Funciona PAN

Utilitzant Predicció Latent Generativa (GLP) i arquitectura Causal Swin-DPM, PAN manté la coherència de l'escena durant seqüències prolongades mentre prediu resultats físicament plausibles.

La innovació clau és tractar el modelatge del món com un problema de vídeo generatiu. En lloc de programar explícitament la física, el model aprèn a generar continuacions de vídeo que respecten les lleis físiques. Quan se li dóna una escena inicial i una acció proposada, pot "imaginar" què passa després.

Això té implicacions profundes per a la robòtica. Abans que un robot humanoide estengui la mà cap a aquella tassa de cafè, pot executar centenars d'intents simulats, aprenent quins angles d'aproximació funcionen i quins acaben amb cafè al terra.

El Futur de Mil Milions de Robots

1B
Robots humanoides projectats per al 2050
3x
Creixement en inversió en IA robòtica des del 2023

Aquests no són números arbitraris trets per efecte dramàtic. Les projeccions de la indústria apunten genuïnament a un futur on els robots humanoides es tornin tan comuns com els telèfons intel·ligents. I cada un d'ells necessitarà models del món per funcionar de manera segura al costat dels humans.

Les aplicacions s'estenen més enllà dels robots humanoides:

Ara

Simulacions de Fàbrica

Entrenar treballadors en entorns virtuals abans de desplegar-los a plantes de fàbrica físiques

2025

Vehicles Autònoms

Sistemes de seguretat que prediuen escenaris d'accidents i prenen accions preventives

2026

Navegació en Magatzems

Robots que comprenen espais complexos i s'adapten a distribucions canviants

2027+

Assistents Domèstics

Robots que naveguen amb seguretat pels espais de vida humans i manipulen objectes quotidians

On la Generació de Vídeo es Troba amb la Comprensió del Món

Si has estat seguint la generació de vídeo amb IA, potser notes certa superposició aquí. Eines com Sora 2 i Veo 3 ja generen vídeo notablement realista. No són també models del món?

Sí i no.

OpenAI ha posicionat explícitament Sora com a posseïdor de capacitats de simulació del món. El model clarament entén alguna cosa sobre física. Mira qualsevol generació de Sora i veuràs il·luminació realista, moviment plausible i objectes que es comporten majoritàriament de manera correcta.

Però hi ha una diferència crucial entre generar vídeo d'aspecte plausible i comprendre veritablement la causalitat física. Els generadors de vídeo actuals estan optimitzats per al realisme visual. Els models del món estan optimitzats per a la precisió predictiva.

💡

La prova no és "sembla real això?" sinó "donada l'acció X, el model prediu correctament el resultat Y?" Això és un llistó molt més difícil de superar.

El Problema de les Al·lucinacions

Aquí hi ha la veritat incòmoda: els models del món pateixen els mateixos problemes d'al·lucinació que afecten els LLM.

Quan ChatGPT afirma amb confiança un fet fals, és molest. Quan un model del món prediu amb confiança que un robot pot travessar una paret, és perillós.

⚠️

Les al·lucinacions dels models del món en sistemes físics podrien causar danys reals. Les restriccions de seguretat i les capes de verificació són essencials abans del desplegament al costat dels humans.

Els sistemes actuals es degraden en seqüències més llargues, perdent coherència com més projecten cap al futur. Això crea una tensió fonamental: les prediccions més útils són les de llarg termini, però també són les menys fiables.

Els investigadors estan atacant aquest problema des de múltiples angles. Alguns se centren en millors dades d'entrenament. Altres treballen en innovacions arquitectòniques que mantenen la consistència de l'escena. Encara altres advoquen per enfocaments híbrids que combinen models del món apresos amb restriccions físiques explícites.

L'Avenç de Qwen 3-VL

En el costat visió-llenguatge, Qwen 3-VL d'Alibaba representa l'estat de l'art actual per a models de codi obert.

El model insígnia Qwen3-VL-235B competeix amb els principals sistemes propietaris en benchmarks multimodals que cobreixen preguntes i respostes generals, ancoratge 3D, comprensió de vídeo, OCR i comprensió de documents.

El que fa Qwen 3-VL particularment interessant són les seves capacitats "agèntiques". El model pot operar interfícies gràfiques, reconèixer elements d'UI, comprendre les seves funcions i realitzar tasques del món real a través de la invocació d'eines.

Aquest és el pont entre la comprensió i l'acció que els models del món necessiten.

Per Què Això Importa als Creadors

Si ets creador de vídeo, cineasta o animador, els models del món podrien semblar distants del teu treball diari. Però les implicacions són més properes del que penses.

Les eines de vídeo amb IA actuals lluiten amb la consistència física. Els objectes es travessen entre si. La gravetat es comporta de manera inconsistent. Causa i efecte es barregen. Tots aquests són símptomes de models que poden generar píxels realistes però no comprenen veritablement les regles físiques subjacents al que estan representant.

Els models del món entrenats amb conjunts de dades de vídeo massius podrien eventualmente retroalimentar la generació de vídeo, produint eines d'IA que respecten inherentment les lleis físiques. Imagina un generador de vídeo on no necessitis demanar "física realista" perquè el model ja sap com funciona la realitat.

💡

Lectura relacionada: Per a més informació sobre com està evolucionant la generació de vídeo, consulta el nostre article en profunditat sobre transformadors de difusió i models del món en generació de vídeo.

El Camí Cap Endavant

Els models del món representen potser l'objectiu més ambiciós en IA: ensenyar les màquines a comprendre la realitat física de la manera com ho fan els humans. No a través de programació explícita, sinó a través de l'observació, la inferència i la imaginació.

Encara som al principi. Els sistemes actuals són demostracions impressionants, no solucions llestes per a producció. Però la trajectòria és clara.

El Que Tenim Ara:

  • Coherència de seqüència limitada
  • Models específics de domini
  • Alts costos computacionals
  • Desplegaments en fase d'investigació

El Que Ve:

  • Comprensió temporal estesa
  • Models del món de propòsit general
  • Desplegament en dispositius de vora
  • Integració robòtica comercial

Les empreses que inverteixen fortament en aquest espai, NVIDIA, Google DeepMind, OpenAI i nombroses startups, estan apostant que la intel·ligència física és la pròxima frontera després de la intel·ligència digital.

Tenint en compte com de transformadors han estat els LLM per al treball basat en text, imagina l'impacte quan la IA pugui comprendre i interactuar amb el món físic amb la mateixa fluïdesa.

Aquesta és la promesa dels models de llenguatge de vídeo. Per això aquesta frontera importa.

💡

Lectura addicional: Explora com el vídeo amb IA ja està transformant els fluxos de treball creatius en la nostra cobertura sobre generació d'àudio natiu i adopció empresarial.

T'ha resultat útil aquest article?

Henry

Henry

Tecnòleg Creatiu

Tecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

Models de Llenguatge de Vídeo: La Nova Frontera Després dels LLM i els Agents d'IA