Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI
De DeepMind Genie a AMI Labs, els models del món es converteixen silenciosament en la fonamentació per a una IA que entén veritablement la física. El mercat de jocs de 500 mil milions de dòlars pot ser on primer es demostren.

Quan Yann LeCun va anunciar la seva sortida de Meta per a llançar AMI Labs amb 500 milions d'euros de finançament, va articular el que molts investigadors havien creït silenciosament durant anys. Els models de llenguatge grans, malgrat la seva impressionant capacitat, representen un carrer sense sortida en el camí cap a la intel·ligència artificial general. Predeixen tokens sense entendre la realitat.
Qual és l'alternativa? Models del món. Sistemes que aprenen a simular com funciona el món físic.
La Limitació Fonamental dels Models de Llenguatge
Els models del món aprenen a predir què succeeix a continuació en entorns visuals, no només quines paraules venen a continuació en text. Això requereix la comprensió de la física, la permanència dels objectes i la causalitat.
Els models de llenguatge excel·leixen en la concordança de patrons en text. Poden escriure poesia, depurar codi i mantenir converses que semblen sorprenentment humanes. Però demaneu a GPT-4 què passa quan deixeu caure una bola, i es basa en descripcions memoritzades en lloc de una veritable intuïció física.
Això importa perquè la intel·ligència, tal com l'experimentem en el món biològic, està fonamentalment arrelada en la realitat física. Un nen petit que aprèn a col·locar blocs desenvolupat una comprensió intuïtiva de la gravetat, l'equilibri i les propietats dels materials molt abans d'aprendre el llenguatge. Aquesta cognició incorporada, aquest sentit de com funciona el món, representa precisament el que els sistemes actuals d'IA no tenen.
Els models del món pretenen omplir aquesta bretxa. En lloc de predir el següent token, predixen el següent fotograma, el següent estat físic, la següent conseqüència d'una acció.
Tres Enfocaments per a la Comprensió del Món
La carrera per a construir una IA que comprengui el món s'ha dividit en tres paradigmes distints, cadascun amb fortaleses diferents.
Entrenat en conjunts de dades de vídeo massius per a aprendre la física implícita. Els exemples inclouen Sora i Veo. Bons a generar continuacions plausibles però lluiten amb escenaris interactius.
Construïu motors de física explícits i entrena IA per a navegar-los. Requereix construcció manual costosa d'entorns però ofereix precisió física precisa.
El tercer enfocament, i potser el més prometedor, combina tots dos: aprendre la dinàmica del món a partir de vídeo mantenint la capacitat d'interactuar amb i manipular l'entorn. Aquí és on els jocs es converteixen en essencials.
Jocs, el Terreny de Pràctica Perfecte
Els videojocs ofereixen quelcom únic: entorns interactius amb regles de física coherents, variació infinita i mètriques clares d'èxit. A diferència de la robòtica del mundo real, que requereix maquinari costós i presenta preocupacions de seguretat, els jocs ofereixen fracàs il·limitat sense conseqüències.
DeepMind va reconèixer aquest potencial aviat. El seu sistema Genie pot generar entorns jocables totalment nous a partir d'una sola imatge. Dona-li un esquema d'un nivell de plataforma, i crea un mundo amb regles de física coherents on els personatges poden saltar, caure i interactuar amb els objectes de manera apropada.
El que fa Genie notable no és només la generació sinó la comprensió. El sistema aprèn conceptes de física generalitzables que es transfereixen entre estils visuals diferentes i tipus de jocs. Un model entrenat en plataformes de estil Mario desenvolupa intuïcions sobre la gravetat i la col·lisió que s'apliquen per igual als jocs indie dibuixats a mà i als entorns 3D realistes.
Dels Jocs als Robots
El gasoducte de jocs a robòtica no és teòric. Les empreses ja l'utilitzen.
Buit de Simulació Identificat
La recerca mostra que els models entrenat només en simulació lluiten amb la brossa del mundo real: il·luminació variable, sensors imperfectes, objectes inesperats.
Enfocaments Híbrids Emergeixen
Els equips combinen models del mundo entrenat en jocs amb afinament limitat en el mundo real, reduint dràsticament les dades necessàries per l'entrenament de robots.
Comença el Desplegament Comercial
Els primers robots de magatzem amb columnes vertebrals de models del mundo entren en producció, manejan objectes nous sense programació explícita.
La visió que impulsa aquesta transició és simple: la física és física. Un model que realment entén com els objectes cauen, llisquen i col·lisionen en un videojoc hauria, amb una adaptació apropada, d'entendre els mateixos principis en el mundo real. L'aparença visual canvia, però la dinàmica subjacent segueix sent constant.
Tesla ha perseguit una versió d'aquesta estratègia amb els seus robots Optimus, entrenant primer en simulació antes del desplegament en entorns de fàbrica controlats. El factor limitant sempre ha estat la bretxa entre la física simulada i real. Els models del mundo entrenat en dades de vídeo diverses poden finalment salvar aquesta bretxa.
L'Aposta d'AMI Labs
La nova empresa de Yann LeCun, AMI Labs, representa la inversió única més gran en recerca de models del mundo fins ara. Amb 500 milions d'euros de finançament europeu i un equip reclutats de Meta, DeepMind i laboratoris acadèmics, persegueixen el que LeCun anomena "IA guiada per objectius."
A diferència dels LLMs que predixen tokens, l'enfocament d'AMI es centra en aprendre representacions del mundo que permeten la planificació i el raonament sobre les conseqüències físiques.
La fonamentació tècnica es construeix sobre Arquitectura de Predicció de Incrustació Conjunta, un framework que LeCun ha defensat durant anys. En lloc de generar prediccions a nivell de píxel, que requereix recursos de computació enormes, JEPA aprèn representacions abstractes que capturen l'estructura essencial dels sistemes físics.
Pensa-ho així: una persona que veu una bola rodar cap a un penya-segat no simula cada píxel de la trajectòria de la bola. En canvi, reconeixem la situació abstracta (bola, vora, gravetat) i predium l'resultat (caiguda). JEPA pretén capturar aquest raonament eficient i abstracte.
Implicacions per a la Generació de Vídeo d'IA
Aquesta trajectòria de recerca importa profundament per a les aplicacions creatives. Els generadores de vídeo d'IA actuals produeixen resultats impressionants però sofreixen per inconsistència temporal. Els personatges es transformen, la física es trenca i els objectes apareixen i desapareixen.
Els models del mundo ofereixen una solució potencial. Un generador que realment entén la física hauria de produir vídeos on els objectes obeeixen regles coherents, on els elements caiguts cauen de manera predictible, on els reflexos es comporten correctament.
Els models generen fotogrames visualment plausibles sense imposar coherència física. Funciona per a clips curts però es trenca sobre duracions més llargues.
La coherència física sorgeix de la dinàmica del mundo apresa. Els vídeos més llargs i coherents es fan possibles perquè el model manté un estat intern del mundo.
Ja veiem primers signes d'aquesta transició. GWM-1 de Runway representa la seva aposta en els models del mundo, i la simulació de física millorada de Veo 3.1 suggereix que Google està incorporant principis similars.
La Connexió AGI
Per que tota aquesta import per a la intel·ligència artificial general? Perquè la intel·ligència veritable requereix més que la manipulació del llenguatge. Requereix la comprensió de la causalitat, la predicció de les conseqüències i la planificació de les accions en un mundo físic.
Cognició Incorporada
La veritable intel·ligència pot requerir l'arrelament en la realitat física, no només els patrons estadístics en text.
Aprenentatge Interactiu
Els jocs proporcionen el terreny de proves perfecte: física rica, retroalimentació clara, iteració infinita.
Aplicació de Robòtica
Els models del mundo entrenat en jocs podrien transferir-se a la robòtica del mundo real amb una adaptació mínima.
Els investigadors que impulsen aquest treball són cautelosos a no pretendre que estan construint AGI. Però argumenten de manera convincent que sense una comprensió del mundo, no podem construir sistemes que realment pensen en lloc de simplement auto-completar.
Què Succeeix Després
Els propers dos anys seran crítics. Diversos desenvolupaments a mirar:
- ○Demostracions públiques de AMI Labs (prevista per a mitjan 2026)
- ○Integració de models del mundo en generadores de vídeo principal
- ○Empreses de motor de jocs (Unity, Unreal) afegint API de models del mundo
- ○Primers robots de consum que utilitzen models del mundo entrenat en jocs
El mercat de jocs, projectat que superarà els 500 mil milions de dòlars per al 2030, representa el terreny fèrtil per al desplegament de models del mundo. Els inversors veuen els models del mundo no només com curiositats de recerca sinó com tecnologia fonamental per a l'entreteniment interactiu, la simulació i la robòtica.
La Revolució Silenciosa
A diferència del hype explosiu al voltant de ChatGPT, la revolució dels models del mundo es desenvolupa silenciosament en laboratoris de recerca i estudis de jocs. No hi ha demos virals, no hi ha notícies diàries sobre el proper descobriment.
Però les implicacions podrien ser més profundes. Els models de llenguatge van canviar la manera com interactuem amb text. Els models del mundo podrien canviar la manera com la IA interactua amb la realitat.
Per a aquells de nosaltres que treballem en la generació de vídeo de IA, aquesta recerca representa tant una amenaça com una oportunitat. Les nostres eines actuals podrien semblar primitives en retrospectiva, com els primers CGI comparats amb els efectes visuals moderns. Però el principi subjacent, la generació de contingut visual a través de models apresos, només es farà més potent a mesura que aquests models comencen a realment entendre els mons que creen.
Lectura Addicional: Explorar com els Diffusion Transformers proporcionen la base arquitectònica per a molts models del mundo, o aprèn sobre la generació interactiva en temps real que es basa en principis de models del mundo.
El camí de la física de jocs de vídeo a la intel·ligència artificial general pot semblar tortuós. Però la intel·ligència, sigui on sigui que la trobem, sorgeix de sistemes que entenen el seu entorn i poden predir les conseqüències de les seves accions. Els jocs ens donen un lloc segur per construir i provar tals sistemes. Els robots, les eines creatives i potser una veritable comprensió de les màquines seguiran.
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

Yann LeCun Deixa Meta per Apostar 3.500 Milions de Dòlars en els World Models
El guanyador del Premi Turing llança AMI Labs, una nova startup centrada en els world models en lloc dels LLMs, amb objectius en robòtica, sanitat i comprensió de vídeo.

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real
El GWM-1 de Runway marca un canvi de paradigma des de generar vídeos fins a simular mons. Descobreix com aquest model autoregressiu crea entorns explorables, avatars fotorealistes i simulacions d'entrenament de robots.

Models de Llenguatge de Vídeo: La Nova Frontera Després dels LLM i els Agents d'IA
Els models del món estan ensenyant la IA a comprendre la realitat física, permetent que els robots planifiquin accions i simulin resultats abans de moure cap actuador.