Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI

La següent revolució en la intel·ligència artificial no vindrà dels models de llenguatge. Vindrà dels sistemes que entenen el món físic, i el primer camp de batalla no és les laboratoris de recerca sinó els videojocs.

Quan Yann LeCun va anunciar la seva sortida de Meta per a llançar AMI Labs amb 500 milions d'euros de finançament, va articular el que molts investigadors havien creït silenciosament durant anys. Els models de llenguatge grans, malgrat la seva impressionant capacitat, representen un carrer sense sortida en el camí cap a la intel·ligència artificial general. Predeixen tokens sense entendre la realitat.

Qual és l'alternativa? Models del món. Sistemes que aprenen a simular com funciona el món físic.

La Limitació Fonamental dels Models de Llenguatge

💡

Els models del món aprenen a predir què succeeix a continuació en entorns visuals, no només quines paraules venen a continuació en text. Això requereix la comprensió de la física, la permanència dels objectes i la causalitat.

Els models de llenguatge excel·leixen en la concordança de patrons en text. Poden escriure poesia, depurar codi i mantenir converses que semblen sorprenentment humanes. Però demaneu a GPT-4 què passa quan deixeu caure una bola, i es basa en descripcions memoritzades en lloc de una veritable intuïció física.

Això importa perquè la intel·ligència, tal com l'experimentem en el món biològic, està fonamentalment arrelada en la realitat física. Un nen petit que aprèn a col·locar blocs desenvolupat una comprensió intuïtiva de la gravetat, l'equilibri i les propietats dels materials molt abans d'aprendre el llenguatge. Aquesta cognició incorporada, aquest sentit de com funciona el món, representa precisament el que els sistemes actuals d'IA no tenen.

Els models del món pretenen omplir aquesta bretxa. En lloc de predir el següent token, predixen el següent fotograma, el següent estat físic, la següent conseqüència d'una acció.

Tres Enfocaments per a la Comprensió del Món

La carrera per a construir una IA que comprengui el món s'ha dividit en tres paradigmes distints, cadascun amb fortaleses diferents.

✓Models de Predicció de Vídeo

Entrenat en conjunts de dades de vídeo massius per a aprendre la física implícita. Els exemples inclouen Sora i Veo. Bons a generar continuacions plausibles però lluiten amb escenaris interactius.

✗Models Basats en Simulació

Construïu motors de física explícits i entrena IA per a navegar-los. Requereix construcció manual costosa d'entorns però ofereix precisió física precisa.

El tercer enfocament, i potser el més prometedor, combina tots dos: aprendre la dinàmica del món a partir de vídeo mantenint la capacitat d'interactuar amb i manipular l'entorn. Aquí és on els jocs es converteixen en essencials.

Jocs, el Terreny de Pràctica Perfecte

Els videojocs ofereixen quelcom únic: entorns interactius amb regles de física coherents, variació infinita i mètriques clares d'èxit. A diferència de la robòtica del mundo real, que requereix maquinari costós i presenta preocupacions de seguretat, els jocs ofereixen fracàs il·limitat sense conseqüències.

$500B+

Mercat de jocs fins al 2030

€500M

Finançament de AMI Labs

12%

Taxa de creixement anual

DeepMind va reconèixer aquest potencial aviat. El seu sistema Genie pot generar entorns jocables totalment nous a partir d'una sola imatge. Dona-li un esquema d'un nivell de plataforma, i crea un mundo amb regles de física coherents on els personatges poden saltar, caure i interactuar amb els objectes de manera apropada.

El que fa Genie notable no és només la generació sinó la comprensió. El sistema aprèn conceptes de física generalitzables que es transfereixen entre estils visuals diferentes i tipus de jocs. Un model entrenat en plataformes de estil Mario desenvolupa intuïcions sobre la gravetat i la col·lisió que s'apliquen per igual als jocs indie dibuixats a mà i als entorns 3D realistes.

Dels Jocs als Robots

El gasoducte de jocs a robòtica no és teòric. Les empreses ja l'utilitzen.

2024

Buit de Simulació Identificat

La recerca mostra que els models entrenat només en simulació lluiten amb la brossa del mundo real: il·luminació variable, sensors imperfectes, objectes inesperats.

2025

Enfocaments Híbrids Emergeixen

Els equips combinen models del mundo entrenat en jocs amb afinament limitat en el mundo real, reduint dràsticament les dades necessàries per l'entrenament de robots.

2026

Comença el Desplegament Comercial

Els primers robots de magatzem amb columnes vertebrals de models del mundo entren en producció, manejan objectes nous sense programació explícita.

La visió que impulsa aquesta transició és simple: la física és física. Un model que realment entén com els objectes cauen, llisquen i col·lisionen en un videojoc hauria, amb una adaptació apropada, d'entendre els mateixos principis en el mundo real. L'aparença visual canvia, però la dinàmica subjacent segueix sent constant.

Tesla ha perseguit una versió d'aquesta estratègia amb els seus robots Optimus, entrenant primer en simulació antes del desplegament en entorns de fàbrica controlats. El factor limitant sempre ha estat la bretxa entre la física simulada i real. Els models del mundo entrenat en dades de vídeo diverses poden finalment salvar aquesta bretxa.

L'Aposta d'AMI Labs

La nova empresa de Yann LeCun, AMI Labs, representa la inversió única més gran en recerca de models del mundo fins ara. Amb 500 milions d'euros de finançament europeu i un equip reclutats de Meta, DeepMind i laboratoris acadèmics, persegueixen el que LeCun anomena "IA guiada per objectius."

💡

A diferència dels LLMs que predixen tokens, l'enfocament d'AMI es centra en aprendre representacions del mundo que permeten la planificació i el raonament sobre les conseqüències físiques.

La fonamentació tècnica es construeix sobre Arquitectura de Predicció de Incrustació Conjunta, un framework que LeCun ha defensat durant anys. En lloc de generar prediccions a nivell de píxel, que requereix recursos de computació enormes, JEPA aprèn representacions abstractes que capturen l'estructura essencial dels sistemes físics.

Pensa-ho així: una persona que veu una bola rodar cap a un penya-segat no simula cada píxel de la trajectòria de la bola. En canvi, reconeixem la situació abstracta (bola, vora, gravetat) i predium l'resultat (caiguda). JEPA pretén capturar aquest raonament eficient i abstracte.

Implicacions per a la Generació de Vídeo d'IA

Aquesta trajectòria de recerca importa profundament per a les aplicacions creatives. Els generadores de vídeo d'IA actuals produeixen resultats impressionants però sofreixen per inconsistència temporal. Els personatges es transformen, la física es trenca i els objectes apareixen i desapareixen.

Els models del mundo ofereixen una solució potencial. Un generador que realment entén la física hauria de produir vídeos on els objectes obeeixen regles coherents, on els elements caiguts cauen de manera predictible, on els reflexos es comporten correctament.

✗Estat Actual

Els models generen fotogrames visualment plausibles sense imposar coherència física. Funciona per a clips curts però es trenca sobre duracions més llargues.

✓Futur del Model del Mundo

La coherència física sorgeix de la dinàmica del mundo apresa. Els vídeos més llargs i coherents es fan possibles perquè el model manté un estat intern del mundo.

Ja veiem primers signes d'aquesta transició. GWM-1 de Runway representa la seva aposta en els models del mundo, i la simulació de física millorada de Veo 3.1 suggereix que Google està incorporant principis similars.

La Connexió AGI

Per que tota aquesta import per a la intel·ligència artificial general? Perquè la intel·ligència veritable requereix més que la manipulació del llenguatge. Requereix la comprensió de la causalitat, la predicció de les conseqüències i la planificació de les accions en un mundo físic.

🧠

Cognició Incorporada

La veritable intel·ligència pot requerir l'arrelament en la realitat física, no només els patrons estadístics en text.

🎮

Aprenentatge Interactiu

Els jocs proporcionen el terreny de proves perfecte: física rica, retroalimentació clara, iteració infinita.

🤖

Aplicació de Robòtica

Els models del mundo entrenat en jocs podrien transferir-se a la robòtica del mundo real amb una adaptació mínima.

Els investigadors que impulsen aquest treball són cautelosos a no pretendre que estan construint AGI. Però argumenten de manera convincent que sense una comprensió del mundo, no podem construir sistemes que realment pensen en lloc de simplement auto-completar.

Què Succeeix Després

Els propers dos anys seran crítics. Diversos desenvolupaments a mirar:

○Demostracions públiques de AMI Labs (prevista per a mitjan 2026)
○Integració de models del mundo en generadores de vídeo principal
○Empreses de motor de jocs (Unity, Unreal) afegint API de models del mundo
○Primers robots de consum que utilitzen models del mundo entrenat en jocs

El mercat de jocs, projectat que superarà els 500 mil milions de dòlars per al 2030, representa el terreny fèrtil per al desplegament de models del mundo. Els inversors veuen els models del mundo no només com curiositats de recerca sinó com tecnologia fonamental per a l'entreteniment interactiu, la simulació i la robòtica.

La Revolució Silenciosa

A diferència del hype explosiu al voltant de ChatGPT, la revolució dels models del mundo es desenvolupa silenciosament en laboratoris de recerca i estudis de jocs. No hi ha demos virals, no hi ha notícies diàries sobre el proper descobriment.

Però les implicacions podrien ser més profundes. Els models de llenguatge van canviar la manera com interactuem amb text. Els models del mundo podrien canviar la manera com la IA interactua amb la realitat.

Per a aquells de nosaltres que treballem en la generació de vídeo de IA, aquesta recerca representa tant una amenaça com una oportunitat. Les nostres eines actuals podrien semblar primitives en retrospectiva, com els primers CGI comparats amb els efectes visuals moderns. Però el principi subjacent, la generació de contingut visual a través de models apresos, només es farà més potent a mesura que aquests models comencen a realment entendre els mons que creen.

💡

Lectura Addicional: Explorar com els Diffusion Transformers proporcionen la base arquitectònica per a molts models del mundo, o aprèn sobre la generació interactiva en temps real que es basa en principis de models del mundo.

El camí de la física de jocs de vídeo a la intel·ligència artificial general pot semblar tortuós. Però la intel·ligència, sigui on sigui que la trobem, sorgeix de sistemes que entenen el seu entorn i poden predir les conseqüències de les seves accions. Els jocs ens donen un lloc segur per construir i provar tals sistemes. Els robots, les eines creatives i potser una veritable comprensió de les màquines seguiran.

Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI

La Limitació Fonamental dels Models de Llenguatge

Tres Enfocaments per a la Comprensió del Món

Jocs, el Terreny de Pràctica Perfecte

Dels Jocs als Robots

Buit de Simulació Identificat

Enfocaments Híbrids Emergeixen

Comença el Desplegament Comercial

L'Aposta d'AMI Labs

Implicacions per a la Generació de Vídeo d'IA

La Connexió AGI

Cognició Incorporada

Aprenentatge Interactiu

Aplicació de Robòtica

Què Succeeix Després

La Revolució Silenciosa

Alexis

Like what you read?

Articles relacionats

Yann LeCun Deixa Meta per Apostar 3.500 Milions de Dòlars en els World Models

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real

Models de Llenguatge de Vídeo: La Nova Frontera Després dels LLM i els Agents d'IA

T'ha agradat aquest article?