Models del món: La propera frontera en generació de vídeo amb IA
Per què el canvi de generació de fotogrames a simulació de mons està remodelant el vídeo amb IA, i què ens diu el GWM-1 de Runway sobre on va aquesta tecnologia.

Durant anys, la generació de vídeo amb IA significava predir píxels fotograma a fotograma. Ara, la indústria està pivotant cap a alguna cosa molt més ambiciosa: simular mons sencers. El llançament de GWM-1 per part de Runway marca el començament d'aquest canvi, i les implicacions són profundes.
De fotogrames a mons
Els models tradicionals de generació de vídeo funcionen com sofisticats artistes de flip-book. Prediu com hauria de ser el següent fotograma basant-se en els anteriors, guiats pel teu prompt de text. Funciona, però té limitacions fonamentals.
Un predictor de fotogrames sap com es veu el foc. Un model del món sap el que el foc fa: es propaga, consumeix combustible, projecta ombres que ballen i emet calor que deforma l'aire sobre seu.
Els models del món prenen un enfocament diferent. En lloc de preguntar "com hauria de ser el següent fotograma?", pregunten "com es comporta aquest entorn?" La distinció sona subtil, però ho canvia tot.
Quan dius a un predictor de fotogrames que generi una pilota rodant per un turó, aproxima com podria ser això basant-se en dades d'entrenament. Quan dius al model del món el mateix, simula la física: la gravetat accelera la pilota, la fricció amb l'herba la frena, l'impuls la porta amunt del pendent oposat.
Què fa realment el GWM-1 de Runway
Runway va llançar GWM-1 (General World Model 1) al desembre de 2025, i representa el seu primer pas públic cap a la simulació de mons. El model crea el que anomenen "entorns de simulació dinàmica", sistemes que entenen no només com es veuen les coses sinó com evolucionen al llarg del temps.
El timing importa. Aquest llançament va arribar juntament amb Gen-4.5 arribant al #1 a Video Arena, empenyent OpenAI Sora 2 a la 4a posició. Aquests no són assoliments no relacionats. Les millores de Gen-4.5 en precisió física, on els objectes es mouen amb pes, impuls i força realistes, probablement provenen de la investigació de models del món informant la seva arquitectura.
Predicció de fotogrames vs simulació de mons
Predicció de fotogrames: "Una pilota sobre herba" → concordança de patrons a partir de dades d'entrenament. Simulació de mons: "Una pilota sobre herba" → motor de física determina trajectòria, fricció, rebот.
Per què això ho canvia tot
1. Física que realment funciona
Els models actuals de vídeo tenen dificultats amb la física perquè només han vist física, mai l'han experimentat. Saben que un objecte deixat cau, però aproximen la trajectòria en lloc de calcular-la. Els models del món inverteixen aquesta relació.
Aproxima física a partir de patrons visuals. Una bola de billar podria rodar a través d'una altra pilota perquè el model mai va aprendre col·lisió de cos rígid.
Simula regles de física. La detecció de col·lisions, transferència d'impuls i fricció es calculen, no s'endevinen.
Per això les simulacions de física de Sora 2 van impressionar la gent: OpenAI va invertir molt en comprensió física. Els models del món formalitzen aquest enfocament.
2. Coherència temporal sense trucs
El punt de dolor més gran en vídeo amb IA ha estat la consistència al llarg del temps. Els personatges canvien d'aparença, els objectes es teletransporten, els entorns canvien aleatòriament. Hem explorat com els models estan aprenent a recordar cares mitjançant innovacions arquitectòniques com l'atenció entre fotogrames.
Els models del món ofereixen una solució més elegant: si la simulació segueix entitats com objectes persistents en un espai virtual, no poden canviar aleatòriament o desaparèixer. La pilota existeix al món simulat. Té propietats (mida, color, posició, velocitat) que persisteixen fins que alguna cosa a la simulació les canvia.
3. Els vídeos més llargs es fan possibles
Els models actuals es degraden al llarg del temps. La difusió bidireccional de CraftStory empeny cap a vídeos de 5 minuts permetent que fotogrames posteriors influencien els anteriors. Els models del món aborden el mateix problema de manera diferent: si la simulació és estable, pots executar-la tant de temps com vulguis.
Segons
Vídeo estàndard amb IA: 4-8 segons abans del col·lapse de qualitat
Minuts
Tècniques especialitzades permeten vídeos d'1-5 minuts
Il·limitat?
Els models del món desacoblen la durada de l'arquitectura
L'inconvenient (sempre hi ha un inconvenient)
Els models del món sonen com la solució a cada problema de generació de vídeo. No ho són, almenys encara no.
Comprovació de realitat: Els models del món actuals simulen física estilitzada, no física precisa. Entenen que les coses deixades cauen, no les equacions exactes de moviment.
Cost computacional
Simular un món és costós. La predicció de fotogrames pot executar-se en GPU de consumidor gràcies al treball de projectes com LTX-2. La simulació de mons requereix mantenir l'estat, seguir objectes, executar càlculs de física. Això empeny els requisits de maquinari significativament.
Aprendre regles del món és difícil
Ensenyar a un model com es veuen les coses és directe: mostra-li milions d'exemples. Ensenyar a un model com funciona el món és més obscur. La física es pot aprendre de dades de vídeo, però només fins a cert punt. El model veu que els objectes deixats cauen, però no pot derivar constants gravitacionals de mirar metratge.
El futur híbrid: La majoria d'investigadors esperen que els models del món combinin aproximacions de física apreses amb regles de simulació explícites, obtenint el millor dels dos enfocaments.
Qüestions de control creatiu
Si el model està simulant física, qui decideix quina física? De vegades vols gravetat realista. De vegades vols que els teus personatges floten. Els models del món necessiten mecanismes per anul·lar les seves simulacions quan els creadors volen resultats poc realistes.
Cap on va la indústria
Runway no està sol en aquesta direcció. Els documents d'arquitectura darrere dels transformadors de difusió han estat suggerint aquest canvi durant mesos. La qüestió sempre va ser quan, no si.
Ja està passant
- Runway GWM-1 llançat
- Gen-4.5 mostra generació informada per física
- Documents de recerca proliferant
- Programes d'accés primerenc empresarial
Properament
- Implementacions de models del món de codi obert
- Arquitectures híbrides fotograma/món
- Models del món especialitzats (física, biologia, temps)
- Simulació de mons en temps real
L'interès empresarial és revelador. Runway va donar accés primerenc a Ubisoft, Disney ha invertit mil milions de dòlars amb OpenAI per a la integració de Sora. Aquestes no són empreses interessades en generar clips ràpids de xarxes socials. Volen IA que pugui simular entorns de joc, generar personatges animats consistents, produir contingut que aguanti l'escrutini professional.
Què significa això per als creadors
- ✓La consistència de vídeo millorarà dràsticament
- ✓El contingut pesat en física es fa viable
- ✓Generacions més llargues sense col·lapse de qualitat
- ○Els costos seran inicialment més alts que la predicció de fotogrames
- ○Els mecanismes de control creatiu encara estan evolucionant
Si estàs produint vídeo amb IA avui, els models del món no són alguna cosa que necessitis adoptar immediatament. Però són alguna cosa a vigilar. La comparació entre Sora 2, Runway i Veo 3 que vam publicar abans aquest any necessitarà actualització a mesura que les capacitats del model del món es despleguin a través d'aquestes plataformes.
Per a ús pràctic ara mateix, les diferències importen per a casos d'ús específics:
- Visualització de productes: Els models del món destacaran aquí. Física precisa per a objectes interactuant entre ells.
- Art abstracte: La predicció de fotogrames podria ser preferible. Vols sortides visuals inesperades, no realitat simulada.
- Animació de personatges: Models del món més tècniques de preservació d'identitat podrien finalment resoldre el problema de consistència.
La imatge més gran
Els models del món representen el vídeo amb IA madurant. La predicció de fotogrames era suficient per generar clips curts, novetats visuals, demostracions de prova de concepte. La simulació de mons és el que necessites per a treball de producció real, on el contingut ha de ser consistent, físicament plausible i extensible.
Mantén la perspectiva: Som a l'etapa GWM-1, l'equivalent de GPT-1 per a simulació de mons. La bretxa entre això i GWM-4 serà enorme, igual que la bretxa entre GPT-1 i GPT-4 va transformar l'IA de llenguatge.
Runway superant Google i OpenAI en benchmarks amb un equip de 100 persones ens diu alguna cosa important: l'enfocament arquitectònic correcte importa més que els recursos. Els models del món podrien ser aquest enfocament. Si l'aposta de Runway té èxit, hauran definit la propera generació de vídeo amb IA.
I si les simulacions de física es fan prou bones? Ja no estem només generant vídeo. Estem construint mons virtuals, una simulació cada vegada.
Lectura relacionada: Per a més sobre els fonaments tècnics que permeten aquest canvi, consulta la nostra immersió profunda en transformadors de difusió. Per a comparacions d'eines actuals, revisa Sora 2 vs Runway vs Veo 3.
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

Adobe i Runway uneixen forces: Què significa l'associació Gen-4.5 per als creadors de vídeo
Adobe acaba de convertir el Gen-4.5 de Runway en la columna vertebral del vídeo AI a Firefly. Aquesta aliança estratègica està redefinint els fluxos de treball creatius per a professionals, estudis i marques de tot el món.

Runway Gen-4.5 al capdavant: Com 100 enginyers han superat Google i OpenAI
Runway acaba de reclamar el primer lloc a Video Arena amb Gen-4.5, demostrant que un petit equip pot superar gegants del trilió de dòlars en generació de vídeo amb IA.

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real
El GWM-1 de Runway marca un canvi de paradigma des de generar vídeos fins a simular mons. Descobreix com aquest model autoregressiu crea entorns explorables, avatars fotorealistes i simulacions d'entrenament de robots.