Simulació de Física en Vídeo IA: Com els Models Finalment Han Après a Respectar la Realitat

Durant anys, els vídeos generats per IA van tenir un problema de física. Les pilotes de bàsquet fallaven la cistella i es teletransportaven dins de totes maneres. L'aigua fluïa cap amunt. Els objectes es travessaven entre ells com fantasmes. El 2025 i principis del 2026, alguna cosa va canviar. La darrera generació de models de vídeo ha après a respectar les lleis fonamentals del món físic.

El Problema de la Pilota de Bàsquet

OpenAI ho va descriure perfectament quan va llançar Sora 2: en models anteriors, si una pilota de bàsquet fallava la cistella, simplement es materialitzava dins la xarxa de totes maneres. El model coneixia el resultat narratiu (la pilota entra a la cistella) però no tenia cap concepte de les restriccions físiques que haurien de governar el trajecte.

Això no era un error menor. Era simptomàtic d'una limitació arquitectònica fonamental. Els primers models de generació de vídeo destacaven en la concordança de patrons visuals, aprenent a generar fotogrames que semblaven individualment plausibles mentre romanien físicament incoherents quan es veien en seqüència.

💡

OpenAI va llistar explícitament les limitacions de "morph object" com un problema clau que Sora 2 va ser dissenyat per resoldre. Aquesta bretxa arquitectònica havia frustrat investigadors i creadors per igual.

Tres Pilars de la Comprensió Física

L'avenç en simulació de física es basa en tres progressos interconnectats: world modeling, raonament chain-of-thought i mecanismes de temporal attention millorats.

World Models vs Predicció de Fotogrames

La generació de vídeo tradicional tractava la tasca com a predicció seqüencial de fotogrames: donats els fotogrames 1 a N, prediu el fotograma N+1. Aquest enfocament inherentment té dificultats amb la física perquè no té cap representació explícita de l'estat físic subjacent.

Els world models prenen un enfocament fonamentalment diferent. En lloc de predir píxels directament, primer construeixen una representació interna de l'estat físic de l'escena, incloent posicions d'objectes, velocitats, materials i interaccions. Només després renderitzen aquest estat en fotogrames visuals. Aquest enfocament, explorat en profunditat a la nostra anàlisi de world models, representa un canvi de paradigma en com pensem sobre la generació de vídeo.

✗Predicció de Fotogrames

Prediu píxels a partir de píxels. Sense física explícita. Propens a errors de teletransportació, travessament i violacions de gravetat. Ràpid però físicament incoherent.

✓World Models

Simula l'estat físic primer. Seguiment explícit d'objectes. Respecta les lleis de conservació i dinàmiques de col·lisió. Computacionalment més pesat però físicament fonamentat.

Chain of Thought per a Vídeo

Kling O1, llançat a finals del 2025, va introduir el raonament chain-of-thought a la generació de vídeo. Abans de generar fotogrames, el model raona explícitament sobre què hauria de passar físicament a l'escena.

Per a una escena d'un got caient d'una taula, el model primer raona:

El got té velocitat inicial zero, posició a la vora de la taula
La gravetat accelera el got cap avall a 9,8 m/s²
El got contacta el terra després d'aproximadament 0,45 segons
El material del got és fràgil, el terra és superfície dura
L'impacte supera el llindar de fractura, el got es trenca
Els fragments s'escampen amb conservació del moment

Aquest pas de raonament explícit passa a l'espai latent del model abans que es generin píxels. El resultat és vídeo que respecta no només l'estètica visual sinó les cadenes causals.

Temporal Attention a Escala

La base arquitectònica que permet aquests avenços és el temporal attention, el mecanisme pel qual els models de vídeo mantenen consistència entre fotogrames. L'arquitectura diffusion transformer que impulsa els models de vídeo moderns processa el vídeo com a pegats espai-temps, permetent que l'atenció flueixi tant espacialment dins dels fotogrames com temporalment entre ells.

Els models de vídeo moderns processen milions de pegats espai-temps per vídeo, amb attention heads especialitzats dedicats a la consistència física. Aquesta escala permet als models seguir la identitat dels objectes i l'estat físic a través de centenars de fotogrames, mantenint una coherència que era impossible amb arquitectures anteriors.

Benchmarks de Física del Món Real

Com mesurem realment la qualitat de la simulació de física? El camp ha desenvolupat diverses proves estandarditzades:

Benchmark	Prova	Líders
Object Permanence	Els objectes persisteixen quan estan ocults	Sora 2, Veo 3
Gravity Consistency	L'acceleració de caiguda lliure és uniforme	Kling O1, Runway Gen-4.5
Collision Realism	Els objectes reboten, es deformen o es trenquen adequadament	Sora 2, Veo 3.1
Fluid Dynamics	L'aigua, el fum i la roba es simulen realistament	Kling 2.6
Momentum Conservation	El moviment es transfereix correctament entre objectes	Sora 2

Els models Kling han destacat consistentment en dinàmiques de fluids, amb simulació d'aigua i física de roba particularment impressionants. Sora 2 d'OpenAI lidera en realisme de col·lisions i conservació del moment, gestionant interaccions complexes de múltiples objectes amb una precisió impressionant.

💡

Per a simulació d'aigua, fum i roba, els models Kling actualment ofereixen la física més realista. Per a col·lisions complexes de múltiples cossos i escenaris esportius, Sora 2 és l'opció més forta.

La Prova del Gimnasta

Un dels benchmarks de física més exigents involucra la gimnàstica olímpica. Un gimnasta fent tombarelles experimenta dinàmiques de rotació complexes: conservació del moment angular, moment d'inèrcia variable quan els membres s'estenen i es contrauen, i temporització precisa de l'aplicació de força per a enlairaments i aterratges.

Els primers models de vídeo generaven fotogrames individuals impressionants de gimnastes a l'aire però fallaven catastròficament en la física. Les rotacions s'acceleraven o s'alentien aleatòriament. Els aterratges es produïen en posicions impossibles. El cos es deformava de maneres que violaven les restriccions anatòmiques.

Sora 2 va destacar explícitament la gimnàstica olímpica com un benchmark que ara gestiona correctament. El model segueix el moment angular del gimnasta durant tota la rutina, accelerant la rotació quan els membres s'acosten (efecte gir de patinador de gel) i desaccelerant quan s'estenen.

Comprensió dels Materials

La simulació de física s'estén més enllà del moviment fins a les propietats dels materials. Com sap un model que el vidre es trenca mentre que el cautxú rebota? Que l'aigua esquitxa mentre que l'oli s'acumula? Que el metall es deforma plàsticament mentre que la fusta s'esberla?

La resposta rau en les dades d'entrenament i els priors apresos del model. En entrenar-se amb milions de vídeos que mostren materials interactuant amb el món, els models desenvolupen una comprensió implícita dels materials. Un got caient sobre formigó produeix un resultat diferent que un got caient sobre catifa, i els models moderns capturen aquesta distinció.

🧱

Classificació de Materials

Els models ara classifiquen implícitament els objectes per propietats de material: fràgil vs dúctil, elàstic vs plàstic, compressible vs incompressible.

💨

Tipus de Fluids

Diferents viscositats de fluids i tensions superficials es gestionen correctament: l'aigua esquitxa, la mel degota, el fum ondula.

🔥

Física de Combustió

El foc i les explosions segueixen propagació de calor realista i dinàmiques de gasos en lloc de simples efectes de partícules.

Limitacions i Casos Límit

Malgrat aquests avenços, la simulació de física en vídeo IA segueix sent imperfecta. Persisteixen diverses limitacions conegudes:

Estabilitat a llarg termini: La física es manté precisa durant 5-10 segons però pot desviar-se en durades més llargues. Els vídeos estesos poden violar gradualment les lleis de conservació.

Sistemes complexos de múltiples cossos: Tot i que dos objectes col·lisionant funciona bé, escenes amb desenes d'objectes interactuant (com una torre de Jenga caient) poden produir errors.

Materials inusuals: Els biaixos de les dades d'entrenament signifiquen que els materials comuns (aigua, vidre, metall) es simulen millor que els exòtics (fluids no newtonians, materials magnètics).

Condicions extremes: La física a escales molt petites (molecular), escales molt grans (astronòmica), o condicions extremes (prop de la velocitat de la llum) sovint falla.

⚠️

La precisió de la simulació de física es degrada significativament per a vídeos de més de 30 segons. Per a contingut de llarga durada, considera utilitzar tècniques d'extensió de vídeo amb atenció acurada a la continuïtat física als límits.

Implicacions per als Creadors

Què significa la simulació de física millorada per als creadors de vídeo?

Primer, redueix dràsticament la necessitat de correccions de postproducció. Escenes que anteriorment requerien edició acurada per corregir impossibilitats físiques ara es generen correctament la primera vegada.

Segon, habilita noves possibilitats creatives. La simulació de física precisa significa que les màquines de Rube Goldberg, seqüències esportives i escenes d'acció es poden generar sense correccions manuals laborioses.

Tercer, millora la percepció de l'espectador. Els espectadors detecten subconsciemtent les violacions de física, fent que els vídeos físicament precisos se sentin més reals fins i tot quan la diferència és difícil d'articular.

El Camí Endavant

La simulació de física continuarà millorant en diversos eixos:

Consistència temporal més llarga: Els models actuals mantenen la física durant segons, els models futurs la mantindran durant minuts.

Interaccions més complexes: Escenes amb centenars d'objectes interactuant es tornaran factibles.

Motors de física apresos: En lloc de física implícita de les dades d'entrenament, els models futurs podrien incorporar simulació de física explícita com a component.

Física en temps real: Actualment la generació conscient de la física és lenta, però l'optimització podria habilitar la generació en temps real amb precisió física.

El viatge des de pilotes de bàsquet que es teletransporten fins a rebots realistes representa un dels avenços més significatius en generació de vídeo IA. Els models han après, si no a entendre la física com ho fan els humans, almenys a respectar les seves restriccions. Per als creadors, això significa menys correccions, més possibilitats i vídeos que simplement se senten més reals.

Prova-ho tu mateix: Bonega.ai utilitza Veo 3, que incorpora simulació de física avançada per a dinàmiques d'objectes realistes. Genera escenes amb física complexa i observa com el model gestiona la gravetat, les col·lisions i les interaccions de materials.

Simulació de Física en Vídeo IA: Com els Models Finalment Han Après a Respectar la Realitat

El Problema de la Pilota de Bàsquet

Tres Pilars de la Comprensió Física

World Models vs Predicció de Fotogrames

Chain of Thought per a Vídeo

Temporal Attention a Escala

Benchmarks de Física del Món Real

La Prova del Gimnasta

Comprensió dels Materials

Classificació de Materials

Tipus de Fluids

Física de Combustió

Limitacions i Casos Límit

Implicacions per als Creadors

El Camí Endavant

Alexis

Like what you read?

Articles relacionats

Models del món: La propera frontera en generació de vídeo amb IA

Plataformes de Vídeo per a Contar Històries amb IA: Com el Contingut Serialitzat ho Està Canviant Tot el 2026

Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI

T'ha agradat aquest article?