Simulació de Física en Vídeo IA: Com els Models Finalment Han Après a Respectar la Realitat
Des de pilotes de bàsquet que es teletransportaven fins a rebots realistes, els models de vídeo IA ara entenen la gravetat, el moment i les dinàmiques dels materials. Explorem els avenços tècnics que ho fan possible.

Durant anys, els vídeos generats per IA van tenir un problema de física. Les pilotes de bàsquet fallaven la cistella i es teletransportaven dins de totes maneres. L'aigua fluïa cap amunt. Els objectes es travessaven entre ells com fantasmes. El 2025 i principis del 2026, alguna cosa va canviar. La darrera generació de models de vídeo ha après a respectar les lleis fonamentals del món físic.
El Problema de la Pilota de Bàsquet
OpenAI ho va descriure perfectament quan va llançar Sora 2: en models anteriors, si una pilota de bàsquet fallava la cistella, simplement es materialitzava dins la xarxa de totes maneres. El model coneixia el resultat narratiu (la pilota entra a la cistella) però no tenia cap concepte de les restriccions físiques que haurien de governar el trajecte.
Això no era un error menor. Era simptomàtic d'una limitació arquitectònica fonamental. Els primers models de generació de vídeo destacaven en la concordança de patrons visuals, aprenent a generar fotogrames que semblaven individualment plausibles mentre romanien físicament incoherents quan es veien en seqüència.
OpenAI va llistar explícitament les limitacions de "morph object" com un problema clau que Sora 2 va ser dissenyat per resoldre. Aquesta bretxa arquitectònica havia frustrat investigadors i creadors per igual.
Tres Pilars de la Comprensió Física
L'avenç en simulació de física es basa en tres progressos interconnectats: world modeling, raonament chain-of-thought i mecanismes de temporal attention millorats.
World Models vs Predicció de Fotogrames
La generació de vídeo tradicional tractava la tasca com a predicció seqüencial de fotogrames: donats els fotogrames 1 a N, prediu el fotograma N+1. Aquest enfocament inherentment té dificultats amb la física perquè no té cap representació explícita de l'estat físic subjacent.
Els world models prenen un enfocament fonamentalment diferent. En lloc de predir píxels directament, primer construeixen una representació interna de l'estat físic de l'escena, incloent posicions d'objectes, velocitats, materials i interaccions. Només després renderitzen aquest estat en fotogrames visuals. Aquest enfocament, explorat en profunditat a la nostra anàlisi de world models, representa un canvi de paradigma en com pensem sobre la generació de vídeo.
Prediu píxels a partir de píxels. Sense física explícita. Propens a errors de teletransportació, travessament i violacions de gravetat. Ràpid però físicament incoherent.
Simula l'estat físic primer. Seguiment explícit d'objectes. Respecta les lleis de conservació i dinàmiques de col·lisió. Computacionalment més pesat però físicament fonamentat.
Chain of Thought per a Vídeo
Kling O1, llançat a finals del 2025, va introduir el raonament chain-of-thought a la generació de vídeo. Abans de generar fotogrames, el model raona explícitament sobre què hauria de passar físicament a l'escena.
Per a una escena d'un got caient d'una taula, el model primer raona:
- El got té velocitat inicial zero, posició a la vora de la taula
- La gravetat accelera el got cap avall a 9,8 m/s²
- El got contacta el terra després d'aproximadament 0,45 segons
- El material del got és fràgil, el terra és superfície dura
- L'impacte supera el llindar de fractura, el got es trenca
- Els fragments s'escampen amb conservació del moment
Aquest pas de raonament explícit passa a l'espai latent del model abans que es generin píxels. El resultat és vídeo que respecta no només l'estètica visual sinó les cadenes causals.
Temporal Attention a Escala
La base arquitectònica que permet aquests avenços és el temporal attention, el mecanisme pel qual els models de vídeo mantenen consistència entre fotogrames. L'arquitectura diffusion transformer que impulsa els models de vídeo moderns processa el vídeo com a pegats espai-temps, permetent que l'atenció flueixi tant espacialment dins dels fotogrames com temporalment entre ells.
Els models de vídeo moderns processen milions de pegats espai-temps per vídeo, amb attention heads especialitzats dedicats a la consistència física. Aquesta escala permet als models seguir la identitat dels objectes i l'estat físic a través de centenars de fotogrames, mantenint una coherència que era impossible amb arquitectures anteriors.
Benchmarks de Física del Món Real
Com mesurem realment la qualitat de la simulació de física? El camp ha desenvolupat diverses proves estandarditzades:
| Benchmark | Prova | Líders |
|---|---|---|
| Object Permanence | Els objectes persisteixen quan estan ocults | Sora 2, Veo 3 |
| Gravity Consistency | L'acceleració de caiguda lliure és uniforme | Kling O1, Runway Gen-4.5 |
| Collision Realism | Els objectes reboten, es deformen o es trenquen adequadament | Sora 2, Veo 3.1 |
| Fluid Dynamics | L'aigua, el fum i la roba es simulen realistament | Kling 2.6 |
| Momentum Conservation | El moviment es transfereix correctament entre objectes | Sora 2 |
Els models Kling han destacat consistentment en dinàmiques de fluids, amb simulació d'aigua i física de roba particularment impressionants. Sora 2 d'OpenAI lidera en realisme de col·lisions i conservació del moment, gestionant interaccions complexes de múltiples objectes amb una precisió impressionant.
Per a simulació d'aigua, fum i roba, els models Kling actualment ofereixen la física més realista. Per a col·lisions complexes de múltiples cossos i escenaris esportius, Sora 2 és l'opció més forta.
La Prova del Gimnasta
Un dels benchmarks de física més exigents involucra la gimnàstica olímpica. Un gimnasta fent tombarelles experimenta dinàmiques de rotació complexes: conservació del moment angular, moment d'inèrcia variable quan els membres s'estenen i es contrauen, i temporització precisa de l'aplicació de força per a enlairaments i aterratges.
Els primers models de vídeo generaven fotogrames individuals impressionants de gimnastes a l'aire però fallaven catastròficament en la física. Les rotacions s'acceleraven o s'alentien aleatòriament. Els aterratges es produïen en posicions impossibles. El cos es deformava de maneres que violaven les restriccions anatòmiques.
Sora 2 va destacar explícitament la gimnàstica olímpica com un benchmark que ara gestiona correctament. El model segueix el moment angular del gimnasta durant tota la rutina, accelerant la rotació quan els membres s'acosten (efecte gir de patinador de gel) i desaccelerant quan s'estenen.
Comprensió dels Materials
La simulació de física s'estén més enllà del moviment fins a les propietats dels materials. Com sap un model que el vidre es trenca mentre que el cautxú rebota? Que l'aigua esquitxa mentre que l'oli s'acumula? Que el metall es deforma plàsticament mentre que la fusta s'esberla?
La resposta rau en les dades d'entrenament i els priors apresos del model. En entrenar-se amb milions de vídeos que mostren materials interactuant amb el món, els models desenvolupen una comprensió implícita dels materials. Un got caient sobre formigó produeix un resultat diferent que un got caient sobre catifa, i els models moderns capturen aquesta distinció.
Classificació de Materials
Els models ara classifiquen implícitament els objectes per propietats de material: fràgil vs dúctil, elàstic vs plàstic, compressible vs incompressible.
Tipus de Fluids
Diferents viscositats de fluids i tensions superficials es gestionen correctament: l'aigua esquitxa, la mel degota, el fum ondula.
Física de Combustió
El foc i les explosions segueixen propagació de calor realista i dinàmiques de gasos en lloc de simples efectes de partícules.
Limitacions i Casos Límit
Malgrat aquests avenços, la simulació de física en vídeo IA segueix sent imperfecta. Persisteixen diverses limitacions conegudes:
Estabilitat a llarg termini: La física es manté precisa durant 5-10 segons però pot desviar-se en durades més llargues. Els vídeos estesos poden violar gradualment les lleis de conservació.
Sistemes complexos de múltiples cossos: Tot i que dos objectes col·lisionant funciona bé, escenes amb desenes d'objectes interactuant (com una torre de Jenga caient) poden produir errors.
Materials inusuals: Els biaixos de les dades d'entrenament signifiquen que els materials comuns (aigua, vidre, metall) es simulen millor que els exòtics (fluids no newtonians, materials magnètics).
Condicions extremes: La física a escales molt petites (molecular), escales molt grans (astronòmica), o condicions extremes (prop de la velocitat de la llum) sovint falla.
La precisió de la simulació de física es degrada significativament per a vídeos de més de 30 segons. Per a contingut de llarga durada, considera utilitzar tècniques d'extensió de vídeo amb atenció acurada a la continuïtat física als límits.
Implicacions per als Creadors
Què significa la simulació de física millorada per als creadors de vídeo?
Primer, redueix dràsticament la necessitat de correccions de postproducció. Escenes que anteriorment requerien edició acurada per corregir impossibilitats físiques ara es generen correctament la primera vegada.
Segon, habilita noves possibilitats creatives. La simulació de física precisa significa que les màquines de Rube Goldberg, seqüències esportives i escenes d'acció es poden generar sense correccions manuals laborioses.
Tercer, millora la percepció de l'espectador. Els espectadors detecten subconsciemtent les violacions de física, fent que els vídeos físicament precisos se sentin més reals fins i tot quan la diferència és difícil d'articular.
El Camí Endavant
La simulació de física continuarà millorant en diversos eixos:
Consistència temporal més llarga: Els models actuals mantenen la física durant segons, els models futurs la mantindran durant minuts.
Interaccions més complexes: Escenes amb centenars d'objectes interactuant es tornaran factibles.
Motors de física apresos: En lloc de física implícita de les dades d'entrenament, els models futurs podrien incorporar simulació de física explícita com a component.
Física en temps real: Actualment la generació conscient de la física és lenta, però l'optimització podria habilitar la generació en temps real amb precisió física.
El viatge des de pilotes de bàsquet que es teletransporten fins a rebots realistes representa un dels avenços més significatius en generació de vídeo IA. Els models han après, si no a entendre la física com ho fan els humans, almenys a respectar les seves restriccions. Per als creadors, això significa menys correccions, més possibilitats i vídeos que simplement se senten més reals.
Prova-ho tu mateix: Bonega.ai utilitza Veo 3, que incorpora simulació de física avançada per a dinàmiques d'objectes realistes. Genera escenes amb física complexa i observa com el model gestiona la gravetat, les col·lisions i les interaccions de materials.
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

Models del món: La propera frontera en generació de vídeo amb IA
Per què el canvi de generació de fotogrames a simulació de mons està remodelant el vídeo amb IA, i què ens diu el GWM-1 de Runway sobre on va aquesta tecnologia.

Plataformes de Vídeo per a Contar Històries amb IA: Com el Contingut Serialitzat ho Està Canviant Tot el 2026
Des de clips aïllats fins a sèries completes, el vídeo amb IA evoluciona d"una eina de generació a un motor de narració. Coneix les plataformes que ho fan possible.

Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI
De DeepMind Genie a AMI Labs, els models del món es converteixen silenciosament en la fonamentació per a una IA que entén veritablement la física. El mercat de jocs de 500 mil milions de dòlars pot ser on primer es demostren.