La nova capa d'infraestructura d'IA de vídeo: AWS i Decart lideren la generació en temps real
AWS aposta per la generació de vídeo amb IA en temps real amb noves GPUs Trainium3, mentre la startup Decart demostra 60 FPS de generació interactiva. L'era del renderitzat en temps real amb IA és aquí.

Quan AWS va anunciar que podrien generar escenes de videojocs interactives a 60 FPS utilitzant IA de vídeo, vaig pensar que era màrqueting exagerat. Després vaig veure les demos. El renderitzat en temps real amb IA ja no és teòric, s'està construint en producció.
El repte del temps real
Fins ara, la generació de vídeo amb IA ha significat esperar. Sora 2 triga minuts per generar segons. Fins i tot els models de codi obert ràpids com LTX-Video mesuren el rendiment en segons per fotograma, no fotogrames per segon.
Per a contingut interactiu, jocs, entorns virtuals, comunicacions en directe, aquesta latència és fatal. No pots tenir un joc on l'entrada del jugador triga 30 segons a reflectir-se en pantalla.
El pressupost és implacable: a 60 FPS, tens 16.67 mil·lisegons per generar cada fotograma. Els models de difusió tradicionals requereixen 20-50 passos de dessoroll, cadascun prenent diversos segons. Les matemàtiques simplement no funcionaven, fins ara.
L'enfocament de Decart: models de món per a jocs
Decart ha estat treballant silenciosament en generació de vídeo en temps real des de 2024. El seu producte estrella és un motor de jocs impulsant-se completament a través de generació de vídeo amb IA en lloc de pipelines de renderitzat tradicionals.
Oasis: motor de jocs IA en temps real
Oasis de Decart genera l'experiència de joc sencera a través de difusió de vídeo. En lloc de renderitzar geometria, textures i il·luminació per separat, un únic model de difusió produeix fotogrames visuals directament des de l'estat del joc i l'entrada del jugador.
Renderitzat de jocs tradicional:
- Actualitzar física i estat del joc
- Enviar geometria a la GPU
- Calcular il·luminació i ombres
- Aplicar textures i materials
- Post-processar efectes
- Composar fotograma final
Renderitzat de jocs Oasis:
- Actualitzar física i estat del joc
- Alimentar estat + entrada al model de difusió
- Generar fotograma directament
La simplicitat és convincent. Però obtenir difusió a velocitats de fotograma interactives requereix avenços arquitectònics.
La inversió en infraestructura d'AWS
Aquí és on l'anunci d'AWS de novembre de 2025 es torna important. No estan només oferint més GPUs al núvol, estan construint xips i sistemes específicament per a inferència de vídeo amb IA en temps real.
Trainium3 (2026)
- Xips dissenyats a mida per a IA
- Optimitzat per a càrregues de treball de difusió
- Connectivitat fabric-to-fabric
- Es projecta 4x eficiència vs A100
Instàncies P6
- GPUs Blackwell B200
- Escalat multi-instància
- Connexió per xarxa NVLink directe
- Disponible Q2 2026
El missatge és clar: AWS veu la generació de vídeo amb IA en temps real com una càrrega de treball d'infraestructura central, prou valuosa per construir silici personalitzat.
Per als desenvolupadors, això significa que la capacitat de renderitzat de vídeo amb IA en temps real serà llogable per API dins de 12-18 mesos. No cal construir ni operar la infraestructura tu mateix.
El pipeline tècnic: com funciona 60 FPS
Aconseguir temps real requereix múltiples optimitzacions treballant juntes:
1. Destil·lació de model
# Conceptual: destil·lar model de 50 passos a model de 4 passos
class DistilledDiffusion:
def __init__(self, teacher_model, num_student_steps=4):
self.student = StudentNetwork()
self.num_steps = num_student_steps
# Entrenar estudiant per igualar sortida del professor en menys passos
self.distill_from(teacher_model)
def generate(self, latent, conditioning):
# Només 4 passos de dessoroll en lloc de 50
for t in self.timesteps[:self.num_steps]:
latent = self.student.denoise_step(latent, t, conditioning)
return latentLa destil·lació comprimeix el coneixement d'un model de 50 passos a un de 4 passos. Perds una mica de qualitat, però guanyes 10x de velocitat.
2. Memòria cau temporal
Quan generes vídeo, els fotogrames consecutius són similars. La memòria cau intel·ligent reutilitza la computació:
class TemporalCachedDiffusion:
def __init__(self):
self.feature_cache = {}
def generate_frame(self, latent, frame_id, conditioning):
# Reutilitzar característiques de l'atenció espacial del fotograma anterior
if frame_id > 0:
spatial_features = self.feature_cache.get(frame_id - 1)
# Només recalcular el que va canviar
delta_features = self.compute_delta(latent, spatial_features)
features = spatial_features + delta_features
else:
features = self.compute_full(latent)
self.feature_cache[frame_id] = features
return self.decode(features)3. Resolució adaptativa
Les regions estàtiques es renderitzen a resolució més baixa mentre les zones d'alta acció obtenen tots els recursos:
def adaptive_resolution_generate(frame, motion_map):
# Àrees d'alta velocitat: resolució completa
# Àrees de baixa velocitat: 1/4 resolució, upscaled
high_motion_mask = motion_map > threshold
high_res = generate_full(frame, high_motion_mask)
low_res = generate_quarter(frame, ~high_motion_mask)
return composite(high_res, upsample(low_res), high_motion_mask)Aplicacions reals
Jocs natius amb IA
En lloc de dissenyar nivells de joc manualment, descriu el món que vols. La IA genera l'entorn en temps real mentre jugues. Cada jugador experimenta un món únic generat procedimentalment.
Producció virtual
Conjunts de filmació que generen fons en temps real, responent a la posició de la càmera i a les accions dels actors. Sense escenes verdes, sense composició.
Avatars interactius
Personatges amb IA generats en temps real que poden respondre visualment al context. No animació pre-renderitzada, sinó generació genuïnament interactiva.
Bessons digitals
Visualitzacions d'entorn en temps real de ciutats, fàbriques o sistemes. L'IA genera vistes basades en dades de sensors en directe, mostrant què està passant ara.
L'economia de la transició
El renderitzat tradicional és molt eficient per al que fa. El renderitzat per difusió en temps real té sentit per a nous tipus de contingut, no per a substitució directa del renderitzat 3D existent.
- Contingut generat procedimentalment
- Entorns no repetitius
- Escenes difícils de modelar tradicionalment
- Prototipat ràpid i iteració
- Experiències personalitzades
- Contingut conegut i fix
- Requisits de velocitat de fotogrames extremadament alts
- Restriccions de costos estrictes
- Necessitat de control determinista de píxels
- Entorns amb física complexa
El cronograma
Basant-me en anuncis i trajectòries, aquí està la meva expectativa per a la disponibilitat de vídeo amb IA en temps real:
Maquinari AWS disponible
Instàncies P6 i inferència Trainium3 es despleguen als primers clients
Primeres APIs de producció
Els serveis de generació de vídeo en temps real es tornen llogables
Aplicacions de consum
Jocs i experiències interactives es llancen utilitzant renderitzat per difusió
Adopció mainstream
El renderitzat per difusió en temps real es converteix en opció estàndard juntament amb el renderitzat tradicional
Implicacions per als desenvolupadors
Si estàs construint qualsevol cosa interactiva amb vídeo, comença a pensar en arquitectures de difusió ara:
- ✓Entén les teves taxes de fotograma i pressupostos de latència
- ✓Investiga models destil·lats i les seves compensacions de qualitat
- ✓Dissenya per a inferència en streaming vs generació per lots
- ✓Considera arquitectures híbrides que barregin renderitzat tradicional i IA
La infraestructura existirà. La pregunta és: estàs llest per utilitzar-la?
El panorama general
El que AWS i Decart estan construint no és només una infraestructura de vídeo més ràpida. Estan construint el fonament per a un tipus completament nou d'experiència interactiva: mons que es generen mentre s'exploren, no dissenyats d'antemà.
Pensa en les implicacions:
- Jocs on cada sessió és en un món únic
- Formació en entorns generats procedimentalment que mai es repeteixen
- Entreteniment que respon visualment a les reaccions del públic
- Comunicació on els fons i entorns s'adapten en temps real
Estem passant d'"IA genera contingut per avançat" a "IA genera realitat en temps real". L'escala d'inversió d'AWS suggereix que això no és recerca especulativa, és planificació d'infraestructura per a una transició que veuen venir.
La pregunta ja no és si el renderitzat de vídeo amb IA en temps real és possible. La pregunta és quan serà més barat que les alternatives, i per a quines aplicacions.
La resposta, cada vegada més, és aviat i moltes.
Fonts
T'ha resultat útil aquest article?

Damien
Desenvolupador d'IADesenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.
Articles relacionats
Continua explorant amb aquests articles relacionats

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Sora 2 vs Runway Gen-4.5 vs Veo 3: comparativa de generació de vídeo IA 2025
Comparativa exhaustiva dels tres principals generadors de vídeo amb IA del desembre de 2025. Detallem la qualitat visual, les característiques d'àudio, els preus i els millors casos d'ús per a cada eina.

CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts
CraftStory de ByteDance aconsegueix vídeos d'IA narratius de 5+ minuts a través de l'orquestració de fotogrames clau i la difusió bidireccional. Desglossem l'arquitectura que finalment resol el problema de la llarga durada.