La nova capa d'infraestructura d'IA de vídeo: AWS i Decart lideren la generació en temps real

Quan AWS va anunciar que podrien generar escenes de videojocs interactives a 60 FPS utilitzant IA de vídeo, vaig pensar que era màrqueting exagerat. Després vaig veure les demos. El renderitzat en temps real amb IA ja no és teòric, s'està construint en producció.

El repte del temps real

Fins ara, la generació de vídeo amb IA ha significat esperar. Sora 2 triga minuts per generar segons. Fins i tot els models de codi obert ràpids com LTX-Video mesuren el rendiment en segons per fotograma, no fotogrames per segon.

Per a contingut interactiu, jocs, entorns virtuals, comunicacions en directe, aquesta latència és fatal. No pots tenir un joc on l'entrada del jugador triga 30 segons a reflectir-se en pantalla.

60 FPS

Objectiu de generació

≤16ms

Pressupost de latència

2025

Primers desplegaments

💡

El pressupost és implacable: a 60 FPS, tens 16.67 mil·lisegons per generar cada fotograma. Els models de difusió tradicionals requereixen 20-50 passos de dessoroll, cadascun prenent diversos segons. Les matemàtiques simplement no funcionaven, fins ara.

L'enfocament de Decart: models de món per a jocs

Decart ha estat treballant silenciosament en generació de vídeo en temps real des de 2024. El seu producte estrella és un motor de jocs impulsant-se completament a través de generació de vídeo amb IA en lloc de pipelines de renderitzat tradicionals.

🎮

Oasis: motor de jocs IA en temps real

Oasis de Decart genera l'experiència de joc sencera a través de difusió de vídeo. En lloc de renderitzar geometria, textures i il·luminació per separat, un únic model de difusió produeix fotogrames visuals directament des de l'estat del joc i l'entrada del jugador.

Renderitzat de jocs tradicional:

Actualitzar física i estat del joc
Enviar geometria a la GPU
Calcular il·luminació i ombres
Aplicar textures i materials
Post-processar efectes
Composar fotograma final

Renderitzat de jocs Oasis:

Actualitzar física i estat del joc
Alimentar estat + entrada al model de difusió
Generar fotograma directament

La simplicitat és convincent. Però obtenir difusió a velocitats de fotograma interactives requereix avenços arquitectònics.

La inversió en infraestructura d'AWS

Aquí és on l'anunci d'AWS de novembre de 2025 es torna important. No estan només oferint més GPUs al núvol, estan construint xips i sistemes específicament per a inferència de vídeo amb IA en temps real.

Trainium3 (2026)

Xips dissenyats a mida per a IA
Optimitzat per a càrregues de treball de difusió
Connectivitat fabric-to-fabric
Es projecta 4x eficiència vs A100

Instàncies P6

GPUs Blackwell B200
Escalat multi-instància
Connexió per xarxa NVLink directe
Disponible Q2 2026

El missatge és clar: AWS veu la generació de vídeo amb IA en temps real com una càrrega de treball d'infraestructura central, prou valuosa per construir silici personalitzat.

💡

Per als desenvolupadors, això significa que la capacitat de renderitzat de vídeo amb IA en temps real serà llogable per API dins de 12-18 mesos. No cal construir ni operar la infraestructura tu mateix.

El pipeline tècnic: com funciona 60 FPS

Aconseguir temps real requereix múltiples optimitzacions treballant juntes:

1. Destil·lació de model

# Conceptual: destil·lar model de 50 passos a model de 4 passos
class DistilledDiffusion:
    def __init__(self, teacher_model, num_student_steps=4):
        self.student = StudentNetwork()
        self.num_steps = num_student_steps
 
        # Entrenar estudiant per igualar sortida del professor en menys passos
        self.distill_from(teacher_model)
 
    def generate(self, latent, conditioning):
        # Només 4 passos de dessoroll en lloc de 50
        for t in self.timesteps[:self.num_steps]:
            latent = self.student.denoise_step(latent, t, conditioning)
        return latent

La destil·lació comprimeix el coneixement d'un model de 50 passos a un de 4 passos. Perds una mica de qualitat, però guanyes 10x de velocitat.

2. Memòria cau temporal

Quan generes vídeo, els fotogrames consecutius són similars. La memòria cau intel·ligent reutilitza la computació:

class TemporalCachedDiffusion:
    def __init__(self):
        self.feature_cache = {}
 
    def generate_frame(self, latent, frame_id, conditioning):
        # Reutilitzar característiques de l'atenció espacial del fotograma anterior
        if frame_id > 0:
            spatial_features = self.feature_cache.get(frame_id - 1)
            # Només recalcular el que va canviar
            delta_features = self.compute_delta(latent, spatial_features)
            features = spatial_features + delta_features
        else:
            features = self.compute_full(latent)
 
        self.feature_cache[frame_id] = features
        return self.decode(features)

3. Resolució adaptativa

Les regions estàtiques es renderitzen a resolució més baixa mentre les zones d'alta acció obtenen tots els recursos:

def adaptive_resolution_generate(frame, motion_map):
    # Àrees d'alta velocitat: resolució completa
    # Àrees de baixa velocitat: 1/4 resolució, upscaled
    high_motion_mask = motion_map > threshold
 
    high_res = generate_full(frame, high_motion_mask)
    low_res = generate_quarter(frame, ~high_motion_mask)
 
    return composite(high_res, upsample(low_res), high_motion_mask)

Aplicacions reals

🎮

Jocs natius amb IA

En lloc de dissenyar nivells de joc manualment, descriu el món que vols. La IA genera l'entorn en temps real mentre jugues. Cada jugador experimenta un món únic generat procedimentalment.

🎥

Producció virtual

Conjunts de filmació que generen fons en temps real, responent a la posició de la càmera i a les accions dels actors. Sense escenes verdes, sense composició.

👤

Avatars interactius

Personatges amb IA generats en temps real que poden respondre visualment al context. No animació pre-renderitzada, sinó generació genuïnament interactiva.

🏙️

Bessons digitals

Visualitzacions d'entorn en temps real de ciutats, fàbriques o sistemes. L'IA genera vistes basades en dades de sensors en directe, mostrant què està passant ara.

L'economia de la transició

⚠️

El renderitzat tradicional és molt eficient per al que fa. El renderitzat per difusió en temps real té sentit per a nous tipus de contingut, no per a substitució directa del renderitzat 3D existent.

✓Quan la difusió en temps real té sentit

Contingut generat procedimentalment
Entorns no repetitius
Escenes difícils de modelar tradicionalment
Prototipat ràpid i iteració
Experiències personalitzades

✗Quan el renderitzat tradicional guanya

Contingut conegut i fix
Requisits de velocitat de fotogrames extremadament alts
Restriccions de costos estrictes
Necessitat de control determinista de píxels
Entorns amb física complexa

El cronograma

Basant-me en anuncis i trajectòries, aquí està la meva expectativa per a la disponibilitat de vídeo amb IA en temps real:

Q1 2026

Maquinari AWS disponible

Instàncies P6 i inferència Trainium3 es despleguen als primers clients

Q2 2026

Primeres APIs de producció

Els serveis de generació de vídeo en temps real es tornen llogables

2027

Aplicacions de consum

Jocs i experiències interactives es llancen utilitzant renderitzat per difusió

2028+

Adopció mainstream

El renderitzat per difusió en temps real es converteix en opció estàndard juntament amb el renderitzat tradicional

Implicacions per als desenvolupadors

Si estàs construint qualsevol cosa interactiva amb vídeo, comença a pensar en arquitectures de difusió ara:

✓Entén les teves taxes de fotograma i pressupostos de latència
✓Investiga models destil·lats i les seves compensacions de qualitat
✓Dissenya per a inferència en streaming vs generació per lots
✓Considera arquitectures híbrides que barregin renderitzat tradicional i IA

La infraestructura existirà. La pregunta és: estàs llest per utilitzar-la?

El panorama general

💡

El que AWS i Decart estan construint no és només una infraestructura de vídeo més ràpida. Estan construint el fonament per a un tipus completament nou d'experiència interactiva: mons que es generen mentre s'exploren, no dissenyats d'antemà.

Pensa en les implicacions:

Jocs on cada sessió és en un món únic
Formació en entorns generats procedimentalment que mai es repeteixen
Entreteniment que respon visualment a les reaccions del públic
Comunicació on els fons i entorns s'adapten en temps real

Estem passant d'"IA genera contingut per avançat" a "IA genera realitat en temps real". L'escala d'inversió d'AWS suggereix que això no és recerca especulativa, és planificació d'infraestructura per a una transició que veuen venir.

La pregunta ja no és si el renderitzat de vídeo amb IA en temps real és possible. La pregunta és quan serà més barat que les alternatives, i per a quines aplicacions.

La resposta, cada vegada més, és aviat i moltes.