Més enllà del límit d'un minut: com la difusió paral·lelitzada habilita vídeos d'IA de 5 minuts

El repte fonamental de la generació de vídeo amb IA no és la qualitat per fotograma, és la longitud. Els models actuals produeixen 5-10 segons abans que la qualitat es degradi o els requisits de memòria explotin. Un nou enfocament de Tencent i HKU finalment trenca aquesta barrera.

El problema de la longitud

Cada model de vídeo important s'enfronta a la mateixa paret. Sora 2 arriba a 60 segons. Veo 3 gestiona 8 segons base. Runway Gen-4 genera 10 segons. Aquests límits no són arbitraris, reflecteixen problemes fonamentals d'arquitectura.

💡

El problema central: els models de difusió generen tots els fotogrames simultàniament, cosa que requereix memòria que escala quadràticament amb la durada del vídeo. Duplicar la longitud del vídeo quadruplica els requisits de memòria.

L'enfocament tradicional per a vídeos més llargs és autoregressiu: generar un segment, després condicionar el següent segment en l'últim fotograma de l'anterior. Això funciona, però introdueix problemes:

Deriva d'error: Petites inconsistències s'acumulen al llarg dels segments
Limitacions del flux d'informació: Cada segment només veu el passat immediat
Velocitat: El processament seqüencial és inherentment més lent

La innovació de la restricció bidireccional

L'article de desembre de 2025 de Tencent i HKU introdueix un concepte elegant: què passa si els segments posteriors poden influir en els anteriors durant la generació?

# Generació autoregressiva tradicional
def generate_traditional(prompt, num_segments):
    segments = []
    for i in range(num_segments):
        if i == 0:
            seg = generate_segment(prompt)
        else:
            # Només mira enrere
            seg = generate_segment(prompt, prev_frame=segments[-1][-1])
        segments.append(seg)
    return concat(segments)
 
# Generació amb restricció bidireccional
def generate_bidirectional(prompt, num_segments):
    # Inicialitzar tots els segments amb soroll
    segments = [noise() for _ in range(num_segments)]
 
    for step in diffusion_steps:
        for i in range(num_segments):
            # Mirar tant endavant com enrere
            prev_constraint = segments[i-1] if i > 0 else None
            next_constraint = segments[i+1] if i < num_segments-1 else None
 
            segments[i] = denoise_step(
                segments[i],
                prompt,
                prev_constraint,
                next_constraint  # Nou: el futur informa el present
            )
 
    return concat(segments)

La diferència és profunda. En lloc de cada segment ser una conclusió inevitable del passat, tots els segments negocien la seva aparença mútuament. Les transicions suaus no passen per casualitat, s'apliquen.

Difusió paral·lelitzada: velocitat a través de la simultaneïtat

5+ min

Durada del vídeo

100x

Guany de longitud

Paral·lel

Processament

La segona innovació habilita l'escala pràctica: la generació paral·lela a través de GPUs múltiples. Cada segment es processa en maquinari separat, amb només la informació de frontera comunicada entre treballadors.

⚡

Escalat de GPU

A diferència de l'escalat tradicional que requereix més memòria per a vídeos més llargs, la difusió paral·lelitzada escala afegint més GPUs. Vols vídeos 10x més llargs? Utilitza 10x GPUs, no 100x memòria.

L'arquitectura divideix el vídeo en segments superposats:

Vídeo: [====Seg1====][====Seg2====][====Seg3====][====Seg4====]
       GPU 1         GPU 2         GPU 3         GPU 4
 
Solapament: [===]        [===]        [===]
                  ^            ^            ^
                  Regions de comunicació de frontera

Cada GPU gestiona el seu segment però comunica amb els veïns durant la dessorollada. El solapament assegura transicions sense discontinuïtats mentre les regions no solapades es processen de forma totalment independent.

Resultats: què aconsegueix realment

L'article demostra:

✓Fites de durada

5 minuts de vídeo coherent
Consistència de personatge mantinguda
Coherència narrativa preservada
Sense degradació visible de qualitat

✗Limitacions actuals

Requereix clúster de múltiples GPUs
Encara no en producció
Complexitat de la línia narrativa limitada
No hi ha cap servei que ofereixi això avui

La millora de 100x en durada obre categories de contingut completament noves: curts, tutorials, visualitzacions narratives, contingut d'episodis.

Com encaixa amb la generació de vídeo existent

💡

La difusió paral·lelitzada no és una tècnica competidora amb els models actuals. És una capa arquitectònica que podria aplicar-se a Sora, Veo o qualsevol model de difusió.

Pensa-ho com:

Models de difusió = el motor
Difusió paral·lelitzada = el xassís que et permet posar diversos motors junts

Google, OpenAI i Runway tots podrien implementar enfocaments similars sobre els seus models de qualitat existents. La restricció bidireccional funciona independentment de l'arquitectura específica del model.

Implicacions per als creadors de contingut

Si avui estàs treballant amb limitacions de durada de vídeo amb IA:

✓Unir clips curts seguirà sent necessari a curt termini
✓Les capacitats d'extensió de vídeo es beneficiaran d'aquesta recerca
✓Espera veure 60+ segons convertir-se en estàndard el 2026
✓Els límits de 5+ minuts probablement arribaran als serveis el 2027

La cronologia depèn de la velocitat amb què els principals proveïdors integrin aquestes tècniques en els sistemes de producció.

La tècnica sota el capó

Per a aquells que vulguin aprofundir, l'arquitectura té diversos components clau:

Difusió de segments solapats

Cada segment es genera amb zones de "frontera" suau als límits:

def create_segment_with_overlap(segment_id, overlap_frames=16):
    # Segment central
    core_frames = generate_frames(segment_id)
 
    # Regions de frontera per a barreja
    left_border = generate_transition(
        prev_segment_end,
        core_frames[:overlap_frames]
    )
    right_border = generate_transition(
        core_frames[-overlap_frames:],
        next_segment_start
    )
 
    return concat(left_border, core_frames, right_border)

Comunicació bidireccional

Durant cada pas de dessoroll, els segments veïns intercanvien els seus estats fronterers:

def bidirectional_denoise_step(segments, step):
    # Recollir fronteres
    boundaries = exchange_boundaries(segments)
 
    # Dessorollar amb informació tant del passat com del futur
    for i, seg in enumerate(segments):
        seg = denoise(
            seg,
            step,
            left_boundary=boundaries[i-1] if i > 0 else None,
            right_boundary=boundaries[i+1] if i < len(segments)-1 else None
        )
 
    return segments

Programació de consistència

Els passos de difusió es ponderen per garantir una influència decreixent de les fronteres:

def consistency_weight(step, total_steps):
    # Alta influència de fronteres aviat, baixa al final
    return 1.0 - (step / total_steps) ** 2

El camí cap a la producció

Des 2025

Article publicat

Tencent i HKU demostren 5 minuts de generació

Q2 2026

Primers serveis

S'espera que els primers proveïdors integrin difusió paral·lelitzada

2027

Disponibilitat àmplia

Generació de llarga durada es converteix en característica estàndard

Què significa això

✅La barrera ha caigut

La limitació de durada que definia la generació de vídeo amb IA ja no és fonamental. És un problema d'enginyeria amb solucions demostrades.

Durant anys, "el vídeo amb IA només pot fer clips curts" era una veritat acceptada. Aquest article demostra que era una limitació d'implementació, no una restricció teòrica.

Les implicacions s'estenen més enllà de la mera longitud:

Narració: Prou durada per a arcs narratius
Educació: Tutorials i explicacions de llarga durada
Entreteniment: Contingut d'episodis generat per IA
Comercial: Anuncis de llarga durada i contingut de marca

La pregunta ja no és "pot la IA fer vídeos llargs?" És "quan oferiran els serveis vídeos llargs?"

Basant-me en les trajectòries actuals: aviat.

Fonts

Article de difusió paral·lelitzada (Tencent, HKU)
Escalant transformers de difusió