Més enllà del límit d'un minut: com la difusió paral·lelitzada habilita vídeos d'IA de 5 minuts
La generació de vídeo amb IA ha estat limitada a clips curts. Un nou article de Tencent i la Universitat de Hong Kong demostra com restriccions bidireccionals i difusió paral·lelitzada poden generar vídeos de 5+ minuts amb consistència temporal, un salt de 100x en durada.

El repte fonamental de la generació de vídeo amb IA no és la qualitat per fotograma, és la longitud. Els models actuals produeixen 5-10 segons abans que la qualitat es degradi o els requisits de memòria explotin. Un nou enfocament de Tencent i HKU finalment trenca aquesta barrera.
El problema de la longitud
Cada model de vídeo important s'enfronta a la mateixa paret. Sora 2 arriba a 60 segons. Veo 3 gestiona 8 segons base. Runway Gen-4 genera 10 segons. Aquests límits no són arbitraris, reflecteixen problemes fonamentals d'arquitectura.
El problema central: els models de difusió generen tots els fotogrames simultàniament, cosa que requereix memòria que escala quadràticament amb la durada del vídeo. Duplicar la longitud del vídeo quadruplica els requisits de memòria.
L'enfocament tradicional per a vídeos més llargs és autoregressiu: generar un segment, després condicionar el següent segment en l'últim fotograma de l'anterior. Això funciona, però introdueix problemes:
- Deriva d'error: Petites inconsistències s'acumulen al llarg dels segments
- Limitacions del flux d'informació: Cada segment només veu el passat immediat
- Velocitat: El processament seqüencial és inherentment més lent
La innovació de la restricció bidireccional
L'article de desembre de 2025 de Tencent i HKU introdueix un concepte elegant: què passa si els segments posteriors poden influir en els anteriors durant la generació?
# Generació autoregressiva tradicional
def generate_traditional(prompt, num_segments):
segments = []
for i in range(num_segments):
if i == 0:
seg = generate_segment(prompt)
else:
# Només mira enrere
seg = generate_segment(prompt, prev_frame=segments[-1][-1])
segments.append(seg)
return concat(segments)
# Generació amb restricció bidireccional
def generate_bidirectional(prompt, num_segments):
# Inicialitzar tots els segments amb soroll
segments = [noise() for _ in range(num_segments)]
for step in diffusion_steps:
for i in range(num_segments):
# Mirar tant endavant com enrere
prev_constraint = segments[i-1] if i > 0 else None
next_constraint = segments[i+1] if i < num_segments-1 else None
segments[i] = denoise_step(
segments[i],
prompt,
prev_constraint,
next_constraint # Nou: el futur informa el present
)
return concat(segments)La diferència és profunda. En lloc de cada segment ser una conclusió inevitable del passat, tots els segments negocien la seva aparença mútuament. Les transicions suaus no passen per casualitat, s'apliquen.
Difusió paral·lelitzada: velocitat a través de la simultaneïtat
La segona innovació habilita l'escala pràctica: la generació paral·lela a través de GPUs múltiples. Cada segment es processa en maquinari separat, amb només la informació de frontera comunicada entre treballadors.
Escalat de GPU
A diferència de l'escalat tradicional que requereix més memòria per a vídeos més llargs, la difusió paral·lelitzada escala afegint més GPUs. Vols vídeos 10x més llargs? Utilitza 10x GPUs, no 100x memòria.
L'arquitectura divideix el vídeo en segments superposats:
Vídeo: [====Seg1====][====Seg2====][====Seg3====][====Seg4====]
GPU 1 GPU 2 GPU 3 GPU 4
Solapament: [===] [===] [===]
^ ^ ^
Regions de comunicació de fronteraCada GPU gestiona el seu segment però comunica amb els veïns durant la dessorollada. El solapament assegura transicions sense discontinuïtats mentre les regions no solapades es processen de forma totalment independent.
Resultats: què aconsegueix realment
L'article demostra:
- 5 minuts de vídeo coherent
- Consistència de personatge mantinguda
- Coherència narrativa preservada
- Sense degradació visible de qualitat
- Requereix clúster de múltiples GPUs
- Encara no en producció
- Complexitat de la línia narrativa limitada
- No hi ha cap servei que ofereixi això avui
La millora de 100x en durada obre categories de contingut completament noves: curts, tutorials, visualitzacions narratives, contingut d'episodis.
Com encaixa amb la generació de vídeo existent
La difusió paral·lelitzada no és una tècnica competidora amb els models actuals. És una capa arquitectònica que podria aplicar-se a Sora, Veo o qualsevol model de difusió.
Pensa-ho com:
- Models de difusió = el motor
- Difusió paral·lelitzada = el xassís que et permet posar diversos motors junts
Google, OpenAI i Runway tots podrien implementar enfocaments similars sobre els seus models de qualitat existents. La restricció bidireccional funciona independentment de l'arquitectura específica del model.
Implicacions per als creadors de contingut
Si avui estàs treballant amb limitacions de durada de vídeo amb IA:
- ✓Unir clips curts seguirà sent necessari a curt termini
- ✓Les capacitats d'extensió de vídeo es beneficiaran d'aquesta recerca
- ✓Espera veure 60+ segons convertir-se en estàndard el 2026
- ✓Els límits de 5+ minuts probablement arribaran als serveis el 2027
La cronologia depèn de la velocitat amb què els principals proveïdors integrin aquestes tècniques en els sistemes de producció.
La tècnica sota el capó
Per a aquells que vulguin aprofundir, l'arquitectura té diversos components clau:
Difusió de segments solapats
Cada segment es genera amb zones de "frontera" suau als límits:
def create_segment_with_overlap(segment_id, overlap_frames=16):
# Segment central
core_frames = generate_frames(segment_id)
# Regions de frontera per a barreja
left_border = generate_transition(
prev_segment_end,
core_frames[:overlap_frames]
)
right_border = generate_transition(
core_frames[-overlap_frames:],
next_segment_start
)
return concat(left_border, core_frames, right_border)Comunicació bidireccional
Durant cada pas de dessoroll, els segments veïns intercanvien els seus estats fronterers:
def bidirectional_denoise_step(segments, step):
# Recollir fronteres
boundaries = exchange_boundaries(segments)
# Dessorollar amb informació tant del passat com del futur
for i, seg in enumerate(segments):
seg = denoise(
seg,
step,
left_boundary=boundaries[i-1] if i > 0 else None,
right_boundary=boundaries[i+1] if i < len(segments)-1 else None
)
return segmentsProgramació de consistència
Els passos de difusió es ponderen per garantir una influència decreixent de les fronteres:
def consistency_weight(step, total_steps):
# Alta influència de fronteres aviat, baixa al final
return 1.0 - (step / total_steps) ** 2El camí cap a la producció
Article publicat
Tencent i HKU demostren 5 minuts de generació
Primers serveis
S'espera que els primers proveïdors integrin difusió paral·lelitzada
Disponibilitat àmplia
Generació de llarga durada es converteix en característica estàndard
Què significa això
La limitació de durada que definia la generació de vídeo amb IA ja no és fonamental. És un problema d'enginyeria amb solucions demostrades.
Durant anys, "el vídeo amb IA només pot fer clips curts" era una veritat acceptada. Aquest article demostra que era una limitació d'implementació, no una restricció teòrica.
Les implicacions s'estenen més enllà de la mera longitud:
- Narració: Prou durada per a arcs narratius
- Educació: Tutorials i explicacions de llarga durada
- Entreteniment: Contingut d'episodis generat per IA
- Comercial: Anuncis de llarga durada i contingut de marca
La pregunta ja no és "pot la IA fer vídeos llargs?" És "quan oferiran els serveis vídeos llargs?"
Basant-me en les trajectòries actuals: aviat.
Fonts
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts
CraftStory de ByteDance aconsegueix vídeos d'IA narratius de 5+ minuts a través de l'orquestració de fotogrames clau i la difusió bidireccional. Desglossem l'arquitectura que finalment resol el problema de la llarga durada.

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.