CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts
CraftStory de ByteDance aconsegueix vídeos d'IA narratius de 5+ minuts a través de l'orquestració de fotogrames clau i la difusió bidireccional. Desglossem l'arquitectura que finalment resol el problema de la llarga durada.

ByteDance acaba de publicar CraftStory, un sistema de generació de vídeo que produeix clips de 5+ minuts amb consistència de personatges i flux narratiu. Això no és simplement unir segments curts, és una revisió arquitectònica fonamental de com funciona la generació de vídeo de llarga durada.
El problema de la llarga durada
Cada model de generació de vídeo s'enfronta a la mateixa restricció fonamental: els requisits de memòria creixen quadràticament amb la durada del vídeo. Duplicar la longitud significa quadruplicar la memòria.
Els límits actuals ho deixen clar:
- Sora 2: 60 segons màxim
- Veo 3: 8 segons base
- Runway Gen-4.5: 10 segons
- Kling 2.6: 10-20 segons
CraftStory aconsegueix 5+ minuts, un increment de 10-50x sobre l'estat de l'art. Com?
L'arquitectura de tres etapes
CraftStory divideix la generació en tres fases distintes:
Etapa 1: planificació de guió
Un model de llenguatge desglossa la narrativa en ritmes d'escena, cada un amb descripcions detallades de personatges, accions i context visual.
Etapa 2: generació de fotogrames clau
Els fotogrames clau d'ancoratge es generen per a moments crítics: canvis d'escena, ritmes d'acció clau, transicions emocionals.
Etapa 3: interpolació bidireccional
El contingut entre fotogrames clau es genera amb influència tant endavant com enrere, assegurant transicions suaus.
# Arquitectura simplificada de CraftStory
class CraftStory:
def __init__(self):
self.script_planner = LLMPlanner()
self.keyframe_generator = KeyframeModel()
self.interpolator = BidirectionalInterpolator()
def generate(self, narrative_prompt, duration_minutes=5):
# Fase 1: Planificació
script = self.script_planner.create_beats(
narrative_prompt,
duration_minutes
)
# Fase 2: Fotogrames clau
keyframes = []
for beat in script.beats:
kf = self.keyframe_generator.generate(
beat.description,
beat.timestamp,
character_refs=script.characters
)
keyframes.append(kf)
# Fase 3: Interpolació
full_video = self.interpolator.fill_between(
keyframes,
script.beats
)
return full_videoInterpolació bidireccional: la innovació clau
La interpolació tradicional funciona en una direcció: donat el fotograma A, genera fotogrames fins al fotograma B. Això crea una narrativa visual "de dalt a baix" on les decisions preses aviat bloquegen les posteriors.
CraftStory utilitza difusió bidireccional: tant A com B influeixen en el contingut intermedi simultàniament. Durant el procés de dessorollada, la informació flueix en ambdues direccions.
- El fotograma A → genera cap endavant → arriba a B (o no)
- La inconsistència s'acumula
- Les transicions sovint són brusques
- Cap mecanisme de correcció
- Fotograma A i fotograma B → s'influeixen mútuament
- La consistència s'aplica des de tots dos extrems
- Transicions més suaus per disseny
- L'autocorrecció integrada
Consistència de personatges en escenes
Un dels problemes més difícils en vídeo de llarga durada: els personatges canvien d'aparença entre escenes. CraftStory aborda això a través d'incrustacions d'identitat que persisteixen a través de tot el pipeline de generació.
class CharacterIdentityBank:
def __init__(self, max_characters=8):
self.identities = {}
def register_character(self, name, reference_frames):
# Extreure característiques d'identitat de les referències
identity_embedding = self.extract_identity(reference_frames)
self.identities[name] = identity_embedding
def condition_generation(self, frame_generator, scene_description):
# Injectar restriccions d'identitat durant la generació
characters_in_scene = self.parse_characters(scene_description)
identity_conditions = [
self.identities[char]
for char in characters_in_scene
]
return frame_generator.generate(
scene_description,
identity_conditions=identity_conditions
)El sistema rastreja característiques de personatges, inclosos trets facials, tipus de cos, estil de vestimenta i patrons de moviment, i les aplica de manera consistent al llarg del vídeo.
Implicacions pràctiques
CraftStory canvia el que és possible amb la generació de vídeo amb IA. La durada deixa de ser la restricció principal.
Noves categories de contingut es tornen viables:
- ✓Curts i curtmetratges generats per IA
- ✓Tutorials i contingut educatiu de llarga durada
- ✓Prototipat de contingut d'episodis
- ✓Visualització narrativa per a guions
- ✓Documentals generats procedimentalment
Comparació amb altres enfocaments de llarga durada
| Sistema | Durada màxima | Mètode | Disponibilitat |
|---|---|---|---|
| CraftStory | 5+ minuts | Fotogrames clau + bidireccional | Recerca |
| Difusió paral·lelitzada | 5+ minuts | Multi-GPU paral·lel | Recerca |
| Sora 2 | 60 segons | Context estès | Producció |
| Veo 3 | 8 segons (extensible) | Base + extensió | Producció |
L'enfocament de CraftStory difereix de la difusió paral·lelitzada que utilitza múltiples GPUs per processar segments simultàniament. CraftStory se centra en la qualitat narrativa a través de l'orquestració de fotogrames clau, mentre que la difusió paral·lelitzada emfatitza l'escalabilitat computacional.
Limitacions i treball futur
- Durada de 5+ minuts demostrada
- Consistència de personatges mantinguda
- Flux narratiu coherent
- L'arquitectura és extensible
- Només en fase de recerca (no en producció)
- Requereix recursos computacionals significatius
- Moviment de càmera limitat entre escenes
- Efectes de física complexa desafiants
El camí cap a la producció
Article publicat
ByteDance demostra arquitectura CraftStory
Accés beta
S'espera proves limitades
Integració
Potencialment integrat en CapCut o eines ByteDance
Característica comuna
Llarga durada es converteix en estàndard de la indústria
Què significa per als creadors
La barrera de "el vídeo amb IA només pot fer clips curts" ha caigut. La pregunta ara és quan les eines de producció posaran aquestes capacitats a les teves mans.
Si estàs planificant projectes de vídeo amb IA:
- A curt termini (2025-2026): Continua treballant amb les limitacions actuals, però planifica per a l'expansió
- A mitjà termini (2026-2027): Espera capacitats de llarga durada en els serveis principals
- A llarg termini (2027+): La generació de llarga durada es converteix en característica estàndard
CraftStory és un article de recerca avui. Serà una característica del producte demà. L'arquitectura ha demostrat que 5 minuts és possible; ara és qüestió d'enginyeria portar-ho a les eines de creador.
La història es pot explicar. Literalment.
Fonts
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

Més enllà del límit d'un minut: com la difusió paral·lelitzada habilita vídeos d'IA de 5 minuts
La generació de vídeo amb IA ha estat limitada a clips curts. Un nou article de Tencent i la Universitat de Hong Kong demostra com restriccions bidireccionals i difusió paral·lelitzada poden generar vídeos de 5+ minuts amb consistència temporal, un salt de 100x en durada.

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Sora 2 vs Runway Gen-4.5 vs Veo 3: comparativa de generació de vídeo IA 2025
Comparativa exhaustiva dels tres principals generadors de vídeo amb IA del desembre de 2025. Detallem la qualitat visual, les característiques d'àudio, els preus i els millors casos d'ús per a cada eina.