Meta Pixel
AlexisAlexis
6 min read
1010 paraules

CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts

CraftStory de ByteDance aconsegueix vídeos d'IA narratius de 5+ minuts a través de l'orquestració de fotogrames clau i la difusió bidireccional. Desglossem l'arquitectura que finalment resol el problema de la llarga durada.

CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts

ByteDance acaba de publicar CraftStory, un sistema de generació de vídeo que produeix clips de 5+ minuts amb consistència de personatges i flux narratiu. Això no és simplement unir segments curts, és una revisió arquitectònica fonamental de com funciona la generació de vídeo de llarga durada.

El problema de la llarga durada

💡

Cada model de generació de vídeo s'enfronta a la mateixa restricció fonamental: els requisits de memòria creixen quadràticament amb la durada del vídeo. Duplicar la longitud significa quadruplicar la memòria.

Els límits actuals ho deixen clar:

CraftStory aconsegueix 5+ minuts, un increment de 10-50x sobre l'estat de l'art. Com?

L'arquitectura de tres etapes

CraftStory divideix la generació en tres fases distintes:

📝

Etapa 1: planificació de guió

Un model de llenguatge desglossa la narrativa en ritmes d'escena, cada un amb descripcions detallades de personatges, accions i context visual.

🎬

Etapa 2: generació de fotogrames clau

Els fotogrames clau d'ancoratge es generen per a moments crítics: canvis d'escena, ritmes d'acció clau, transicions emocionals.

🔄

Etapa 3: interpolació bidireccional

El contingut entre fotogrames clau es genera amb influència tant endavant com enrere, assegurant transicions suaus.

# Arquitectura simplificada de CraftStory
class CraftStory:
    def __init__(self):
        self.script_planner = LLMPlanner()
        self.keyframe_generator = KeyframeModel()
        self.interpolator = BidirectionalInterpolator()
 
    def generate(self, narrative_prompt, duration_minutes=5):
        # Fase 1: Planificació
        script = self.script_planner.create_beats(
            narrative_prompt,
            duration_minutes
        )
 
        # Fase 2: Fotogrames clau
        keyframes = []
        for beat in script.beats:
            kf = self.keyframe_generator.generate(
                beat.description,
                beat.timestamp,
                character_refs=script.characters
            )
            keyframes.append(kf)
 
        # Fase 3: Interpolació
        full_video = self.interpolator.fill_between(
            keyframes,
            script.beats
        )
 
        return full_video

Interpolació bidireccional: la innovació clau

5+
Minuts de durada
Bidireccional
Influència
Consistent
Personatges

La interpolació tradicional funciona en una direcció: donat el fotograma A, genera fotogrames fins al fotograma B. Això crea una narrativa visual "de dalt a baix" on les decisions preses aviat bloquegen les posteriors.

CraftStory utilitza difusió bidireccional: tant A com B influeixen en el contingut intermedi simultàniament. Durant el procés de dessorollada, la informació flueix en ambdues direccions.

Interpolació estàndard
  • El fotograma A → genera cap endavant → arriba a B (o no)
  • La inconsistència s'acumula
  • Les transicions sovint són brusques
  • Cap mecanisme de correcció
Bidireccional CraftStory
  • Fotograma A i fotograma B → s'influeixen mútuament
  • La consistència s'aplica des de tots dos extrems
  • Transicions més suaus per disseny
  • L'autocorrecció integrada

Consistència de personatges en escenes

Un dels problemes més difícils en vídeo de llarga durada: els personatges canvien d'aparença entre escenes. CraftStory aborda això a través d'incrustacions d'identitat que persisteixen a través de tot el pipeline de generació.

class CharacterIdentityBank:
    def __init__(self, max_characters=8):
        self.identities = {}
 
    def register_character(self, name, reference_frames):
        # Extreure característiques d'identitat de les referències
        identity_embedding = self.extract_identity(reference_frames)
        self.identities[name] = identity_embedding
 
    def condition_generation(self, frame_generator, scene_description):
        # Injectar restriccions d'identitat durant la generació
        characters_in_scene = self.parse_characters(scene_description)
 
        identity_conditions = [
            self.identities[char]
            for char in characters_in_scene
        ]
 
        return frame_generator.generate(
            scene_description,
            identity_conditions=identity_conditions
        )

El sistema rastreja característiques de personatges, inclosos trets facials, tipus de cos, estil de vestimenta i patrons de moviment, i les aplica de manera consistent al llarg del vídeo.

Implicacions pràctiques

💡

CraftStory canvia el que és possible amb la generació de vídeo amb IA. La durada deixa de ser la restricció principal.

Noves categories de contingut es tornen viables:

  • Curts i curtmetratges generats per IA
  • Tutorials i contingut educatiu de llarga durada
  • Prototipat de contingut d'episodis
  • Visualització narrativa per a guions
  • Documentals generats procedimentalment

Comparació amb altres enfocaments de llarga durada

SistemaDurada màximaMètodeDisponibilitat
CraftStory5+ minutsFotogrames clau + bidireccionalRecerca
Difusió paral·lelitzada5+ minutsMulti-GPU paral·lelRecerca
Sora 260 segonsContext estèsProducció
Veo 38 segons (extensible)Base + extensióProducció

L'enfocament de CraftStory difereix de la difusió paral·lelitzada que utilitza múltiples GPUs per processar segments simultàniament. CraftStory se centra en la qualitat narrativa a través de l'orquestració de fotogrames clau, mentre que la difusió paral·lelitzada emfatitza l'escalabilitat computacional.

Limitacions i treball futur

Punts forts
  • Durada de 5+ minuts demostrada
  • Consistència de personatges mantinguda
  • Flux narratiu coherent
  • L'arquitectura és extensible
Limitacions actuals
  • Només en fase de recerca (no en producció)
  • Requereix recursos computacionals significatius
  • Moviment de càmera limitat entre escenes
  • Efectes de física complexa desafiants

El camí cap a la producció

Des 2025

Article publicat

ByteDance demostra arquitectura CraftStory

Q1 2026

Accés beta

S'espera proves limitades

Q3 2026

Integració

Potencialment integrat en CapCut o eines ByteDance

2027

Característica comuna

Llarga durada es converteix en estàndard de la indústria

Què significa per als creadors

La barrera de "el vídeo amb IA només pot fer clips curts" ha caigut. La pregunta ara és quan les eines de producció posaran aquestes capacitats a les teves mans.

Si estàs planificant projectes de vídeo amb IA:

  • A curt termini (2025-2026): Continua treballant amb les limitacions actuals, però planifica per a l'expansió
  • A mitjà termini (2026-2027): Espera capacitats de llarga durada en els serveis principals
  • A llarg termini (2027+): La generació de llarga durada es converteix en característica estàndard

CraftStory és un article de recerca avui. Serà una característica del producte demà. L'arquitectura ha demostrat que 5 minuts és possible; ara és qüestió d'enginyeria portar-ho a les eines de creador.

La història es pot explicar. Literalment.


Fonts

T'ha resultat útil aquest article?

Alexis

Alexis

Enginyer d'IA

Enginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

CraftStory: l'arquitectura darrere dels vídeos d'IA de 5 minuts