CraftStory Model 2.0: Hvordan tovejs-diffusion muliggør 5-minutters AI-videoer
Mens Sora 2 stopper ved 25 sekunder, har CraftStory netop lanceret et system, der genererer sammenhængende 5-minutters videoer. Hemmeligheden? Kørsel af flere diffusionsmotorer parallelt med tovejs-begrænsninger.

Elefanten i rummet for AI-video? Varighed. Sora 2 stopper ved 25 sekunder. Runway og Pika ligger omkring 10 sekunder. CraftStory kom netop ind og sagde: 5-minutters sammenhængende videoer. Teknikken bag det er faktisk klog.
Varighedsproblemet ingen løste
Her er sagen med nuværende AI-videomodeller: de er sprintere, ikke maratonløbere. Generer otte sekunders flot footage, prøv derefter at forlænge det, og du får den visuelle ækvivalent af stille post. Artefakter hober sig op. Karakterer ændrer sig. Det hele falder fra hinanden.
Den traditionelle tilgang fungerer sådan her: generer et stykke, brug de sidste par frames som kontekst til næste stykke, sy dem sammen. Problemet? Fejl akkumuleres. En lidt mærkelig håndposition i stykke et bliver en underlig klat i stykke fem.
CraftStory blev grundlagt af teamet bag OpenCV, computervisionsbiblioteket der kører i stort set alle visionssystemer, du nogensinde har brugt. Deres CEO Victor Erukhimov medstiftede Itseez, en computervision-startup som Intel købte i 2016.
Tovejs-diffusion: den arkitektoniske innovation
CraftStorys løsning vender den typiske tilgang på hovedet. I stedet for at generere sekventielt og håbe på det bedste, kører de flere mindre diffusionsmotorer samtidigt på tværs af hele videotidslinjen.
Tovejs-begrænsninger
Den centrale indsigt: "Den senere del af videoen kan også påvirke den tidligere del af videoen," forklarer Erukhimov. "Og det er ret vigtigt, fordi hvis du gør det én efter én, så spredes en artefakt, der vises i den første del, til den anden, og så akkumuleres det."
Tænk på det som at skrive en roman versus at lave en disposition. Sekventiel generering er som at skrive side et, derefter side to, derefter side tre, uden mulighed for at gå tilbage. CraftStorys tilgang er som at have en disposition, hvor kapitel ti kan informere, hvad der skal ske i kapitel to.
Traditionel sekventiel
- Generer segment A
- Brug slutningen af A til at starte B
- Brug slutningen af B til at starte C
- Håb intet akkumuleres
- Kryds fingre ved sammenføjningspunkter
Tovejs parallel
- Behandl alle segmenter samtidigt
- Hvert segment begrænser sine naboer
- Tidlige segmenter påvirkes af senere
- Artefakter selvkorrigerer på tværs af tidslinje
- Naturlig sammenhæng, ingen sammenføjning
Hvordan Model 2.0 faktisk virker
I øjeblikket er CraftStory Model 2.0 et video-til-video-system. Du leverer et billede og en styrevideo, og det genererer et output, hvor personen på dit billede udfører bevægelserne fra styrevideoen.
- ✓Upload et referencebillede (dit emne)
- ✓Levér en styrevideo (bevægelsesskabelonen)
- ✓Modellen syntetiserer præstationen
- ○Tekst-til-video kommer i fremtidig opdatering
Læbesynkroniseringssystemet skiller sig ud. Fodre det med et script eller lydspor, og det genererer matchende mundbevægelser. En separat gestusjusteringsalgoritme synkroniserer kropssprog med talerhytme og følelsesmæssig tone. Resultatet? Videoer, hvor personen faktisk ser ud til at tale de ord, ikke bare bevæge kæben.
CraftStory trænede på proprietært højfrekvens-footage optaget specifikt til modellen. Standard 30fps YouTube-klip har for meget bevægelsessløring til fine detaljer som fingre. De hyrede studier til at optage skuespillere ved højere billedfrekvenser for renere træningsdata.
Outputtet: hvad du faktisk får
- Op til 5 minutters kontinuerlig video
- 480p og 720p oprindelig opløsning
- 720p kan opskaleres til 1080p
- Landscape og portræt-formater
- Synkroniserede læbebevægelser
- Naturlig gestusjustering
- Kun video-til-video (ingen tekst-til-video endnu)
- Kræver styrevideo-input
- Ca. 15 minutter for 30 sekunder ved lav opløsning
- Statisk kamera i øjeblikket (bevægeligt kamera kommer)
Generering tager omkring 15 minutter for et lavopløseligt 30-sekunders klip. Det er langsommere end den næsten øjeblikkelige generering nogle modeller tilbyder, men afvejningen er sammenhængende langt output i stedet for smukke fragmenter, der ikke forbinder.
Hvorfor dette betyder noget for skabere
5-minutters-barrieren er ikke vilkårlig. Det er tærsklen, hvor AI-video bliver brugbar til faktisk indhold.
Sociale klip
Godt til TikTok-uddrag og annoncer, men begrænset historiefortælling
Korte forklaringer
Nok til en hurtig produktdemo eller konceptillustration
Rigtigt indhold
YouTube-vejledninger, træningsvideoer, præsentationer, narrativt indhold
Lang form
Hele episoder, dokumentarer, uddannelseskurser
Det meste erhvervsvideoindhold ligger i 2-5 minutters-intervallet. Produktdemoer. Træningsmoduler. Forklaringsvideoer. Intern kommunikation. Det er her CraftStory bliver relevant for professionelle anvendelser.
Use cases der åbner sig:
- Produktvejledninger med konsistent præsentator gennem hele forløbet
- Træningsvideoer, der ikke kræver talentplanlægning
- Personaliserede videobeskeder i stor skala
- Uddannelsesindhold med virtuelle instruktører
- Virksomhedskommunikation med genererede talspersoner
Det konkurrencemæssige landskab
CraftStory rejste 2 millioner dollars i seed-finansiering ledet af Andrew Filev, grundlægger af Wrike og Zencoder. Det er beskedent sammenlignet med de milliarder, der strømmer ind i OpenAI og Google, men det er nok til at bevise teknologien.
OpenCV-forbindelsen
Grundlæggerteamets baggrund betyder noget her. OpenCV driver computervisionsystemer på tværs af brancher. Disse folk forstår fundamentet i visuel behandling på et niveau, de fleste AI-video-startups ikke gør.
Tekst-til-video-funktionen er under udvikling. Når den lanceres, bliver værdipropositionen tydeligere: beskriv en 5-minutters video i tekst, få sammenhængende output uden den frame-for-frame kvalitetsforringelse, der plager andre værktøjer.
Hvad er næste skridt
Køreplansfunktioner▼
CraftStory har annonceret flere kommende funktioner:
- Tekst-til-video: Generer fra prompts uden styrevideo
- Bevægeligt kamera: Pan, zoom og tracking-optagelser
- Gå-og-tal: Emner, der bevæger sig gennem rummet, mens de taler
Tovejs-diffusionstilgangen er ikke bare et CraftStory-trick. Det er et mønster, som andre teams sandsynligvis vil adoptere. Når du løser "fejl akkumuleres fremad"-problemet, bliver længere generering en ingeniørudfordring snarere end en fundamental barriere.
Model 2.0 er i øjeblikket fokuseret på menneskecentreret video. Til scener uden mennesker vil du stadig have værktøjer optimeret til miljømæssig eller abstrakt generering. Dette er et specialistværktøj, ikke en generalist.
Det større billede
Vi ser AI-video gå gennem sin akavede teenagerfase. Modellerne kan producere fantastiske 10-sekunders klip, men bed dem om at opretholde sammenhæng over minutter, og de falder fra hinanden. CraftStorys tovejs-tilgang er ét svar på det problem.
Det virkelige spørgsmål: hvor længe, før denne teknik bliver adopteret af de større spillere? OpenAI, Google og Runway har alle ressourcerne til at implementere lignende arkitekturer. CraftStorys fordel er at være først på markedet med fungerende langtformsgenerering.
For nu, hvis du har brug for konsistent flerminutters AI-videoindhold med menneskelige emner, er CraftStory netop blevet det eneste spil i byen. Varighedsbarrieren er ikke brudt endnu, men nogen har netop sat en alvorlig revne i den.
Prøv det
CraftStory Model 2.0 er tilgængelig nu. Prisstrukturen er ikke blevet offentliggjort i detaljer, så du bliver nødt til at tjekke deres site for nuværende tilbud. Tekst-til-video kommer, hvilket vil gøre platformen tilgængelig for brugere uden eksisterende styrevideoindhold.

Henry
Kreativ teknologKreativ teknolog fra Lausanne, der udforsker hvor AI møder kunst. Eksperimenterer med generative modeller mellem elektroniske musiksessioner.