CraftStory Model 2.0: Hur bidirektionell diffusion möjliggör 5-minuters AI-videor
Medan Sora 2 maxar på 25 sekunder har CraftStory släppt ett system som genererar sammanhängande 5-minuters videor. Hemligheten? Flera diffusionsmotorer som körs parallellt med bidirektionella begränsningar.

Elefanten i rummet när det gäller AI-video? Längden. Sora 2 stannar vid 25 sekunder. Runway och Pika håller sig kring 10 sekunder. CraftStory kom in och sa "håll min öl": 5-minuters sammanhängande videor. Tekniken bakom är genuint smart.
Längdproblemet som ingen löst
Grejen med nuvarande AI-videomodeller: de är sprintare, inte maratonlöpare. Generera åtta sekunder fantastisk film, försök sedan förlänga den, och du får den visuella motsvarigheten till telefon-leken. Artefakter hopas. Karaktärer driver. Alltihop faller samman.
Det traditionella tillvägagångssättet fungerar så här: generera ett segment, använd de sista bildrutorna som kontext för nästa segment, sy ihop dem. Problemet? Fel ackumuleras. En lite konstig handposition i segment ett blir en konstig klump vid segment fem.
CraftStory grundades av teamet bakom OpenCV, datorvisionsbiblioteket som körs i praktiskt taget varje visionssystem du någonsin använt. Deras VD Victor Erukhimov var medgrundare till Itseez, en datorvisionsstartup som Intel förvärvade 2016.
Bidirektionell diffusion: den arkitektoniska innovationen
CraftStorys lösning vänder det typiska tillvägagångssättet upp och ner. Istället för att generera sekventiellt och hoppas på det bästa kör de flera mindre diffusionsmotorer samtidigt över hela videotidslinjen.
Bidirektionella begränsningar
Nyckelinsikten: "Den senare delen av videon kan påverka den tidigare delen av videon också," förklarar Erukhimov. "Och det är ganska viktigt, för om du gör det ett efter ett, då sprider sig en artefakt som dyker upp i första delen till den andra, och sedan ackumuleras det."
Tänk på det som att skriva en roman kontra att göra en disposition. Sekventiell generering är som att skriva sida ett, sedan sida två, sedan sida tre, utan möjlighet att gå tillbaka. CraftStorys tillvägagångssätt är som att ha en disposition där kapitel tio kan påverka vad som behöver hända i kapitel två.
Traditionellt sekventiellt
- Generera segment A
- Använd slutet av A för att starta B
- Använd slutet av B för att starta C
- Hoppas att inget hopas
- Håll tummarna vid skarvpunkterna
Bidirektionellt parallellt
- Bearbeta alla segment samtidigt
- Varje segment begränsar sina grannar
- Tidiga segment påverkas av senare
- Artefakter självkorrigeras över tidslinjen
- Naturlig sammanhang, ingen skarv
Hur Model 2.0 faktiskt fungerar
För närvarande är CraftStory Model 2.0 ett video-till-video-system. Du tillhandahåller en bild och en drivande video, och den genererar en utdata där personen i din bild utför rörelserna från den drivande videon.
- ✓Ladda upp en referensbild (ditt motiv)
- ✓Tillhandahåll en drivande video (rörelsemallen)
- ✓Modellen syntetiserar framförandet
- ○Text-till-video kommer i framtida uppdatering
Läppsynkroniseringssystemet sticker ut. Mata det med ett manus eller ljudspår, och det genererar matchande munrörelser. En separat gestjusteringsalgoritm synkroniserar kroppsspråk med taltakt och emotionell ton. Resultatet? Videor där personen faktiskt ser ut att tala just de orden, inte bara flaxa med käken.
CraftStory tränade på proprietärt högbildruts-material som filmats specifikt för modellen. Vanliga 30fps YouTube-klipp har för mycket rörelseoskärpa för fina detaljer som fingrar. De anlitade studior för att fånga skådespelare vid högre bildrutsfrekvenser för renare träningsdata.
Utdata: vad du faktiskt får
- Upp till 5 minuters kontinuerlig video
- 480p och 720p nativ upplösning
- 720p skalbar till 1080p
- Liggande och stående format
- Synkroniserade läpprörelser
- Naturlig gestjustering
- Endast video-till-video (ännu ingen text-till-video)
- Kräver drivande videoindata
- ~15 minuter för 30 sekunder i låg upplösning
- Statisk kamera för närvarande (rörlig kamera kommer)
Generering tar cirka 15 minuter för ett lågupplöst 30-sekundersklipp. Det är långsammare än den nästan omedelbara generering vissa modeller erbjuder, men kompromissen är sammanhängande långformsutdata istället för vackra fragment som inte kopplar samman.
Varför detta spelar roll för skapare
5-minutersbarriären är inte godtycklig. Det är tröskeln där AI-video blir användbar för faktiskt innehåll.
Sociala klipp
Bra för TikTok-snippets och annonser, men begränsat berättande
Korta förklarare
Tillräckligt för en snabb produktdemo eller konceptillustration
Riktigt innehåll
YouTube-tutorials, utbildningsvideor, presentationer, narrativt innehåll
Långform
Hela avsnitt, dokumentärer, utbildningskurser
Mest affärsvideomaterial lever i 2-5-minutersintervallet. Produktdemos. Utbildningsmoduler. Förklararvideor. Intern kommunikation. Det är här CraftStory blir relevant för professionella användningsfall.
Användningsfall som öppnas:
- Produkttutorials med konsekvent presentatör hela vägen
- Utbildningsvideor som inte kräver talangschemaläggning
- Personaliserade videomeddelanden i skala
- Utbildningsinnehåll med virtuella instruktörer
- Företagskommunikation med genererade talespersoner
Det konkurrensmässiga landskapet
CraftStory samlade 2 miljoner dollar i seed-finansiering ledd av Andrew Filev, grundare av Wrike och Zencoder. Det är blygsamt jämfört med de miljarder som flödar in i OpenAI och Google, men tillräckligt för att bevisa teknologin.
OpenCV-kopplingen
Grundarteamets meriter spelar roll här. OpenCV driver datorvisionssystem över branscher. Dessa personer förstår grunderna i visuell bearbetning på en nivå som de flesta AI-videostartups inte gör.
Text-till-video-funktionen är under utveckling. När den lanseras blir värdeerbjudandet tydligare: beskriv en 5-minutersvideo i text, få sammanhängande utdata utan den bildruta-för-bildruta-kvalitetsförsämring som plågar andra verktyg.
Vad kommer härnäst
Färdplansfunktioner▼
CraftStory har meddelat flera kommande funktioner:
- Text-till-video: Generera från prompter utan drivande video
- Rörlig kamera: Panoreringar, zoom och följande tagningar
- Gå-och-prata: Motiv som rör sig genom rymden medan de talar
Det bidirektionella diffusionstillvägagångssättet är inte bara ett CraftStory-trick. Det är ett mönster som andra team sannolikt kommer att anta. När du löst problemet "fel ackumuleras framåt" blir längre generering en ingenjörsutmaning snarare än en grundläggande barriär.
Model 2.0 är för närvarande fokuserad på människocentrerad video. För scener utan människor vill du fortfarande ha verktyg optimerade för miljö- eller abstrakt generering. Detta är ett specialistverktyg, inte en generalist.
Den större bilden
Vi ser AI-video gå igenom sin fumliga tonårsfas. Modellerna kan producera fantastiska 10-sekundersklipp, men be dem bibehålla sammanhang över minuter och de faller samman. CraftStorys bidirektionella tillvägagångssätt är ett svar på det problemet.
Den verkliga frågan: hur länge tills denna teknik antas av de större aktörerna? OpenAI, Google och Runway har alla resurserna att implementera liknande arkitekturer. CraftStorys fördel är att vara först på marknaden med fungerande långformsgenerering.
För närvarande, om du behöver konsekvent flerminuters AI-videoinnehåll med mänskliga motiv, har CraftStory precis blivit det enda spelet i stan. Längdbarriären är inte bruten än, men någon har precis satt en seriös spricka i den.
Prova det
CraftStory Model 2.0 är tillgänglig nu. Prisstrukturen har inte detaljats offentligt, så du behöver kolla deras webbplats för nuvarande erbjudanden. Text-till-video kommer, vilket gör plattformen tillgänglig för användare utan befintligt drivande videoinnehåll.

Henry
Kreativ teknologKreativ teknolog från Lausanne som utforskar var AI möter konst. Experimenterar med generativa modeller mellan elektroniska musiksessioner.