CraftStory Model 2.0: Hur bidirektionell diffusion möjliggör 5-minuters AI-videor

Elefanten i rummet när det gäller AI-video? Längden. Sora 2 stannar vid 25 sekunder. Runway och Pika håller sig kring 10 sekunder. CraftStory kom in och sa "håll min öl": 5-minuters sammanhängande videor. Tekniken bakom är genuint smart.

Längdproblemet som ingen löst

Grejen med nuvarande AI-videomodeller: de är sprintare, inte maratonlöpare. Generera åtta sekunder fantastisk film, försök sedan förlänga den, och du får den visuella motsvarigheten till telefon-leken. Artefakter hopas. Karaktärer driver. Alltihop faller samman.

25s

Sora 2 Max

10s

Typiska modeller

5min

CraftStory

Det traditionella tillvägagångssättet fungerar så här: generera ett segment, använd de sista bildrutorna som kontext för nästa segment, sy ihop dem. Problemet? Fel ackumuleras. En lite konstig handposition i segment ett blir en konstig klump vid segment fem.

💡

CraftStory grundades av teamet bakom OpenCV, datorvisionsbiblioteket som körs i praktiskt taget varje visionssystem du någonsin använt. Deras VD Victor Erukhimov var medgrundare till Itseez, en datorvisionsstartup som Intel förvärvade 2016.

Bidirektionell diffusion: den arkitektoniska innovationen

CraftStorys lösning vänder det typiska tillvägagångssättet upp och ner. Istället för att generera sekventiellt och hoppas på det bästa kör de flera mindre diffusionsmotorer samtidigt över hela videotidslinjen.

🔄

Bidirektionella begränsningar

Nyckelinsikten: "Den senare delen av videon kan påverka den tidigare delen av videon också," förklarar Erukhimov. "Och det är ganska viktigt, för om du gör det ett efter ett, då sprider sig en artefakt som dyker upp i första delen till den andra, och sedan ackumuleras det."

Tänk på det som att skriva en roman kontra att göra en disposition. Sekventiell generering är som att skriva sida ett, sedan sida två, sedan sida tre, utan möjlighet att gå tillbaka. CraftStorys tillvägagångssätt är som att ha en disposition där kapitel tio kan påverka vad som behöver hända i kapitel två.

Traditionellt sekventiellt

Generera segment A
Använd slutet av A för att starta B
Använd slutet av B för att starta C
Hoppas att inget hopas
Håll tummarna vid skarvpunkterna

Bidirektionellt parallellt

Bearbeta alla segment samtidigt
Varje segment begränsar sina grannar
Tidiga segment påverkas av senare
Artefakter självkorrigeras över tidslinjen
Naturlig sammanhang, ingen skarv

Hur Model 2.0 faktiskt fungerar

För närvarande är CraftStory Model 2.0 ett video-till-video-system. Du tillhandahåller en bild och en drivande video, och den genererar en utdata där personen i din bild utför rörelserna från den drivande videon.

✓Ladda upp en referensbild (ditt motiv)
✓Tillhandahåll en drivande video (rörelsemallen)
✓Modellen syntetiserar framförandet
○Text-till-video kommer i framtida uppdatering

Läppsynkroniseringssystemet sticker ut. Mata det med ett manus eller ljudspår, och det genererar matchande munrörelser. En separat gestjusteringsalgoritm synkroniserar kroppsspråk med taltakt och emotionell ton. Resultatet? Videor där personen faktiskt ser ut att tala just de orden, inte bara flaxa med käken.

💡

CraftStory tränade på proprietärt högbildruts-material som filmats specifikt för modellen. Vanliga 30fps YouTube-klipp har för mycket rörelseoskärpa för fina detaljer som fingrar. De anlitade studior för att fånga skådespelare vid högre bildrutsfrekvenser för renare träningsdata.

Utdata: vad du faktiskt får

✓Funktioner

Upp till 5 minuters kontinuerlig video
480p och 720p nativ upplösning
720p skalbar till 1080p
Liggande och stående format
Synkroniserade läpprörelser
Naturlig gestjustering

✗Begränsningar

Endast video-till-video (ännu ingen text-till-video)
Kräver drivande videoindata
~15 minuter för 30 sekunder i låg upplösning
Statisk kamera för närvarande (rörlig kamera kommer)

Generering tar cirka 15 minuter för ett lågupplöst 30-sekundersklipp. Det är långsammare än den nästan omedelbara generering vissa modeller erbjuder, men kompromissen är sammanhängande långformsutdata istället för vackra fragment som inte kopplar samman.

Varför detta spelar roll för skapare

5-minutersbarriären är inte godtycklig. Det är tröskeln där AI-video blir användbar för faktiskt innehåll.

10 sek

Sociala klipp

Bra för TikTok-snippets och annonser, men begränsat berättande

30 sek

Korta förklarare

Tillräckligt för en snabb produktdemo eller konceptillustration

2-5 min

Riktigt innehåll

YouTube-tutorials, utbildningsvideor, presentationer, narrativt innehåll

Framtid

Långform

Hela avsnitt, dokumentärer, utbildningskurser

Mest affärsvideomaterial lever i 2-5-minutersintervallet. Produktdemos. Utbildningsmoduler. Förklararvideor. Intern kommunikation. Det är här CraftStory blir relevant för professionella användningsfall.

Användningsfall som öppnas:

Produkttutorials med konsekvent presentatör hela vägen
Utbildningsvideor som inte kräver talangschemaläggning
Personaliserade videomeddelanden i skala
Utbildningsinnehåll med virtuella instruktörer
Företagskommunikation med genererade talespersoner

Det konkurrensmässiga landskapet

CraftStory samlade 2 miljoner dollar i seed-finansiering ledd av Andrew Filev, grundare av Wrike och Zencoder. Det är blygsamt jämfört med de miljarder som flödar in i OpenAI och Google, men tillräckligt för att bevisa teknologin.

🎯

OpenCV-kopplingen

Grundarteamets meriter spelar roll här. OpenCV driver datorvisionssystem över branscher. Dessa personer förstår grunderna i visuell bearbetning på en nivå som de flesta AI-videostartups inte gör.

Text-till-video-funktionen är under utveckling. När den lanseras blir värdeerbjudandet tydligare: beskriv en 5-minutersvideo i text, få sammanhängande utdata utan den bildruta-för-bildruta-kvalitetsförsämring som plågar andra verktyg.

Vad kommer härnäst

Färdplansfunktioner▼

CraftStory har meddelat flera kommande funktioner:

Text-till-video: Generera från prompter utan drivande video
Rörlig kamera: Panoreringar, zoom och följande tagningar
Gå-och-prata: Motiv som rör sig genom rymden medan de talar

Det bidirektionella diffusionstillvägagångssättet är inte bara ett CraftStory-trick. Det är ett mönster som andra team sannolikt kommer att anta. När du löst problemet "fel ackumuleras framåt" blir längre generering en ingenjörsutmaning snarare än en grundläggande barriär.

⚠️

Model 2.0 är för närvarande fokuserad på människocentrerad video. För scener utan människor vill du fortfarande ha verktyg optimerade för miljö- eller abstrakt generering. Detta är ett specialistverktyg, inte en generalist.

Den större bilden

Vi ser AI-video gå igenom sin fumliga tonårsfas. Modellerna kan producera fantastiska 10-sekundersklipp, men be dem bibehålla sammanhang över minuter och de faller samman. CraftStorys bidirektionella tillvägagångssätt är ett svar på det problemet.

Den verkliga frågan: hur länge tills denna teknik antas av de större aktörerna? OpenAI, Google och Runway har alla resurserna att implementera liknande arkitekturer. CraftStorys fördel är att vara först på marknaden med fungerande långformsgenerering.

För närvarande, om du behöver konsekvent flerminuters AI-videoinnehåll med mänskliga motiv, har CraftStory precis blivit det enda spelet i stan. Längdbarriären är inte bruten än, men någon har precis satt en seriös spricka i den.

🚀

Prova det

CraftStory Model 2.0 är tillgänglig nu. Prisstrukturen har inte detaljats offentligt, så du behöver kolla deras webbplats för nuvarande erbjudanden. Text-till-video kommer, vilket gör plattformen tillgänglig för användare utan befintligt drivande videoinnehåll.

CraftStory Model 2.0: Hur bidirektionell diffusion möjliggör 5-minuters AI-videor

Längdproblemet som ingen löst

Bidirektionell diffusion: den arkitektoniska innovationen

Bidirektionella begränsningar

Hur Model 2.0 faktiskt fungerar

Utdata: vad du faktiskt får

Varför detta spelar roll för skapare

Sociala klipp

Korta förklarare

Riktigt innehåll

Långform

Det konkurrensmässiga landskapet

OpenCV-kopplingen

Vad kommer härnäst

Den större bilden

Prova det

Henry

Like what you read?

Relaterade artiklar

Pika 2.5: Demokratisering av AI-video genom hastighet, pris och kreativa verktyg

Runway Gen-4.5 tar förstaplatsen: Hur 100 ingenjörer överträffade Google och OpenAI

Veo 3.1 Ingredients to Video: din kompletta guide till bild-till-video-generering

Gillar du den här artikeln?