CraftStory Model 2.0: Hvordan tovejs-diffusion muliggør 5-minutters AI-videoer

Elefanten i rummet for AI-video? Varighed. Sora 2 stopper ved 25 sekunder. Runway og Pika ligger omkring 10 sekunder. CraftStory kom netop ind og sagde: 5-minutters sammenhængende videoer. Teknikken bag det er faktisk klog.

Varighedsproblemet ingen løste

Her er sagen med nuværende AI-videomodeller: de er sprintere, ikke maratonløbere. Generer otte sekunders flot footage, prøv derefter at forlænge det, og du får den visuelle ækvivalent af stille post. Artefakter hober sig op. Karakterer ændrer sig. Det hele falder fra hinanden.

25s

Sora 2 Max

10s

Typiske modeller

5min

CraftStory

Den traditionelle tilgang fungerer sådan her: generer et stykke, brug de sidste par frames som kontekst til næste stykke, sy dem sammen. Problemet? Fejl akkumuleres. En lidt mærkelig håndposition i stykke et bliver en underlig klat i stykke fem.

💡

CraftStory blev grundlagt af teamet bag OpenCV, computervisionsbiblioteket der kører i stort set alle visionssystemer, du nogensinde har brugt. Deres CEO Victor Erukhimov medstiftede Itseez, en computervision-startup som Intel købte i 2016.

Tovejs-diffusion: den arkitektoniske innovation

CraftStorys løsning vender den typiske tilgang på hovedet. I stedet for at generere sekventielt og håbe på det bedste, kører de flere mindre diffusionsmotorer samtidigt på tværs af hele videotidslinjen.

🔄

Tovejs-begrænsninger

Den centrale indsigt: "Den senere del af videoen kan også påvirke den tidligere del af videoen," forklarer Erukhimov. "Og det er ret vigtigt, fordi hvis du gør det én efter én, så spredes en artefakt, der vises i den første del, til den anden, og så akkumuleres det."

Tænk på det som at skrive en roman versus at lave en disposition. Sekventiel generering er som at skrive side et, derefter side to, derefter side tre, uden mulighed for at gå tilbage. CraftStorys tilgang er som at have en disposition, hvor kapitel ti kan informere, hvad der skal ske i kapitel to.

Traditionel sekventiel

Generer segment A
Brug slutningen af A til at starte B
Brug slutningen af B til at starte C
Håb intet akkumuleres
Kryds fingre ved sammenføjningspunkter

Tovejs parallel

Behandl alle segmenter samtidigt
Hvert segment begrænser sine naboer
Tidlige segmenter påvirkes af senere
Artefakter selvkorrigerer på tværs af tidslinje
Naturlig sammenhæng, ingen sammenføjning

Hvordan Model 2.0 faktisk virker

I øjeblikket er CraftStory Model 2.0 et video-til-video-system. Du leverer et billede og en styrevideo, og det genererer et output, hvor personen på dit billede udfører bevægelserne fra styrevideoen.

✓Upload et referencebillede (dit emne)
✓Levér en styrevideo (bevægelsesskabelonen)
✓Modellen syntetiserer præstationen
○Tekst-til-video kommer i fremtidig opdatering

Læbesynkroniseringssystemet skiller sig ud. Fodre det med et script eller lydspor, og det genererer matchende mundbevægelser. En separat gestusjusteringsalgoritme synkroniserer kropssprog med talerhytme og følelsesmæssig tone. Resultatet? Videoer, hvor personen faktisk ser ud til at tale de ord, ikke bare bevæge kæben.

💡

CraftStory trænede på proprietært højfrekvens-footage optaget specifikt til modellen. Standard 30fps YouTube-klip har for meget bevægelsessløring til fine detaljer som fingre. De hyrede studier til at optage skuespillere ved højere billedfrekvenser for renere træningsdata.

Outputtet: hvad du faktisk får

✓Funktioner

Op til 5 minutters kontinuerlig video
480p og 720p oprindelig opløsning
720p kan opskaleres til 1080p
Landscape og portræt-formater
Synkroniserede læbebevægelser
Naturlig gestusjustering

✗Begrænsninger

Kun video-til-video (ingen tekst-til-video endnu)
Kræver styrevideo-input
Ca. 15 minutter for 30 sekunder ved lav opløsning
Statisk kamera i øjeblikket (bevægeligt kamera kommer)

Generering tager omkring 15 minutter for et lavopløseligt 30-sekunders klip. Det er langsommere end den næsten øjeblikkelige generering nogle modeller tilbyder, men afvejningen er sammenhængende langt output i stedet for smukke fragmenter, der ikke forbinder.

Hvorfor dette betyder noget for skabere

5-minutters-barrieren er ikke vilkårlig. Det er tærsklen, hvor AI-video bliver brugbar til faktisk indhold.

10 sek

Sociale klip

Godt til TikTok-uddrag og annoncer, men begrænset historiefortælling

30 sek

Korte forklaringer

Nok til en hurtig produktdemo eller konceptillustration

2-5 min

Rigtigt indhold

YouTube-vejledninger, træningsvideoer, præsentationer, narrativt indhold

Fremtid

Lang form

Hele episoder, dokumentarer, uddannelseskurser

Det meste erhvervsvideoindhold ligger i 2-5 minutters-intervallet. Produktdemoer. Træningsmoduler. Forklaringsvideoer. Intern kommunikation. Det er her CraftStory bliver relevant for professionelle anvendelser.

Use cases der åbner sig:

Produktvejledninger med konsistent præsentator gennem hele forløbet
Træningsvideoer, der ikke kræver talentplanlægning
Personaliserede videobeskeder i stor skala
Uddannelsesindhold med virtuelle instruktører
Virksomhedskommunikation med genererede talspersoner

Det konkurrencemæssige landskab

CraftStory rejste 2 millioner dollars i seed-finansiering ledet af Andrew Filev, grundlægger af Wrike og Zencoder. Det er beskedent sammenlignet med de milliarder, der strømmer ind i OpenAI og Google, men det er nok til at bevise teknologien.

🎯

OpenCV-forbindelsen

Grundlæggerteamets baggrund betyder noget her. OpenCV driver computervisionsystemer på tværs af brancher. Disse folk forstår fundamentet i visuel behandling på et niveau, de fleste AI-video-startups ikke gør.

Tekst-til-video-funktionen er under udvikling. Når den lanceres, bliver værdipropositionen tydeligere: beskriv en 5-minutters video i tekst, få sammenhængende output uden den frame-for-frame kvalitetsforringelse, der plager andre værktøjer.

Hvad er næste skridt

Køreplansfunktioner▼

CraftStory har annonceret flere kommende funktioner:

Tekst-til-video: Generer fra prompts uden styrevideo
Bevægeligt kamera: Pan, zoom og tracking-optagelser
Gå-og-tal: Emner, der bevæger sig gennem rummet, mens de taler

Tovejs-diffusionstilgangen er ikke bare et CraftStory-trick. Det er et mønster, som andre teams sandsynligvis vil adoptere. Når du løser "fejl akkumuleres fremad"-problemet, bliver længere generering en ingeniørudfordring snarere end en fundamental barriere.

⚠️

Model 2.0 er i øjeblikket fokuseret på menneskecentreret video. Til scener uden mennesker vil du stadig have værktøjer optimeret til miljømæssig eller abstrakt generering. Dette er et specialistværktøj, ikke en generalist.

Det større billede

Vi ser AI-video gå gennem sin akavede teenagerfase. Modellerne kan producere fantastiske 10-sekunders klip, men bed dem om at opretholde sammenhæng over minutter, og de falder fra hinanden. CraftStorys tovejs-tilgang er ét svar på det problem.

Det virkelige spørgsmål: hvor længe, før denne teknik bliver adopteret af de større spillere? OpenAI, Google og Runway har alle ressourcerne til at implementere lignende arkitekturer. CraftStorys fordel er at være først på markedet med fungerende langtformsgenerering.

For nu, hvis du har brug for konsistent flerminutters AI-videoindhold med menneskelige emner, er CraftStory netop blevet det eneste spil i byen. Varighedsbarrieren er ikke brudt endnu, men nogen har netop sat en alvorlig revne i den.

🚀

Prøv det

CraftStory Model 2.0 er tilgængelig nu. Prisstrukturen er ikke blevet offentliggjort i detaljer, så du bliver nødt til at tjekke deres site for nuværende tilbud. Tekst-til-video kommer, hvilket vil gøre platformen tilgængelig for brugere uden eksisterende styrevideoindhold.

CraftStory Model 2.0: Hvordan tovejs-diffusion muliggør 5-minutters AI-videoer

Varighedsproblemet ingen løste

Tovejs-diffusion: den arkitektoniske innovation

Tovejs-begrænsninger

Hvordan Model 2.0 faktisk virker

Outputtet: hvad du faktisk får

Hvorfor dette betyder noget for skabere

Sociale klip

Korte forklaringer

Rigtigt indhold

Lang form

Det konkurrencemæssige landskab

OpenCV-forbindelsen

Hvad er næste skridt

Det større billede

Prøv det

Henry

Like what you read?

Relaterede artikler

Pika 2.5: Demokratisering af AI-video gennem hastighed, pris og kreative værktøjer

Runway Gen-4.5 når førstepladsen: Sådan klarede 100 ingeniører sig bedre end Google og OpenAI

Veo 3.1 Ingredients to Video: din komplette guide til billede-til-video-generering

Kunne du lide artiklen?