Meta Pixel
HenryHenry
6 min read
1121 ord

CraftStory Model 2.0: Hvordan Bidirectional Diffusion Låser Opp 5-Minutters AI-Videoer

Mens Sora 2 stopper på 25 sekunder, har CraftStory nettopp lansert et system som genererer sammenhengende 5-minutters videoer. Hemmeligheten? Å kjøre flere diffusion-motorer parallelt med toveisbegrensninger.

CraftStory Model 2.0: Hvordan Bidirectional Diffusion Låser Opp 5-Minutters AI-Videoer

Elefanten i AI-videorommet? Varighet. Sora 2 stopper på 25 sekunder. Runway og Pika henger rundt 10 sekunder. CraftStory har nettopp kommet inn og sagt "hold min øl": 5-minutters sammenhengende videoer. Teknikken bak er genuint smart.

Varighetsproblemet Ingen Løste

Her er tingen med nåværende AI-videomodeller: de er sprintere, ikke maratonløpere. Generer åtte sekunder med flott opptak, prøv så å utvide det, og du får den visuelle ekvivalenten av en telefonlek. Artefakter hoper seg opp. Karakterer driver bort. Hele greia faller fra hverandre.

25s
Sora 2 Maks
10s
Typiske Modeller
5min
CraftStory

Den tradisjonelle tilnærmingen fungerer slik: generer en bit, bruk de siste bildene som kontekst for neste bit, sy dem sammen. Problemet? Feil akkumulerer. En litt rar håndposisjon i bit én blir en rar klatt innen bit fem.

💡

CraftStory ble grunnlagt av teamet bak OpenCV, datasynbiblioteket som kjører i praktisk talt alle synssystemer du noensinne har brukt. CEO Victor Erukhimov var med på å grunnlegge Itseez, en datasyn-startup som Intel kjøpte i 2016.

Bidirectional Diffusion: Den Arkitektoniske Innovasjonen

CraftStorys løsning snur den typiske tilnærmingen på hodet. I stedet for å generere sekvensielt og håpe på det beste, kjører de flere mindre diffusion-motorer samtidig over hele videotidslinjen.

🔄

Toveisbegrensninger

Nøkkelinnsikten: "Den senere delen av videoen kan påvirke den tidligere delen av videoen også," forklarer Erukhimov. "Og dette er ganske viktig, for hvis du gjør det én etter én, så sprer en artefakt som dukker opp i første del seg til den andre, og da akkumulerer det."

Tenk på det som å skrive en roman versus å lage en disposisjon. Sekvensiell generering er som å skrive side én, så side to, så side tre, uten mulighet til å gå tilbake. CraftStorys tilnærming er som å ha en disposisjon hvor kapittel ti kan informere hva som må skje i kapittel to.

Tradisjonell Sekvensiell

  • Generer segment A
  • Bruk slutten av A til å starte B
  • Bruk slutten av B til å starte C
  • Håp ingenting hoper seg opp
  • Kryss fingrene ved sømstedene

Toveis Parallell

  • Prosesser alle segmenter samtidig
  • Hvert segment begrenser naboene sine
  • Tidlige segmenter påvirket av senere
  • Artefakter korrigerer seg selv over tidslinjen
  • Naturlig sammenheng, ingen søm

Hvordan Model 2.0 Faktisk Fungerer

For øyeblikket er CraftStory Model 2.0 et video-til-video-system. Du gir et bilde og en drivende video, og det genererer output hvor personen i bildet ditt utfører bevegelsene fra den drivende videoen.

  • Last opp et referansebilde (ditt subjekt)
  • Gi en drivende video (bevegelsesmalen)
  • Modellen syntetiserer fremføringen
  • Tekst-til-video kommer i fremtidig oppdatering

Leppesynkroniseringssystemet skiller seg ut. Gi det et manus eller lydspor, og det genererer matchende munnbevegelser. En separat gestalignerings-algoritme synkroniserer kroppsspråk med talerhytme og emosjonell tone. Resultatet? Videoer hvor personen faktisk ser ut som de sier de ordene, ikke bare flakser med kjeven.

💡

CraftStory trente på proprietært høy-bilderate-opptak skutt spesifikt for modellen. Standard 30fps YouTube-klipp har for mye bevegelsesuskarphet for fine detaljer som fingre. De leide inn studioer til å fange skuespillere ved høyere bilderater for renere treningsdata.

Outputen: Hva Du Faktisk Får

Muligheter
  • Opptil 5 minutters kontinuerlig video
  • 480p og 720p nativ oppløsning
  • 720p opskalerbar til 1080p
  • Liggende og stående formater
  • Synkroniserte leppebevegelser
  • Naturlig gestalignering
Begrensninger
  • Kun video-til-video (ingen tekst-til-video ennå)
  • Krever drivende video-input
  • Cirka 15 minutter for 30 sekunder ved lav oppløsning
  • Statisk kamera for øyeblikket (bevegelig kamera kommer)

Generering tar omtrent 15 minutter for en lav-oppløsnings 30-sekunders klipp. Det er tregere enn den nær-øyeblikkelige genereringen noen modeller tilbyr, men avveiningen er sammenhengende langformatsoutput i stedet for vakre fragmenter som ikke kobler sammen.

Hvorfor Dette Betyr Noe for Skapere

5-minutters-barrieren er ikke vilkårlig. Det er terskelen hvor AI-video blir nyttig for faktisk innhold.

10 sek

Sosiale Klipp

Bra for TikTok-snutter og annonser, men begrenset historiefortelling

30 sek

Korte Forklaringer

Nok for en rask produktdemo eller konseptillustrasjon

2-5 min

Reelt Innhold

YouTube-veiledninger, treningsvideoer, presentasjoner, narrativt innhold

Fremtid

Langformat

Hele episoder, dokumentarer, utdanningskurs

Mest forretningsvideoinnhold lever i 2-5 minutters-området. Produktdemoer. Treningsmoduler. Forklaringsvideoer. Intern kommunikasjon. Dette er hvor CraftStory blir relevant for profesjonelle brukstilfeller.

Brukstilfeller Som Åpner Seg:

  • Produktveiledninger med konsistent presentatør gjennom hele
  • Treningsvideoer som ikke krever talentplanlegging
  • Personaliserte videomeldinger i stor skala
  • Utdanningsinnhold med virtuelle instruktører
  • Bedriftskommunikasjon med genererte talspersoner

Det Konkurransemessige Landskapet

CraftStory hentet inn $2 millioner i seed-finansiering ledet av Andrew Filev, grunnlegger av Wrike og Zencoder. Det er beskjedent sammenlignet med milliardene som strømmer inn i OpenAI og Google, men det er nok til å bevise teknologien.

🎯

OpenCV-Forbindelsen

Grunnleggerteamets stamtavle betyr noe her. OpenCV driver datasynsystemer på tvers av bransjer. Disse folkene forstår det grunnleggende om visuell prosessering på et nivå de fleste AI-video-startups ikke gjør.

Tekst-til-video-kapasiteten er under utvikling. Når den lanseres, blir verdiproposisjonen tydeligere: beskriv en 5-minutters video i tekst, få sammenhengende output uten bilde-for-bilde kvalitetsforringelsen som plager andre verktøy.

Hva Som Kommer

Veikartfunksjoner

CraftStory har annonsert flere kommende kapasiteter:

  • Tekst-til-video: Generer fra prompts uten drivende video
  • Bevegelig kamera: Panorere, zoome og sporingsopptak
  • Gå-og-snakk: Subjekter som beveger seg gjennom rommet mens de snakker

Den toveisgående diffusjonstilnærmingen er ikke bare et CraftStory-triks. Det er et mønster som andre team sannsynligvis vil ta i bruk. Når du løser "feil akkumulerer fremover"-problemet, blir lengre generering en ingeniørutfordring snarere enn en fundamental barriere.

⚠️

Model 2.0 er for øyeblikket fokusert på menneskesentrisk video. For scener uten folk vil du fortsatt ha verktøy optimalisert for miljømessig eller abstrakt generering. Dette er et spesialistverktøy, ikke en generalist.

Det Større Bildet

Vi ser AI-video gå gjennom sin keitete tenåringsfase. Modellene kan produsere fantastiske 10-sekunders klipp, men be dem opprettholde sammenheng over minutter og de faller fra hverandre. CraftStorys toveisretning er ett svar på det problemet.

Det virkelige spørsmålet: hvor lenge til denne teknikken blir tatt i bruk av de større aktørene? OpenAI, Google og Runway har alle ressursene til å implementere lignende arkitekturer. CraftStorys fordel er å være først på markedet med fungerende langformatgenerering.

Foreløpig, hvis du trenger konsistent flerminutters AI-videoinnhold med menneskelige subjekter, har CraftStory nettopp blitt det eneste alternativet. Varighetsbarrieren er ikke brutt ennå, men noen har nettopp laget en alvorlig sprekk i den.

🚀

Prøv Det

CraftStory Model 2.0 er tilgjengelig nå. Prisstrukturen har ikke blitt offentlig detaljert, så du må sjekke nettstedet deres for nåværende tilbud. Tekst-til-video kommer, noe som vil gjøre plattformen tilgjengelig for brukere uten eksisterende drivende videoinnhold.

Var denne artikkelen nyttig?

Henry

Henry

Kreativ teknolog

Kreativ teknolog fra Lausanne som utforsker hvor KI møter kunst. Eksperimenterer med generative modeller mellom elektroniske musikksesjoner.

Relaterte artikler

Fortsett å utforske med disse relaterte innleggene

Likte du denne artikkelen?

Oppdag mer innsikt og hold deg oppdatert på vårt nyeste innhold.

CraftStory Model 2.0: Hvordan Bidirectional Diffusion Låser Opp 5-Minutters AI-Videoer