CraftStory Model 2.0: Kako bidirekcijska difuzija omogoča 5-minutne AI videoposnetke
Medtem ko je Sora 2 omejena na 25 sekund, je CraftStory predstavil sistem, ki ustvarja koherentne 5-minutne videoposnetke. Skrivnost? Vzporedno izvajanje več difuzijskih motorjev z bidirekcijskimi omejitvami.

Slon v prostoru AI videa? Trajanje. Sora 2 se ustavi pri 25 sekundah. Runway in Pika se vrtita okoli 10 sekund. CraftStory je prišel in rekel "pridržite mi pivo": 5-minutni koherentni videoposnetki. Tehnika za tem je resnično pametna.
Problem trajanja, ki ga nihče ni rešil
Stvar pri trenutnih AI video modelih: tekači na kratke proge, ne maratonci. Ustvari osem sekund čudovitega posnetka, nato poskusi razširiti, in dobiš vizualni ekvivalent igre telefona. Artefakti se kopičijo. Liki drsijo. Vse se razpade.
Tradicionalni pristop deluje tako: ustvariš kos, uporabiš zadnjih nekaj sličic kot kontekst za naslednji kos, jih sestaviš skupaj. Problem? Napake se kopičijo. Rahlo nenavaden položaj roke v kosu ena postane čuden mehurček do kosa pet.
CraftStory so ustanovili ekipa za OpenCV, knjižnico za računalniški vid, ki deluje v praktično vsakem vizualnem sistemu, ki si ga kdaj uporabil. Njihov direktor Victor Erukhimov je soustanovil Itseez, startup za računalniški vid, ki ga je Intel prevzel leta 2016.
Bidirekcijska difuzija: arhitekturna inovacija
Rešitev CraftStory obrne tipičen pristop na glavo. Namesto zaporednega generiranja in upanja na najboljše, izvajajo več manjših difuzijskih motorjev hkrati po celotni časovnici videa.
Bidirekcijske omejitve
Ključna ugotovitev: "Zadnji del videa lahko vpliva na prejšnji del videa," razlaga Erukhimov. "In to je precej pomembno, ker če to počneš enega za drugim, potem se artefakt, ki se pojavi v prvem delu, širi na drugi, in potem se kopiči."
Pomisli na to kot na pisanje romana proti njegovemu orisu. Zaporedno generiranje je kot pisanje strani ena, nato strani dva, nato strani tri, brez možnosti, da greš nazaj. Pristop CraftStory je kot imeti oris, kjer poglavje deset lahko vpliva na to, kaj se mora zgoditi v poglavju dve.
Tradicionalno zaporedje
- Ustvari segment A
- Uporabi konec A za začetek B
- Uporabi konec B za začetek C
- Upaj, da se nič ne kopiči
- Prekrižaj prste pri točkah spajanja
Bidirekcijsko vzporedno
- Obdelaj vse segmente hkrati
- Vsak segment omejuje svoje sosede
- Na zgodnje segmente vplivajo poznejši
- Artefakti se samopopravijo po časovnici
- Naravna koherenca, brez spajanja
Kako Model 2.0 dejansko deluje
Trenutno je CraftStory Model 2.0 sistem video-v-video. Zagotoviš sliko in gonilni video, in ustvari izhod, kjer oseba na tvoji sliki izvaja gibe iz gonilnega videa.
- ✓Naloži referenčno sliko (tvoj subjekt)
- ✓Zagotovi gonilni video (predloga gibanja)
- ✓Model sintetizira izvedbo
- ○Besedilo-v-video prihaja v prihodnji posodobitvi
Sistem za sinhronizacijo ustnic izstopa. Mu daš skript ali zvočno sled, in ustvari ujemajoče gibe ust. Ločen algoritem za uskladitev gest sinhronizira govorico telesa z ritmom govora in čustvenim tonom. Rezultat? Videoposnetki, kjer oseba dejansko zgleda, kot da govori te besede, ne samo maha z čeljustjo.
CraftStory je treniran na lastnem posnetku z visoko frekvenco sličic, posnetem posebej za model. Standardni 30fps YouTube posnetki imajo preveč zamegljitve gibanja za podrobnosti kot so prsti. Najeli so studije, da posnamejo igralce pri višjih frekvencah sličic za čistejše podatke za učenje.
Izhod: kaj dejansko dobiš
- Do 5 minut neprekinjenega videa
- 480p in 720p naravna ločljivost
- 720p razširljiv na 1080p
- Ležeči in pokončni formati
- Sinhronizirani gibi ustnic
- Naravna uskladitev gest
- Samo video-v-video (še brez besedilo-v-video)
- Zahteva vhodni gonilni video
- ~15 minut za 30 sekund pri nizki ločljivosti
- Trenutno statična kamera (premikajoča kamera prihaja)
Generiranje traja približno 15 minut za nizko ločljivost 30-sekundnega posnetka. To je počasneje kot skoraj takojšnje generiranje, ki ga ponujajo nekateri modeli, toda kompromis je koherenten dolg izhod namesto lepih fragmentov, ki se ne povezujejo.
Zakaj je to pomembno za ustvarjalce
5-minutna ovira ni poljubna. To je prag, kjer AI video postane uporaben za dejansko vsebino.
Družabni posnetki
Dobro za TikTok odrezke in oglase, vendar omejeno pripovedovanje zgodb
Kratki razlagalci
Dovolj za hitro predstavitev izdelka ali ilustracijo koncepta
Resnična vsebina
YouTube tutoriali, video za usposabljanje, predstavitve, pripovedno gradivo
Dolga oblika
Cele epizode, dokumentarni filmi, izobraževalni tečaji
Večina poslovne video vsebine živi v območju 2-5 minut. Predstavitve izdelkov. Moduli za usposabljanje. Razlagalni videoposnetki. Notranje komunikacije. To je, kjer CraftStory postane pomemben za profesionalne primere uporabe.
Primeri uporabe, ki se odpirajo:
- Tutoriali izdelkov z doslednim predstavnikom skozi celotno vsebino
- Video za usposabljanje, ki ne zahtevajo razporejanja talentov
- Personalizirana video sporočila v merilu
- Izobraževalna vsebina z virtualnimi inštruktorji
- Korporativne komunikacije z ustvarjenimi govorniki
Konkurenčna pokrajina
CraftStory je zbral 2 milijona dolarjev začetnega financiranja, ki ga vodi Andrew Filev, ustanovitelj Wrike in Zencoder. To je skromno v primerjavi z milijardami, ki tečejo v OpenAI in Google, toda dovolj je za dokazovanje tehnologije.
Povezava z OpenCV
Rodovnik ustanovitvene ekipe je tukaj pomemben. OpenCV poganja sisteme računalniškega vida v industriji. Ti ljudje razumejo osnove vizualne obdelave na ravni, ki je večina AI video startupov ne.
Zmožnost besedilo-v-video je v razvoju. Ko bo to objavljeno, bo vrednostna ponudba jasnejša: opiši 5-minutni video v besedilu, dobi koherenten izhod brez poslabšanja kakovosti po sličicah, ki pesti druga orodja.
Kaj sledi
Načrtovane funkcije▼
CraftStory je napovedal več prihajajočih zmogljivosti:
- Besedilo-v-video: Ustvari iz pozivov brez gonilnega videa
- Premikajoča kamera: Panorama, povečava in posnetki sledenja
- Hoja in pogovor: Subjekti, ki se premikajo skozi prostor med govorom
Pristop bidirekcijske difuzije ni samo trik CraftStory. To je vzorec, ki ga bodo verjetno prevzele druge ekipe. Ko rešiš problem "napake se kopičijo naprej", postane daljše generiranje inženirski izziv namesto temeljne ovire.
Model 2.0 je trenutno osredotočen na video s človekom v središču. Za prizore brez ljudi boš še vedno želel orodja, optimizirana za okoljsko ali abstraktno generiranje. To je specializirano orodje, ne generalist.
Širša slika
Spremljamo AI video skozi njegovo nerodno najstniško fazo. Modeli lahko proizvedejo osupljive 10-sekundne posnetke, vendar ko jih prosiš, da vzdržujejo koherenco skozi minute, se razpadejo. Bidirekcijski pristop CraftStory je en odgovor na ta problem.
Pravo vprašanje: kako dolgo, dokler te tehnike ne prevzamejo večji igralci? OpenAI, Google in Runway vsi imajo vire za implementacijo podobnih arhitektur. Prednost CraftStory je biti prvi na trgu z delujoče dolgo generiranje.
Za zdaj, če potrebuješ dosledne več-minutne AI video vsebine s človeškimi subjekti, je CraftStory pravkar postal edina igra v mestu. Ovira trajanja še ni zlomljena, toda nekdo je pravkar vstavil resno razpoko vanj.
Preizkusi
CraftStory Model 2.0 je na voljo zdaj. Struktura cen ni bila javno podrobna, zato boš moral preveriti njihovo spletno stran za trenutne ponudbe. Besedilo-v-video prihaja, kar bo platformo naredilo dostopno uporabnikom brez obstoječe vsebine gonilnega videa.

Henry
Ustvarjalni TehnologUstvarjalni tehnolog iz Lausanne, ki raziskuje, kje se UI srečuje z umetnostjo. Eksperimentira z generativnimi modeli med sesjami elektronske glasbe.