HenryHenry
6 min read
1150 reči

CraftStory Model 2.0: Kako bidirekciona difuzija omogućava 5-minutne AI video snimke

Dok je Sora 2 ograničena na 25 sekundi, CraftStory je predstavio sistem koji generiše koherentne 5-minutne video snimke. Tajna? Paralelno izvršavanje više difuzionih motora sa bidirekcionalnim ograničenjima.

CraftStory Model 2.0: Kako bidirekciona difuzija omogućava 5-minutne AI video snimke

Slon u prostoriji AI videa? Trajanje. Sora 2 se zaustavlja na 25 sekundi. Runway i Pika lebde oko 10 sekundi. CraftStory je tek ušao i rekao "drži mi pivo": 5-minutni koherentni video snimci. Tehnika iza toga je zaista pametna.

Problem trajanja koji niko nije rešio

Stvar sa trenutnim AI video modelima: sprinterski trkači, ne maratonci. Generiši osam sekundi divnog snimka, zatim pokušaj da produžiš, i dobijaš vizuelni ekvivalent igre telefona. Artefakti se gomilaju. Likovi se pomeraju. Sve se raspada.

25s
Sora 2 Max
10s
Tipični modeli
5min
CraftStory

Tradicionalni pristup funkcioniše ovako: generišeš deo, koristiš poslednjih nekoliko kadrova kao kontekst za sledeći deo, sklopiš ih zajedno. Problem? Greške se akumuliraju. Malo neobičan položaj ruke u delu jedan postaje čudan oblačić do dela pet.

💡

CraftStory je osnovao tim iza OpenCV, biblioteke za računarski vid koja radi u praktično svakom vizuelnom sistemu koji si ikad koristio. Njihov direktor Victor Erukhimov je bio saosnivač Itseez, startapa za računarski vid koji je Intel preuzeo 2016. godine.

Bidirekciona difuzija: arhitektonska inovacija

Rešenje CraftStory okreće tipičan pristup na glavu. Umesto uzastopnog generisanja i nadanja najboljem, izvršavaju više manjih difuzionih motora istovremeno duž cele vremenske linije videa.

🔄

Bidirekciona ograničenja

Ključno saznanje: "Kasniji deo videa može uticati na raniji deo videa takođe," objašnjava Erukhimov. "I to je veoma važno, jer ako to radiš jedan po jedan, onda se artefakt koji se pojavi u prvom delu širi na drugi, i onda se akumulira."

Razmisli o tome kao o pisanju romana naspram njegovog okvira. Sekvencijalno generisanje je kao pisanje stranice jedan, zatim stranice dva, zatim stranice tri, bez mogućnosti da se vratiš. Pristup CraftStory je kao imati okvir gde poglavlje deset može uticati na ono što treba da se desi u poglavlju dva.

Tradicionalno uzastopno

  • Generiši segment A
  • Koristi kraj A za početak B
  • Koristi kraj B za početak C
  • Nadaj se da se ništa ne gomila
  • Ukrsti prste na tačkama spajanja

Bidirekciono paralelno

  • Obradi sve segmente istovremeno
  • Svaki segment ograničava svoje susede
  • Na rane segmente utiču kasniji
  • Artefakti se samopopravljaju duž vremenske linije
  • Prirodna koherencija, bez spajanja

Kako Model 2.0 zapravo radi

Trenutno je CraftStory Model 2.0 sistem video-u-video. Obezbediš sliku i pokretački video, i generiše izlaz gde osoba na tvojoj slici izvodi pokrete iz pokretačkog videa.

  • Otpremi referentnu sliku (tvoj subjekat)
  • Obezbedi pokretački video (šablon pokreta)
  • Model sintetiše izvođenje
  • Tekst-u-video dolazi u budućoj verziji

Sistem za sinhronizaciju usana se ističe. Daš mu skriptu ili audio zapis, i generiše odgovarajuće pokrete usta. Poseban algoritam za usklađivanje gestova sinhronizuje govor tela sa ritmom govora i emocionalnim tonom. Rezultat? Video snimci gde osoba zapravo izgleda kao da govori te reči, ne samo maše vilicu.

💡

CraftStory je treniran na vlasničkom snimku sa visokom brzinom kadrova, snimanom posebno za model. Standardni 30fps YouTube snimci imaju previše zamućenja pokreta za fine detalje kao što su prsti. Angažovali su studije da snime glumce sa većim brzinama kadrova za čistije podatke za trening.

Izlaz: šta zapravo dobijaš

Mogućnosti
  • Do 5 minuta neprekidnog videa
  • 480p i 720p nativna rezolucija
  • 720p može se skalirati na 1080p
  • Pejzažni i portretni formati
  • Sinhronizovani pokreti usana
  • Prirodno usklađivanje gestova
Ograničenja
  • Samo video-u-video (još bez tekst-u-video)
  • Zahteva ulazni pokretački video
  • ~15 minuta za 30 sekundi na niskoj rezoluciji
  • Trenutno statična kamera (pokretna kamera dolazi)

Generisanje traje oko 15 minuta za nisko rezolucijski 30-sekundni snimak. To je sporije od skoro trenutnog generisanja koje neki modeli nude, ali kompromis je koherentan dugi izlaz umesto lepih fragmenata koji se ne povezuju.

Zašto je ovo važno za kreatore

5-minutna barijera nije proizvoljna. To je prag gde AI video postaje koristan za pravi sadržaj.

10 sek

Društveni isečci

Dobro za TikTok isečke i reklame, ali ograničeno pričanje priča

30 sek

Kratki objasnjivači

Dovoljno za brzu demonstraciju proizvoda ili ilustraciju koncepta

2-5 min

Pravi sadržaj

YouTube tutorijali, video zapisi za obuku, prezentacije, narativni sadržaj

Budućnost

Duga forma

Cele epizode, dokumentarni filmovi, obrazovni kursevi

Većina poslovnog video sadržaja živi u opsegu od 2-5 minuta. Demonstracije proizvoda. Moduli za obuku. Objasnidbeni video snimci. Interne komunikacije. Ovo je gde CraftStory postaje relevantan za profesionalne slučajeve upotrebe.

Slučajevi upotrebe koji se otvaraju:

  • Tutorijali proizvoda sa doslednim prezenterom kroz ceo snimak
  • Video za obuku koji ne zahtevaju zakazivanje talenata
  • Personalizovane video poruke u velikom obimu
  • Obrazovni sadržaj sa virtuelnim instruktorima
  • Korporativne komunikacije sa generisanim portparolima

Konkurentski pejzaž

CraftStory je prikupio 2 miliona dolara početnog finansiranja koje je predvodio Andrew Filev, osnivač Wrike i Zencoder. To je skromno u poređenju sa milijardama koje teku u OpenAI i Google, ali je dovoljno da se dokaže tehnologija.

🎯

Veza sa OpenCV

Rodoslov osnivačkog tima je ovde bitan. OpenCV pokreće sisteme računarskog vida širom industrija. Ovi ljudi razumeju osnove vizuelne obrade na nivou koji većina AI video startapova ne razume.

Mogućnost tekst-u-video je u razvoju. Kada se to objavi, vrednosna ponuda postaje jasnija: opiši 5-minutni video u tekstu, dobij koherenten izlaz bez degradacije kvaliteta kadar po kadar koja muči druge alate.

Šta je sledeće

Planirane funkcije

CraftStory je najavio nekoliko nadolazećih mogućnosti:

  • Tekst-u-video: Generiši iz upita bez pokretačkog videa
  • Pokretna kamera: Panorama, zum i snimci praćenja
  • Hodanje i razgovor: Subjekti koji se kreću kroz prostor dok govore

Pristup bidirekcione difuzije nije samo trik CraftStory. To je obrazac koji će druge ekipe verovatno usvojiti. Kada rešiš problem "greške se akumuliraju napred", duže generisanje postaje inženjerski izazov umesto fundamentalne prepreke.

⚠️

Model 2.0 je trenutno fokusiran na video centriran oko ljudi. Za scene bez ljudi, i dalje ćeš želeti alate optimizovane za generisanje okruženja ili apstraktno generisanje. Ovo je specijalizovani alat, ne generalista.

Šira slika

Posmatramo kako AI video prolazi kroz svoju nezgodnu tinejdžersku fazu. Modeli mogu da proizvedu zapanjujuće 10-sekundne snimke, ali zamoli ih da održe koherenciju kroz minute i raspadaju se. Bidirekcioni pristup CraftStory je jedan odgovor na taj problem.

Pravo pitanje: koliko dugo dok ove tehnike ne preuzmu veći igrači? OpenAI, Google i Runway svi imaju resurse da implementiraju slične arhitekture. Prednost CraftStory je biti prvi na tržištu sa radećim dugim generisanjem.

Za sada, ako ti je potreban dosledan više-minutni AI video sadržaj sa ljudskim subjektima, CraftStory je upravo postao jedina igra u gradu. Barijera trajanja još nije slomljena, ali je neko upravo stavio ozbiljnu pukotinu u nju.

🚀

Probaj

CraftStory Model 2.0 je dostupan sada. Struktura cena nije javno detaljna, tako da ćeš morati da proveriš njihov sajt za trenutne ponude. Tekst-u-video dolazi, što će platformu učiniti dostupnom korisnicima bez postojećeg sadržaja pokretačkog videa.

Henry

Henry

Kreativni Tehnolog

Kreativni tehnolog iz Lozane koji istražuje gde se veštačka inteligencija susreće sa umetnošću. Eksperimentiše sa generativnim modelima između sesija elektronske muzike.

Svideo vam se ovaj članak?

Otkrijte više uvida i budite u toku sa našim najnovijim sadržajem.

CraftStory Model 2.0: Kako bidirekciona difuzija omogućava 5-minutne AI video snimke