HenryHenry
6 min read
1142 riječi

CraftStory Model 2.0: Kako bidirekcijska difuzija omogućava 5-minutne AI videozapise

Dok je Sora 2 ograničena na 25 sekundi, CraftStory je upravo predstavio sustav koji generira koherentne 5-minutne videozapise. Tajna? Pokretanje više difuzijskih motora paralelno s dvosmjernim ograničenjima.

CraftStory Model 2.0: Kako bidirekcijska difuzija omogućava 5-minutne AI videozapise

Najveći problem AI videa? Trajanje. Sora 2 je ograničena na 25 sekundi. Runway i Pika lebde oko 10 sekundi. CraftStory je upravo ušao i rekao "držite mi pivo": koherentni 5-minutni videozapisi. Tehnika iza toga je zaista pametna.

Problem trajanja koji nitko nije riješio

Stvar s trenutačnim AI video modelima: oni su sprinteri, a ne maratonci. Generirajte osam sekundi prekrasnog snimka, zatim pokušajte to produžiti, i dobit ćete vizualni ekvivalent igre pokvarenog telefona. Artefakti se gomilaju. Likovi lutaju. Sve se raspada.

25s
Sora 2 Max
10s
Typical Models
5min
CraftStory

Tradicionalni pristup funkcionira ovako: generirajte komad, koristite zadnjih nekoliko sličica kao kontekst za sljedeći komad, spojite ih zajedno. Problem? Greške se gomilaju. Pomalo čudna pozicija ruke u komadu jedan postaje čudna mrlja u komadu pet.

💡

CraftStory su osnovali ljudi iza OpenCV-a, biblioteke za računalni vid koja radi u praktički svakom vizualnom sustavu koji ste ikada koristili. Njihov CEO Victor Erukhimov bio je suosnivač Itseeza, startupa za računalni vid koji je Intel kupio 2016.

Bidirekcijska difuzija: arhitektonska inovacija

Rješenje CraftStoryja preokrenulo je tipični pristup naglavačke. Umjesto da generiraju sekvencijalno i nadaju se najboljem, oni pokreću više manjih difuzijskih motora istovremeno duž cijele vremenske crte videa.

🔄

Bidirekcijska ograničenja

Ključna spoznaja: "Kasniji dio videa također može utjecati na raniji dio videa," objašnjava Erukhimov. "I to je prilično važno, jer ako radite jedan po jedan, tada se artefakt koji se pojavi u prvom dijelu širi na drugi, a zatim se gomila."

Razmislite o tome kao pisanju romana naspram izrade nacrta. Sekvencijalno generiranje je kao pisanje stranice jedan, zatim stranice dva, zatim stranice tri, bez mogućnosti vraćanja. Pristup CraftStoryja je kao imati nacrt gdje poglavlje deset može informirati što treba da se dogodi u poglavlju dva.

Tradicionalno sekvencijalno

  • Generirajte segment A
  • Koristite kraj A-a za početak B
  • Koristite kraj B-a za početak C
  • Nadate se da se ništa ne gomila
  • Križ prstima na spojnim točkama

Bidirekcijski paralelno

  • Obradite sve segmente istovremeno
  • Svaki segment ograničava svoje susjede
  • Rani segmenti pod utjecajem kasnijih
  • Artefakti se samoispravljaju kroz vremensku crtu
  • Prirodna koherentnost, bez spajanja

Kako Model 2.0 zapravo radi

Trenutačno je CraftStory Model 2.0 sustav video-u-video. Pružate sliku i pokretački video, i on generira izlaz gdje osoba na vašoj slici izvodi pokrete iz pokretačkog videa.

  • Učitajte referentnu sliku (vaš subjekt)
  • Pružite pokretački video (predložak pokreta)
  • Model sintetizira izvedbu
  • Text-to-video dolazi u budućem ažuriranju

Sustav sinkronizacije usana se ističe. Unesite mu skriptu ili audio zapis, i on generira odgovarajuće pokrete usta. Zasebni algoritam za usklađivanje gesti sinkronizira govor tijela s ritmom govora i emocionalnim tonom. Rezultat? Videozapisi gdje osoba zapravo izgleda kao da izgovara te riječi, a ne samo mahanjem vilice.

💡

CraftStory je treniran na vlasničkim snimkama s visokom frekvencijom sličica snimljenim posebno za model. Standardni YouTube isječci od 30fps imaju previše zamućenja pokreta za fine detalje poput prstiju. Angažirali su studije da snimaju glumce pri višim frekvencijama sličica za čistije podatke za treniranje.

Izlaz: što zapravo dobivate

Capabilities
  • Do 5 minuta kontinuiranog videa
  • Nativna rezolucija 480p i 720p
  • 720p se može povećati na 1080p
  • Pejzažni i portretni formati
  • Sinkronizirani pokreti usana
  • Prirodno usklađivanje gesti
Limitations
  • Samo video-u-video (još nema text-to-video)
  • Zahtijeva pokretački video
  • Oko 15 minuta za 30 sekundi pri niskoj rezoluciji
  • Trenutačno statična kamera (pokretna kamera dolazi)

Generiranje traje oko 15 minuta za isječak od 30 sekundi niske rezolucije. To je sporije od gotovo trenutnog generiranja koje nude neki modeli, ali kompromis je koherentni dugometražni izlaz umjesto prekrasnih fragmenata koji se ne povezuju.

Zašto je ovo važno za kreatore

Barijera od 5 minuta nije proizvoljna. To je prag gdje AI video postaje koristan za stvarni sadržaj.

10 sec

Društveni isječci

Dobro za TikTok isječke i oglase, ali ograničeno pripovijedanje

30 sec

Kratka objašnjenja

Dovoljno za brzu demonstraciju proizvoda ili ilustraciju koncepta

2-5 min

Pravi sadržaj

YouTube tutorijali, trening videozapisi, prezentacije, narativni sadržaj

Future

Dugometražno

Cijele epizode, dokumentarci, obrazovni tečajevi

Većina poslovnog video sadržaja živi u rasponu od 2-5 minuta. Demonstracije proizvoda. Trening moduli. Videozapisi s objašnjenjima. Interna komunikacija. Ovdje CraftStory postaje relevantan za profesionalnu upotrebu.

Slučajevi upotrebe koji se otvaraju:

  • Tutorijali proizvoda s dosljednim prezenterom tijekom cijelog vremena
  • Trening videozapisi koji ne zahtijevaju zakazivanje talenata
  • Personalizirane video poruke u velikim razmjerima
  • Obrazovni sadržaj s virtualnim instruktorima
  • Korporativne komunikacije s generiranim glasnogovornicima

Konkurentski krajolik

CraftStory je prikupio 2 milijuna dolara seed financiranja na čelu s Andrewom Filevom, osnivačem Wrikea i Zencodera. To je skromno u usporedbi s milijardama koje teku u OpenAI i Google, ali je dovoljno da dokaže tehnologiju.

🎯

OpenCV veza

Pedigre osnivačkog tima ovdje važan. OpenCV pokreće sustave računalnog vida u cijelim industrijama. Ovi ljudi razumiju temelje vizualnog procesiranja na razini koju većina AI video startupova ne razumije.

Sposobnost text-to-video je u razvoju. Jednom kada se to pokrene, vrijednosna ponuda postaje jasnija: opišite 5-minutni video u tekstu, dobijete koherentan izlaz bez degradacije kvalitete sličica po sličici koja muči druge alate.

Što slijedi

Značajke u planu

CraftStory je najavio nekoliko nadolazećih sposobnosti:

  • Text-to-video: Generiranje iz upita bez pokretačkog videa
  • Pokretna kamera: Pan, zoom i praćenje snimaka
  • Hodanje i razgovor: Subjekti koji se kreću kroz prostor dok govore

Pristup bidirekcijske difuzije nije samo trik CraftStoryja. To je obrazac koji će drugi timovi vjerojatno usvojiti. Jednom kada riješite problem "greške se gomilaju unaprijed", duže generiranje postaje inženjerski izazov umjesto temeljne barijere.

⚠️

Model 2.0 je trenutačno usmjeren na video usmjeren na ljude. Za scene bez ljudi i dalje ćete željeti alate optimizirane za okolišno ili apstraktno generiranje. Ovo je specijalizirani alat, a ne generalist.

Šira slika

Gledamo kako AI video prolazi kroz svoju nezgodnu fazu tinejdžera. Modeli mogu proizvesti zapanjujuće 10-sekundne isječke, ali zatražite od njih da zadrže koherentnost kroz minute i raspadaju se. Bidirekcijski pristup CraftStoryja je jedan odgovor na taj problem.

Pravo pitanje: koliko dugo dok ovaj tehnika ne bude usvojena od strane većih igrača? OpenAI, Google i Runway svi imaju resurse za implementaciju sličnih arhitektura. Prednost CraftStoryja je biti prvi na tržištu s radnim dugometražnim generiranjem.

Za sada, ako vam treba dosljedan višeminutni AI video sadržaj s ljudskim subjektima, CraftStory je upravo postao jedina igra u gradu. Barijera trajanja još nije slomljena, ali netko je upravo stavio ozbiljnu pukotinu u njoj.

🚀

Isprobajte

CraftStory Model 2.0 je sada dostupan. Struktura cijena nije javno detaljno navedena, stoga ćete morati provjeriti njihovu stranicu za trenutne ponude. Text-to-video dolazi, što će platformu učiniti dostupnom korisnicima bez postojećeg pokretačkog video sadržaja.

Henry

Henry

Kreativni Tehnolog

Kreativni tehnolog iz Lausannea koji istražuje gdje se AI susreće s umjetnošću. Eksperimentira s generativnim modelima između sesija elektronske glazbe.

Svidio vam se ovaj članak?

Otkrijte više i pratite naš najnoviji sadržaj.

CraftStory Model 2.0: Kako bidirekcijska difuzija omogućava 5-minutne AI videozapise