CraftStory Model 2.0: Kā divvirzienu difūzija atver 5 minūšu AI video
Kamēr Sora 2 maksimums ir 25 sekundes, CraftStory izlaida sistēmu, kas ģenerē saskaņotus 5 minūšu video. Noslēpums? Vairāki difūzijas dzinēji paralēli ar divvirzienu ierobežojumiem.

Lielākā problēma AI video jomā? Ilgums. Sora 2 maksimums ir 25 sekundes. Runway un Pika tiek līdz 10 sekundēm. CraftStory tikko parādīja sistēmu, kas ģenerē saskaņotus 5 minūšu video. Tehnika aiz tā ir patiešām gudra.
Ilguma problēma, ko neviens nav atrisinājis
Pašreizējie AI video modeļi ir sprinteris, nevis maratonieti. Ģenerē astoņas sekundes lielisku materiālu, tad mēģini to pagarināt, un rezultāts ir kā telefona spēle. Artefakti uzkrājas. Rakstzīmes pazūd. Viss sabrūk.
Tradicionālā pieeja strādā šādi: ģenerē gabalu, izmanto pēdējos kadrus kā kontekstu nākamajam gabalam, saliec tos kopā. Problēma? Kļūdas uzkrājas. Nedaudz dīvaina rokas pozīcija pirmajā gabalā kļūst par dīvainu objektu piektajā.
CraftStory izveidoja komanda aiz OpenCV, datora redzes bibliotēkas, kas darbojas praktiski katrā redzes sistēmā, kuru jūs esat izmantojuši. Viņu CEO Victor Erukhimov līdzdibināja Itseez, datora redzes uzņēmumu, ko Intel iegādājās 2016. gadā.
Divvirzienu difūzija: Arhitektūras inovācija
CraftStory risinājums apgriež tipisku pieeju. Tā vietā, lai ģenerētu secīgi un cerētu uz labāko, viņi vienlaikus izmanto vairākus mazākus difūzijas dzinējus visā video laika līnijā.
Divvirzienu ierobežojumi
Galvenā atziņa: "Video beigu daļa var ietekmēt arī sākuma daļu," skaidro Erukhimov. "Un tas ir svarīgi, jo, ja dari to pa vienam, tad artefakts, kas parādās pirmajā daļā, izplatās uz otro, un tad tas uzkrājas."
Iedomājieties, ka rakstāt romānu versus veidojat tā kontūru. Secīga ģenerēšana ir kā rakstīt pirmo lappusi, tad otro, tad trešo, bez iespējas atgriezties. CraftStory pieeja ir kā izmantot kontūru, kur desmitā nodaļa var informēt, kam jānotiek otrajā nodaļā.
Tradicionālā secīgā
- Ģenerē segmentu A
- Izmanto A beigās, lai sāktu B
- Izmanto B beigās, lai sāktu C
- Cer, ka nekas neuzkrājas
- Pirkstu krustošana savienojuma punktos
Divvirzienu paralēlā
- Apstrādā visus segmentus vienlaikus
- Katrs segments ierobežo savus kaimiņus
- Agrīnos segmentus ietekmē vēlākie
- Artefakti pašlabojas visā laika līnijā
- Dabiska saskaņotība bez savienošanas
Kā Model 2.0 faktiski darbojas
Pašlaik CraftStory Model 2.0 ir video uz video sistēma. Jūs sniedzat attēlu un vadošo video, un tas ģenerē izvadi, kurā persona jūsu attēlā veic kustības no vadošā video.
- ✓Augšupielādēt atsauces attēlu (jūsu objekts)
- ✓Sniegt vadošo video (kustību veidne)
- ✓Modelis sintezē sniegumu
- ○Teksts uz video nākotnē
Lūpu sinhronizācijas sistēma ir spēcīga. Padodiet tam skriptu vai audio celiņu, un tas ģenerē atbilstošas mutes kustības. Atsevišķs žestu saskaņošanas algoritms sinhronizē ķermeņa valodu ar runas ritmu un emocionālo toni. Rezultāts? Video, kur persona faktiski izskatās, ka viņa runā tos vārdus, nevis vienkārši plunkšķina žokli.
CraftStory apmācīja uz ekskluzīvu augsta kadru ātruma materiālu, kas uzņemts īpaši modelim. Standarta 30fps YouTube klipi ir pārāk daudz kustību izplūduma smalkām detaļām, piemēram, pirkstiem. Viņi algoja studijas, lai filmētu aktierus ar augstāku kadru ātrumu tīrākiem apmācības datiem.
Izvade: Ko faktiski iegūstat
- Līdz 5 minūtēm nepārtraukta video
- 480p un 720p dabīgā izšķirtspēja
- 720p mērogojams līdz 1080p
- Ainava un portreta formāti
- Sinhronizētas lūpu kustības
- Dabīga žestu saskaņošana
- Tikai video uz video (vēl nav teksts uz video)
- Nepieciešama vadošā video ievade
- Aptuveni 15 minūtes 30 sekundēm zemas izšķirtspējas
- Pašlaik statiska kamera (kustīga kamera nākotnē)
Ģenerēšana prasa aptuveni 15 minūtes zemas izšķirtspējas 30 sekunžu klipam. Tas ir lēnāk nekā gandrīz tūlītēja ģenerēšana, ko piedāvā daži modeļi, bet kompromiss ir saskaņota gara formāta izvade, nevis skaisti fragmenti, kas nesavienojas.
Kāpēc tas ir svarīgi radītājiem
5 minūšu barjera nav patvaļīga. Tā ir robeža, kur AI video kļūst noderīgs faktiskam saturam.
Sociālie klipi
Labs TikTok fragmentiem un reklāmām, bet ierobežots stāstījums
Īsi paskaidrojumi
Pietiek ātrai produkta demonstrācijai vai koncepcijas ilustrācijai
Īsts saturs
YouTube pamācības, apmācības video, prezentācijas, naratīvs saturs
Garš formāts
Pilnas epizodes, dokumentālās filmas, izglītības kursi
Lielākā daļa biznesa video satura atrodas 2-5 minūšu diapazonā. Produktu demonstrācijas, apmācību moduļi, paskaidrojošie video, iekšējā komunikācija. Šeit CraftStory kļūst atbilstošs profesionālām lietošanas gadījumiem.
Lietošanas gadījumi:
- Produktu pamācības ar konsekventu prezentētāju visā garumā
- Apmācības video, kas neprasa talantu plānošanu
- Personalizēti video ziņojumi lielā mērogā
- Izglītojošs saturs ar virtuāliem instruktoriem
- Korporatīvā komunikācija ar ģenerētiem runātājiem
Konkurences ainava
CraftStory piesaistīja 2 miljonus dolāru sēklas finansējumā, ko vadīja Andrew Filev, Wrike un Zencoder dibinātājs. Tas ir pieticīgi, salīdzinot ar miljardiem, kas plūst OpenAI un Google, bet pietiekami, lai pierādītu tehnoloģiju.
OpenCV savienojums
Dibinātāju komandas pieredze šeit ir svarīga. OpenCV darbina datora redzes sistēmas dažādās nozarēs. Šie cilvēki saprot vizuālās apstrādes pamatus līmenī, kāda lielākajai daļai AI video uzņēmumu nav.
Teksta uz video iespēja ir izstrādē. Kad tā tiks palaista, vērtības piedāvājums kļūst skaidrāks: apraksti 5 minūšu video tekstā, iegūsti saskaņotu izvadi bez kadru pa kadram kvalitātes pasliktināšanās, kas nomoka citus instrumentus.
Kas tālāk
Ceļveda funkcijas▼
CraftStory ir paziņojis vairākas gaidāmās iespējas:
- Teksts uz video: Ģenerēt no uzvedņiem bez vadošā video
- Kustīga kamera: Panoramēšana, tālummaiņa un izsekošanas uzņēmumi
- Staigāšana un runāšana: Objekti, kas pārvietojas telpā, runājot
Divvirzienu difūzijas pieeja nav tikai CraftStory triks. Tas ir modelis, ko citas komandas, visticamāk, pieņems. Kad atrisināsiet problēmu "kļūdas uzkrājas uz priekšu", garāka ģenerēšana kļūst par inženiertehnisku izaicinājumu, nevis fundamentālu barjeru.
Model 2.0 pašlaik koncentrējas uz cilvēku centrētu video. Ainām bez cilvēkiem joprojām būs nepieciešami rīki, kas optimizēti vides vai abstraktai ģenerēšanai. Šis ir speciālista rīks, ne vispārīgs.
Lielākais attēls
Mēs skatāmies, kā AI video iziet cauri neveiklajam pusaudža posmam. Modeļi var izveidot apbrīnojamus 10 sekunžu klipus, bet, lūdzot tiem saglabāt saskaņotību pa minūtēm, tie sabrūk. CraftStory divvirzienu pieeja ir viena atbilde uz šo problēmu.
Īstais jautājums: cik ilgi līdz šo tehniku pieņem lielākie spēlētāji? OpenAI, Google un Runway visiem ir resursi, lai īstenotu līdzīgas arhitektūras. CraftStory priekšrocība ir būt pirmajiem tirgū ar darboties garā formāta ģenerēšanu.
Pagaidām, ja nepieciešams konsekvent vairāku minūšu AI video saturs ar cilvēku objektiem, CraftStory tikko kļuva par vienīgo spēli pilsētā. Ilguma barjera vēl nav salauzta, bet kāds tikko tajā ielika nopietnu plaisu.
Izmēģini
CraftStory Model 2.0 ir pieejams tagad. Cenu struktūra nav publiski detalizēta, tāpēc jums būs jāpārbauda viņu vietne pašreizējiem piedāvājumiem. Teksts uz video nāk, kas padarīs platformu pieejamu lietotājiem bez esoša vadošā video satura.

Henry
Radošais TehnoloģistsRadošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.