CraftStory Model 2.0: Kuidas Kahesuunaline Difusioon Võimaldab 5-Minutilisi AI-Videoid
Samas kui Sora 2 maksimum on 25 sekundit, avaldas CraftStory just süsteemi, mis genereerib ühtseid 5-minutilisi videoid. Saladus? Mitme difusioonimootori paralleelne töö kahesuunaliste piirangutega.

AI-video suur probleem? Kestus. Sora 2 piir on 25 sekundit. Runway ja Pika jäävad umbes 10 sekundi juurde. CraftStory astus just sisse ja ütles: 5-minutilised ühtsed videod. Tehnika selle taga on päriselt nutikas.
Kestuse Probleem, Mida Keegi Ei Ole Lahendanud
Asi on praeguste AI-videomudelitega selline: nad on sprinterid, mitte maratoonarid. Genereeri kaheksa sekundit ilusat materjali, siis proovi seda pikendada, ja saad visuaalse vastava telefonikatseloomängu. Artefaktid kuhjuvad. Tegelased triivivad. Kõik kukub kokku.
Traditsiooniline lähenemine toimib nii: genereeri tükk, kasuta viimast paari kaadrit kontekstina järgmise tüki jaoks, ühenda need kokku. Probleem? Vead kuhjuvad. Veidi veider käeposiidoon esimeses tükis muutub viiendaks tükiks kummalikuks lobiks.
CraftStory asutas meeskond OpenCV taga, arvutinägemise teek, mis töötab praktiliselt igas nägemissüsteemis, mida oled kasutanud. Nende tegevjuht Victor Erukhimov oli kaasasutaja Itseez, arvutinägemise startup, mille Intel omandas 2016.
Kahesuunaline Difusioon: Arhitektuurne Uuendus
CraftStory lahendus pöörab tavalise lähenemise pea peale. Selle asemel, et genereerida järjestikku ja loota parimat, käitavad nad mitut väiksemat difusioonimootori samaaegselt kogu video ajateljel.
Kahesuunalised Piirangud
Peamine mõte: "Video hilisem osa võib mõjutada ka video varasemat osa", selgitab Erukhimov. "Ja see on üsna oluline, sest kui teed seda ükshaaval, siis esimeses osas ilmnev artefakt levib teise, ja siis see kuhjub."
Mõtle seda nagu romaani kirjutamine versus selle kontuuride tegemine. Järjestikune genereerimine on nagu lehekülg üks kirjutamine, siis lehekülg kaks, siis lehekülg kolm, ilma võimaluseta tagasi minna. CraftStory lähenemine on nagu kontuur, kus peatükk kümme saab informeerida, mis peab juhtuma peatükis kaks.
Traditsiooniline Järjestikune
- Genereeri segment A
- Kasuta A lõppu B alustamiseks
- Kasuta B lõppu C alustamiseks
- Looda, et miski ei kuhju
- Rista sõrmed ühenduskohtades
Kahesuunaline Paralleelne
- Töötle kõiki segmente samaaegselt
- Iga segment piirab oma naabreid
- Varasemaid segmente mõjutavad hilisemad
- Artefaktid korrigeerivad ennast üle ajatelje
- Loomulik ühtsus, ühendusi pole vaja
Kuidas Model 2.0 Tegelikult Töötab
Praegu on CraftStory Model 2.0 video-video süsteem. Sa annad pildi ja juhtiva video, ja see genereerib väljundi, kus sinu pildil olev inimene teostab juhtiva video liikumisi.
- ✓Laadi üles viitepilt (sinu subjekt)
- ✓Anna juhtiv video (liikumise mall)
- ✓Mudel sünteesib esituse
- ○Tekst-video tuleb tulevases uuenduses
Huulte-sünkroonimise süsteem paistab silma. Anna sellele käsikiri või helirada, ja see genereerib vastavad suuliigutused. Eraldi žestide joondamise algoritm sünkroniseerib kehakeele kõne rütmi ja emotsionaalse tooniga. Tulemus? Videod, kus inimene tegelikult näib neid sõnu ütlevat, mitte lihtsalt lõuga liputavat.
CraftStory õppis proprietaarsel kõrge kaadrisagedusega materjal, mis filmiti spetsiaalselt mudeli jaoks. Tavalised 30fps YouTube klipid on liiga palju liikumishägusad peensuste jaoks nagu sõrmed. Nad palkasid stuudioid, et jäädvustada näitlejaid kõrgemate kaadrisagedustega puhtamate treeningandmete jaoks.
Väljund: Mida Sa Tegelikult Saad
- Kuni 5 minutit pidevat videot
- 480p ja 720p algne lahutus
- 720p skaalatav 1080p-ni
- Horisontaalne ja vertikaalne formaat
- Sünkroniseeritud huulte liigutused
- Loomulik žestide joondamine
- Ainult video-video (tekst-video veel mitte)
- Nõuab juhtiva video sisendit
- Umbes 15 minutit 30 sekundi jaoks madala lahutusega
- Praegu staatiline kaamera (liikuv kaamera tulemas)
Genereerimine võtab umbes 15 minutit madala lahutusega 30-sekundilise klipi jaoks. See on aeglasem kui peaaegu hetke genereerimine, mida mõned mudelid pakuvad, aga kompromiss on ühtsem pika vormi väljund selle asemel, et oleksid ilusad fragmendid, mis ei ühenda.
Miks See Loojatele Oluline On
5-minuti barjäär pole suvaline. See on lävi, kus AI-video muutub kasulikuks tegeliku sisu jaoks.
Sotsiaalsed Klipid
Hea TikTok lõikude ja reklaamide jaoks, aga piiratud jutustamine
Lühikesed Selgitajad
Piisav kiire toote demo või kontseptsiooni illustratsiooni jaoks
Päris Sisu
YouTube õpetused, koolituse videod, esitlused, narratiivne sisu
Pikk Vorm
Täiepisoodid, dokumentaalfilmid, hariduslikud kursused
Enamik äri videosisu elab 2-5 minuti vahemikus. Toote demostratsioonid. Koolituse moodulid. Selgitavad videod. Sisemised kommunikatsioonid. Siin muutub CraftStory asjakohaseks professionaalsete kasutusjuhtumite jaoks.
Kasutusjuhtumid, Mis Avanevad:
- Toote õpetused järjepideva esitlejaga kogu aeg
- Koolituse videod, mis ei vaja talendi planeerimist
- Personaliseeritud video sõnumid skaalale
- Hariduslik sisu virtuaalsete õpetajatega
- Korporatiivsed kommunikatsioonid genereeritud kõneisikutega
Konkurentsimaastik
CraftStory kogus $2 miljonit seemne rahastust, mida juhtis Andrew Filev, Wrike ja Zencoder asutaja. See on tagasihoidlik võrreldes miljardite vooluga OpenAI ja Google poole, aga piisav tehnoloogia tõestamiseks.
OpenCV Ühendus
Asutajate meeskonna päritolu on siin oluline. OpenCV toitab arvutinägemise süsteeme tööstusharude üleselt. Need inimesed mõistavad visuaalse töötlemise põhitõdesid tasemel, mida enamik AI-video startupe ei mõista.
Tekst-video võimalus on arenduses. Kui see käivitub, muutub väärtuspakkumine selgemaks: kirjelda 5-minutilist videot tekstis, saa ühtsem väljund ilma kaader-kaadri kvaliteedi languseta, mis kimbutab teisi tööriistu.
Mis Järgmisena
Tegevuskava Omadused▼
CraftStory on teatanud mitmetest tulemasolevast võimalustest:
- Tekst-video: Genereerimine vihjete põhjal ilma juhtiva videota
- Liikuv kaamera: Panoraam, suum ja jälgimise võtted
- Kõnni-ja-räägi: Subjektid, kes liiguvad ruumis rääkides
Kahesuunalise difusiooni lähenemine pole lihtsalt CraftStory trikk. See on muster, mida teised meeskonnad tõenäoliselt omaks võtavad. Kui oled lahendanud "vead kuhjuvad edasi" probleemi, muutub pikem genereerimine inseneritehniliseks väljakutseks mitte fundamentaalseks barjääriks.
Model 2.0 on praegu keskendunud inimkesksele videole. Stseenide jaoks ilma inimesteta tahad endiselt tööriistu, mis on optimeeritud keskkondliku või abstraktse genereerimise jaoks. See on spetsialiseeritud tööriist, mitte generalist.
Suurem Pilt
Vaatame, kuidas AI-video läbib oma ebamugavat teismelise faasi. Mudelid suudavad toota vapustavaid 10-sekundilisi klippe, aga kui palud neil säilitada ühtsust minutite jooksul, kukuvad nad kokku. CraftStory kahesuunaline lähenemine on üks vastus sellele probleemile.
Tõeline küsimus: kui kaua kulub, kuni see tehnika võetakse vastu suuremate mängijate poolt? OpenAI, Google ja Runway kõigil on ressursid sarnaste arhitektuuride rakendamiseks. CraftStory eelis on olla esimene turul toimiva pika vormi genereerimisega.
Praegu, kui vajad ühtsete mitme-minutiliste AI-video sisu inimsubjektidega, muutus CraftStory just ainsaks mänguks linnas. Kestuse barjäär pole veel murtud, aga keegi tegi just tõsise pragu sellesse.
Proovi Seda
CraftStory Model 2.0 on nüüd saadaval. Hinnakujunduse struktuuri pole avalikult täpsustatud, seega pead kontrollima nende saidilt praeguseid pakkumisi. Tekst-video tuleb, mis teeb platvormi kättesaadavaks kasutajatele ilma olemasoleva juhtiva video sisuta.

Henry
Loov tehnoloogLoov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.