CraftStory Model 2.0: Kuinka Kaksisuuntainen Diffuusio Mahdollistaa 5 Minuutin AI-Videot
Kun Sora 2 maksimi on 25 sekuntia, CraftStory julkaisi juuri järjestelmän, joka luo johdonmukaisia 5 minuutin videoita. Salaisuus? Useiden diffuusiomoottorien ajaminen rinnakkain kaksisuuntaisilla rajoituksilla.

AI-videon iso ongelma? Kesto. Sora 2 rajoittuu 25 sekuntiin. Runway ja Pika pysyttelevät 10 sekunnin tienoilla. CraftStory astui juuri sisään ja sanoi: 5 minuutin johdonmukaiset videot. Taktiikka tämän takana on aidosti älykäs.
Kesto-Ongelma, Jota Kukaan Ei Ole Ratkaissut
Asia nykyisten AI-videomallien kanssa on tämä: ne ovat pikajuoksijoita, eivät maratoonareita. Luo kahdeksan sekuntia kaunista materiaalia, yritä sitten laajentaa sitä, ja saat visuaalisen vastineen puhelinleikistä. Artefaktit kasaantuvat. Hahmot ajautuvat. Kaikki hajoaa.
Perinteinen lähestymistapa toimii näin: luo pala, käytä viimeisiä kehyksiä kontekstina seuraavalle palalle, liitä ne yhteen. Ongelma? Virheet kasaantuvat. Hieman outo käden asento palassa yksi muuttuu oudoksi möykyksi palaan viisi.
CraftStoryn perusti tiimi OpenCV:n takana, tietokonenäkökyvyn kirjasto, joka pyörii käytännössä jokaisessa näköjärjestelmässä, jota olet käyttänyt. Heidän toimitusjohtajansa Victor Erukhimov oli mukana perustamassa Itseez, tietokonenäön startup, jonka Intel osti 2016.
Kaksisuuntainen Diffuusio: Arkkitehtoninen Innovaatio
CraftStoryn ratkaisu kääntää tyypillisen lähestymistavan päälaelleen. Sen sijaan, että luotaisiin peräkkäin ja toivottaisiin parasta, he ajavat useita pienempiä diffuusiomoottoreita samanaikaisesti koko videon aikajanalla.
Kaksisuuntaiset Rajoitukset
Keskeinen ajatus: "Videon myöhempi osa voi vaikuttaa videon aikaisempaan osaan myös", selittää Erukhimov. "Ja tämä on melko tärkeää, koska jos teet sen yksitellen, niin ensimmäisessä osassa ilmestyvä artefakti leviää toiseen, ja sitten se kasaantuu."
Ajattele sitä kuin romaanin kirjoittaminen verrattuna sen jäsentämiseen. Peräkkäinen luonti on kuin sivu yksi kirjoittaminen, sitten sivu kaksi, sitten sivu kolme, ilman kykyä palata takaisin. CraftStoryn lähestymistapa on kuin jäsennys, jossa luku kymmenen voi vaikuttaa siihen, mitä pitää tapahtua luvussa kaksi.
Perinteinen Peräkkäinen
- Luo segmentti A
- Käytä A:n loppua B:n aloittamiseen
- Käytä B:n loppua C:n aloittamiseen
- Toivo, ettei mikään kasaannu
- Risti sormet liitoskohdissa
Kaksisuuntainen Rinnakkainen
- Käsittele kaikki segmentit samanaikaisesti
- Jokainen segmentti rajoittaa naapureitaan
- Myöhemmät segmentit vaikuttavat aiempiin
- Artefaktit korjaavat itsensä aikajanan yli
- Luontainen johdonmukaisuus, ei liitoksia
Kuinka Model 2.0 Oikeastaan Toimii
Tällä hetkellä CraftStory Model 2.0 on video-video järjestelmä. Annat kuvan ja ohjaavan videon, ja se luo tuotoksen, jossa kuvasi henkilö suorittaa ohjaavan videon liikkeet.
- ✓Lataa viitekuva (kohteesi)
- ✓Anna ohjaava video (liikemalli)
- ✓Malli syntetisoi suorituksen
- ○Teksti-video tulossa tulevassa päivityksessä
Huulten synkronointi järjestelmä erottuu. Anna sille käsikirjoitus tai ääniraita, ja se luo vastaavat suuliikkeet. Erillinen eleiden kohdistusalgoritmi synkronoi kehonkielen puheen rytmin ja emotionaalisen sävyn kanssa. Tulos? Videot, joissa henkilö näyttää todella sanovan nuo sanat, ei vain heiluttavan leukaa.
CraftStory koulutti omalla korkean kuvataajuuden materiaalilla, joka kuvattiin erityisesti mallia varten. Tavalliset 30fps YouTube-leikkeet sisältävät liikaa liike-epäterävyyttä hienoille yksityiskohdille kuten sormet. He palkkasivat studioita tallentamaan näyttelijöitä korkeammilla kuvataajuuksilla puhtaampaa koulutusdataa varten.
Tuotos: Mitä Oikeastaan Saat
- Jopa 5 minuuttia jatkuvaa videota
- 480p ja 720p natiivi resoluutio
- 720p skaalattavissa 1080p:hen
- Vaaka- ja pystymuodot
- Synkronoidut huuliliikkeet
- Luonnollinen eleiden kohdistus
- Vain video-video (ei teksti-videota vielä)
- Vaatii ohjaavan videon syötteen
- Noin 15 minuuttia 30 sekunnille matalalla resoluutiolla
- Tällä hetkellä staattinen kamera (liikkuva kamera tulossa)
Luonti kestää noin 15 minuuttia matalan resoluution 30 sekunnin leikkeelle. Se on hitaampaa kuin lähes välitön luonti, jota jotkut mallit tarjoavat, mutta kompromissi on johdonmukainen pitkän muodon tuotos sen sijaan, että olisi kauniita fragmentteja, jotka eivät yhdisty.
Miksi Tämä On Tärkeää Sisällöntuottajille
5 minuutin este ei ole mielivaltainen. Se on kynnys, jossa AI-videosta tulee hyödyllistä todelliselle sisällölle.
Sosiaalisen Median Leikkeet
Hyvä TikTok-pätkille ja mainoksille, mutta rajallinen tarinankerronta
Lyhyet Selittäjät
Riittävä nopealle tuotedemolle tai konsepti-illustraatiolle
Todellinen Sisältö
YouTube-oppaat, koulutusviideot, esittelyt, narratiivinen sisältö
Pitkä Muoto
Täydet jaksot, dokumentit, opetuskurssit
Suurin osa yrityssisällöstä elää 2-5 minuutin välillä. Tuotedemot. Koulutusmoduulit. Selittävät videot. Sisäinen viestintä. Tässä CraftStorysta tulee relevantti ammatillisille käyttötapauksille.
Käyttötapaukset Jotka Avautuvat:
- Tuoteopastukset johdonmukaisella esittäjällä läpi videon
- Koulutusviideot, jotka eivät vaadi lahjakkuuden aikatauluttamista
- Henkilökohtaiset videoviestit mittakaavassa
- Opetussisältö virtuaalisilla ohjaajilla
- Yritysviestintä luoduilla tiedottajilla
Kilpailumaisema
CraftStory keräsi $2 miljoonaa siemenrahoitusta, jota johti Andrew Filev, Wriken ja Zencoderin perustaja. Se on vaatimaton verrattuna miljardeihin, jotka virtaavat OpenAI:hin ja Googleen, mutta riittävä teknologian todistamiseen.
OpenCV-Yhteys
Perustajatiimin tausta on tässä tärkeä. OpenCV ajaa tietokonenäköjärjestelmiä toimialojen yli. Nämä ihmiset ymmärtävät visuaalisen käsittelyn perusteet tasolla, jota suurin osa AI-video startuppeja ei ymmärrä.
Teksti-video kyky on kehitteillä. Kun se julkaistaan, arvolupaus muuttuu selkeämmäksi: kuvaile 5 minuutin video tekstissä, saa johdonmukainen tuotos ilman kehys kerrallaan laadun heikkenemistä, joka vaivaa muita työkaluja.
Mitä Seuraavaksi
Tiekartan Ominaisuudet▼
CraftStory on ilmoittanut useista tulevista kyvyistä:
- Teksti-video: Luonti kehotteista ilman ohjaavaa videota
- Liikkuva kamera: Panorointi, zoomaus ja seurantaotokset
- Kävele-ja-puhu: Kohteet, jotka liikkuvat tilassa puhuessaan
Kaksisuuntainen diffuusio lähestymistapa ei ole vain CraftStoryn temppu. Se on malli, jonka muut tiimit todennäköisesti omaksuvat. Kun olet ratkaissut "virheet kasaantuvat eteenpäin" ongelman, pidemmästä luonnista tulee insinöörihaaste perustavanlaatuisen esteen sijaan.
Model 2.0 keskittyy tällä hetkellä ihmiskeskeiseen videoon. Kohtauksille ilman ihmisiä haluat edelleen työkaluja, jotka on optimoitu ympäristön tai abstraktin luonnin kannalta. Tämä on erikoistyökalu, ei yleistyökalu.
Isompi Kuva
Katselemme AI-videon kulkevan kömpeän teini-ikäisen vaiheen läpi. Mallit voivat tuottaa upeita 10 sekunnin leikkeitä, mutta pyydä niitä ylläpitämään johdonmukaisuutta minuuttien ajan ja ne hajoavat. CraftStoryn kaksisuuntainen lähestymistapa on yksi vastaus tähän ongelmaan.
Todellinen kysymys: kauanko kestää ennen kuin tämä tekniikka otetaan käyttöön isommilla pelaajilla? OpenAI:lla, Googlella ja Runwaylla kaikilla on resurssit toteuttaa samankaltaisia arkkitehtuureja. CraftStoryn etu on olla ensimmäinen markkinoilla toimivan pitkän muodon luonnin kanssa.
Toistaiseksi, jos tarvitset johdonmukaista usean minuutin AI-videosisältöä ihmiskohteilla, CraftStorysta tuli juuri ainoa vaihtoehto. Keston este ei ole vielä murrettu, mutta joku teki juuri vakavan halkeaman siihen.
Kokeile Sitä
CraftStory Model 2.0 on nyt saatavilla. Hinnoittelurakennetta ei ole julkisesti tarkennettu, joten sinun täytyy tarkistaa heidän sivustoltaan nykyiset tarjoukset. Teksti-video on tulossa, mikä tekee alustasta saavutettavan käyttäjille ilman olemassa olevaa ohjaavaa videosisältöä.

Henry
Luova teknologiLausannesta kotoisin oleva luova teknologi, joka tutkii tekoälyn ja taiteen kohtaamispisteitä. Kokee generatiivisten mallien kanssa elektronisen musiikin sessioiden välissä.