HenryHenry
5 min read
978 sanaa

CraftStory Model 2.0: Kuinka Kaksisuuntainen Diffuusio Mahdollistaa 5 Minuutin AI-Videot

Kun Sora 2 maksimi on 25 sekuntia, CraftStory julkaisi juuri järjestelmän, joka luo johdonmukaisia 5 minuutin videoita. Salaisuus? Useiden diffuusiomoottorien ajaminen rinnakkain kaksisuuntaisilla rajoituksilla.

CraftStory Model 2.0: Kuinka Kaksisuuntainen Diffuusio Mahdollistaa 5 Minuutin AI-Videot

AI-videon iso ongelma? Kesto. Sora 2 rajoittuu 25 sekuntiin. Runway ja Pika pysyttelevät 10 sekunnin tienoilla. CraftStory astui juuri sisään ja sanoi: 5 minuutin johdonmukaiset videot. Taktiikka tämän takana on aidosti älykäs.

Kesto-Ongelma, Jota Kukaan Ei Ole Ratkaissut

Asia nykyisten AI-videomallien kanssa on tämä: ne ovat pikajuoksijoita, eivät maratoonareita. Luo kahdeksan sekuntia kaunista materiaalia, yritä sitten laajentaa sitä, ja saat visuaalisen vastineen puhelinleikistä. Artefaktit kasaantuvat. Hahmot ajautuvat. Kaikki hajoaa.

25s
Sora 2 Maks
10s
Tyypilliset Mallit
5min
CraftStory

Perinteinen lähestymistapa toimii näin: luo pala, käytä viimeisiä kehyksiä kontekstina seuraavalle palalle, liitä ne yhteen. Ongelma? Virheet kasaantuvat. Hieman outo käden asento palassa yksi muuttuu oudoksi möykyksi palaan viisi.

💡

CraftStoryn perusti tiimi OpenCV:n takana, tietokonenäkökyvyn kirjasto, joka pyörii käytännössä jokaisessa näköjärjestelmässä, jota olet käyttänyt. Heidän toimitusjohtajansa Victor Erukhimov oli mukana perustamassa Itseez, tietokonenäön startup, jonka Intel osti 2016.

Kaksisuuntainen Diffuusio: Arkkitehtoninen Innovaatio

CraftStoryn ratkaisu kääntää tyypillisen lähestymistavan päälaelleen. Sen sijaan, että luotaisiin peräkkäin ja toivottaisiin parasta, he ajavat useita pienempiä diffuusiomoottoreita samanaikaisesti koko videon aikajanalla.

🔄

Kaksisuuntaiset Rajoitukset

Keskeinen ajatus: "Videon myöhempi osa voi vaikuttaa videon aikaisempaan osaan myös", selittää Erukhimov. "Ja tämä on melko tärkeää, koska jos teet sen yksitellen, niin ensimmäisessä osassa ilmestyvä artefakti leviää toiseen, ja sitten se kasaantuu."

Ajattele sitä kuin romaanin kirjoittaminen verrattuna sen jäsentämiseen. Peräkkäinen luonti on kuin sivu yksi kirjoittaminen, sitten sivu kaksi, sitten sivu kolme, ilman kykyä palata takaisin. CraftStoryn lähestymistapa on kuin jäsennys, jossa luku kymmenen voi vaikuttaa siihen, mitä pitää tapahtua luvussa kaksi.

Perinteinen Peräkkäinen

  • Luo segmentti A
  • Käytä A:n loppua B:n aloittamiseen
  • Käytä B:n loppua C:n aloittamiseen
  • Toivo, ettei mikään kasaannu
  • Risti sormet liitoskohdissa

Kaksisuuntainen Rinnakkainen

  • Käsittele kaikki segmentit samanaikaisesti
  • Jokainen segmentti rajoittaa naapureitaan
  • Myöhemmät segmentit vaikuttavat aiempiin
  • Artefaktit korjaavat itsensä aikajanan yli
  • Luontainen johdonmukaisuus, ei liitoksia

Kuinka Model 2.0 Oikeastaan Toimii

Tällä hetkellä CraftStory Model 2.0 on video-video järjestelmä. Annat kuvan ja ohjaavan videon, ja se luo tuotoksen, jossa kuvasi henkilö suorittaa ohjaavan videon liikkeet.

  • Lataa viitekuva (kohteesi)
  • Anna ohjaava video (liikemalli)
  • Malli syntetisoi suorituksen
  • Teksti-video tulossa tulevassa päivityksessä

Huulten synkronointi järjestelmä erottuu. Anna sille käsikirjoitus tai ääniraita, ja se luo vastaavat suuliikkeet. Erillinen eleiden kohdistusalgoritmi synkronoi kehonkielen puheen rytmin ja emotionaalisen sävyn kanssa. Tulos? Videot, joissa henkilö näyttää todella sanovan nuo sanat, ei vain heiluttavan leukaa.

💡

CraftStory koulutti omalla korkean kuvataajuuden materiaalilla, joka kuvattiin erityisesti mallia varten. Tavalliset 30fps YouTube-leikkeet sisältävät liikaa liike-epäterävyyttä hienoille yksityiskohdille kuten sormet. He palkkasivat studioita tallentamaan näyttelijöitä korkeammilla kuvataajuuksilla puhtaampaa koulutusdataa varten.

Tuotos: Mitä Oikeastaan Saat

Kyvyt
  • Jopa 5 minuuttia jatkuvaa videota
  • 480p ja 720p natiivi resoluutio
  • 720p skaalattavissa 1080p:hen
  • Vaaka- ja pystymuodot
  • Synkronoidut huuliliikkeet
  • Luonnollinen eleiden kohdistus
Rajoitukset
  • Vain video-video (ei teksti-videota vielä)
  • Vaatii ohjaavan videon syötteen
  • Noin 15 minuuttia 30 sekunnille matalalla resoluutiolla
  • Tällä hetkellä staattinen kamera (liikkuva kamera tulossa)

Luonti kestää noin 15 minuuttia matalan resoluution 30 sekunnin leikkeelle. Se on hitaampaa kuin lähes välitön luonti, jota jotkut mallit tarjoavat, mutta kompromissi on johdonmukainen pitkän muodon tuotos sen sijaan, että olisi kauniita fragmentteja, jotka eivät yhdisty.

Miksi Tämä On Tärkeää Sisällöntuottajille

5 minuutin este ei ole mielivaltainen. Se on kynnys, jossa AI-videosta tulee hyödyllistä todelliselle sisällölle.

10 sek

Sosiaalisen Median Leikkeet

Hyvä TikTok-pätkille ja mainoksille, mutta rajallinen tarinankerronta

30 sek

Lyhyet Selittäjät

Riittävä nopealle tuotedemolle tai konsepti-illustraatiolle

2-5 min

Todellinen Sisältö

YouTube-oppaat, koulutusviideot, esittelyt, narratiivinen sisältö

Tulevaisuus

Pitkä Muoto

Täydet jaksot, dokumentit, opetuskurssit

Suurin osa yrityssisällöstä elää 2-5 minuutin välillä. Tuotedemot. Koulutusmoduulit. Selittävät videot. Sisäinen viestintä. Tässä CraftStorysta tulee relevantti ammatillisille käyttötapauksille.

Käyttötapaukset Jotka Avautuvat:

  • Tuoteopastukset johdonmukaisella esittäjällä läpi videon
  • Koulutusviideot, jotka eivät vaadi lahjakkuuden aikatauluttamista
  • Henkilökohtaiset videoviestit mittakaavassa
  • Opetussisältö virtuaalisilla ohjaajilla
  • Yritysviestintä luoduilla tiedottajilla

Kilpailumaisema

CraftStory keräsi $2 miljoonaa siemenrahoitusta, jota johti Andrew Filev, Wriken ja Zencoderin perustaja. Se on vaatimaton verrattuna miljardeihin, jotka virtaavat OpenAI:hin ja Googleen, mutta riittävä teknologian todistamiseen.

🎯

OpenCV-Yhteys

Perustajatiimin tausta on tässä tärkeä. OpenCV ajaa tietokonenäköjärjestelmiä toimialojen yli. Nämä ihmiset ymmärtävät visuaalisen käsittelyn perusteet tasolla, jota suurin osa AI-video startuppeja ei ymmärrä.

Teksti-video kyky on kehitteillä. Kun se julkaistaan, arvolupaus muuttuu selkeämmäksi: kuvaile 5 minuutin video tekstissä, saa johdonmukainen tuotos ilman kehys kerrallaan laadun heikkenemistä, joka vaivaa muita työkaluja.

Mitä Seuraavaksi

Tiekartan Ominaisuudet

CraftStory on ilmoittanut useista tulevista kyvyistä:

  • Teksti-video: Luonti kehotteista ilman ohjaavaa videota
  • Liikkuva kamera: Panorointi, zoomaus ja seurantaotokset
  • Kävele-ja-puhu: Kohteet, jotka liikkuvat tilassa puhuessaan

Kaksisuuntainen diffuusio lähestymistapa ei ole vain CraftStoryn temppu. Se on malli, jonka muut tiimit todennäköisesti omaksuvat. Kun olet ratkaissut "virheet kasaantuvat eteenpäin" ongelman, pidemmästä luonnista tulee insinöörihaaste perustavanlaatuisen esteen sijaan.

⚠️

Model 2.0 keskittyy tällä hetkellä ihmiskeskeiseen videoon. Kohtauksille ilman ihmisiä haluat edelleen työkaluja, jotka on optimoitu ympäristön tai abstraktin luonnin kannalta. Tämä on erikoistyökalu, ei yleistyökalu.

Isompi Kuva

Katselemme AI-videon kulkevan kömpeän teini-ikäisen vaiheen läpi. Mallit voivat tuottaa upeita 10 sekunnin leikkeitä, mutta pyydä niitä ylläpitämään johdonmukaisuutta minuuttien ajan ja ne hajoavat. CraftStoryn kaksisuuntainen lähestymistapa on yksi vastaus tähän ongelmaan.

Todellinen kysymys: kauanko kestää ennen kuin tämä tekniikka otetaan käyttöön isommilla pelaajilla? OpenAI:lla, Googlella ja Runwaylla kaikilla on resurssit toteuttaa samankaltaisia arkkitehtuureja. CraftStoryn etu on olla ensimmäinen markkinoilla toimivan pitkän muodon luonnin kanssa.

Toistaiseksi, jos tarvitset johdonmukaista usean minuutin AI-videosisältöä ihmiskohteilla, CraftStorysta tuli juuri ainoa vaihtoehto. Keston este ei ole vielä murrettu, mutta joku teki juuri vakavan halkeaman siihen.

🚀

Kokeile Sitä

CraftStory Model 2.0 on nyt saatavilla. Hinnoittelurakennetta ei ole julkisesti tarkennettu, joten sinun täytyy tarkistaa heidän sivustoltaan nykyiset tarjoukset. Teksti-video on tulossa, mikä tekee alustasta saavutettavan käyttäjille ilman olemassa olevaa ohjaavaa videosisältöä.

Henry

Henry

Luova teknologi

Lausannesta kotoisin oleva luova teknologi, joka tutkii tekoälyn ja taiteen kohtaamispisteitä. Kokee generatiivisten mallien kanssa elektronisen musiikin sessioiden välissä.

Piditkö tästä artikkelista?

Lue lisää ja pysy ajan tasalla uusimmista julkaisuistamme.

CraftStory Model 2.0: Kuinka Kaksisuuntainen Diffuusio Mahdollistaa 5 Minuutin AI-Videot