HenryHenry
6 min read
1164 szó

CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat

Míg a Sora 2 maximum 25 másodpercnél áll meg, a CraftStory most dobott egy olyan rendszert, ami koherens 5 perces videókat generál. A titok? Több diffúziós motor párhuzamos futtatása bidirekcíonális korlátozásokkal.

CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat

Az AI videó legnagyobb problémája? Időtartam. A Sora 2 maximum 25 másodperc. A Runway és a Pika körülbelül 10 másodperc körül lebeg. A CraftStory most belépett és azt mondta "tartsátok a söröm": koherens 5 perces videók. A mögötte álló technika tényleg okos.

Az időtartam probléma, amit senki sem oldott meg

A jelenlegi AI videó modellek lényege: ők a sprinterek, nem maratonisták. Generálj nyolc másodperc gyönyörű felvételt, aztán próbáld meg meghosszabbítani, és megkapod a stille post játék vizuális megfelelőjét. Az artefaktumok halmozódnak. A karakterek eltolódnak. Az egész szétesik.

25s
Sora 2 Max
10s
Typical Models
5min
CraftStory

A hagyományos megközelítés így működik: generálj egy darabot, használd az utolsó néhány képkockát kontextusként a következő darabhoz, varrd őket össze. A probléma? A hibák halmozódnak. Egy kissé furcsa kéztartás az első darabban furcsa foltként jelenik meg az ötödik darabban.

💡

A CraftStory-t az OpenCV mögött álló csapat alapította, a számítógépes látás könyvtár, ami gyakorlatilag minden általad valaha használt látásrendszerben fut. A CEO-juk Victor Erukhimov társalapítója volt az Itseeznek, egy számítógépes látás startupnak, amit az Intel vásárolt meg 2016-ban.

Bidirekcíonális diffúzió: az építészeti innováció

A CraftStory megoldása teljesen megfordítja a tipikus megközelítést. Ahelyett, hogy szekvenciálisan generálnának és a legjobbat remélnék, több kisebb diffúziós motort futtatnak egyidejűleg a teljes videó idővonal mentén.

🔄

Bidirekcíonális korlátozások

A kulcs felismerés: "A videó későbbi része is befolyásolhatja a videó korábbi részét," magyarázza Erukhimov. "És ez elég fontos, mert ha egyenként csinálod, akkor az első részben megjelenő artefaktum átterjedhet a másodikra, aztán halmozódik."

Gondolj erre úgy, mint regényt írni versus vázlatot készíteni. A szekvenciális generálás olyan, mint írni az első oldalt, aztán a második oldalt, aztán a harmadik oldalt, visszalépés lehetősége nélkül. A CraftStory megközelítése olyan, mint ha van egy vázlatod, ahol a tizedik fejezet befolyásolhatja, hogy mi történjen a második fejezetben.

Hagyományos szekvenciális

  • Generáld az A szegmenst
  • Használd az A végét a B indításához
  • Használd a B végét a C indításához
  • Reméld, hogy semmi sem halmozódik
  • Ujjakat keresztbe az illesztési pontokon

Bidirekcíonális párhuzamos

  • Összes szegmens egyidejű feldolgozása
  • Minden szegmens korlátozza a szomszédjait
  • Korai szegmensek későbbiek által befolyásoltak
  • Artefaktumok önjavítanak az idővonalon keresztül
  • Natív koherencia, nincs illesztés

Hogyan működik a Model 2.0 valójában

Jelenleg a CraftStory Model 2.0 egy videó-videó rendszer. Adsz egy képet és egy vezérlő videót, és generál egy kimenetet, ahol a képeden lévő személy végrehajtja a vezérlő videó mozdulatait.

  • Tölts fel egy referencia képet (a tárgyad)
  • Adj meg egy vezérlő videót (a mozgás sablon)
  • A modell szintetizálja a teljesítményt
  • Text-to-video egy jövőbeli frissítésben érkezik

Az ajak szinkronizációs rendszer kiemelkedik. Adj neki egy forgatókönyvet vagy hangsávot, és generál hozzá illő szájmozgásokat. Egy külön gesztusillesítő algoritmus szinkronizálja a testbeszédet a beszéd ritmusával és érzelmi tónusával. Az eredmény? Videók, ahol a személy tényleg úgy néz ki, mintha azt mondaná azokat a szavakat, nem csak csapkodja az állkapcsát.

💡

A CraftStory saját, magas képkocka sebességű felvételeken tréningezett, amelyet kifejezetten a modellhez forgattak. A standard 30fps YouTube klipek túl sok mozgási elmosódást tartalmaznak olyan finom részletekhez, mint az ujjak. Stúdiókat béreltek fel, hogy szereplőket forgatjanak magasabb képkocka sebességnél tisztább tréning adatokért.

A kimenet: mit kapsz ténylegesen

Capabilities
  • Akár 5 perc folyamatos videó
  • Natív 480p és 720p felbontás
  • 720p skálázható 1080p-re
  • Fekvő és álló formátumok
  • Szinkronizált ajak mozgások
  • Természetes gesztus igazítás
Limitations
  • Csak videó-videó (még nincs text-to-video)
  • Vezérlő videó bemenet szükséges
  • Körülbelül 15 perc 30 másodpercért alacsony felbontásban
  • Jelenleg statikus kamera (mozgó kamera jön)

A generálás körülbelül 15 percet vesz igénybe egy alacsony felbontású 30 másodperces kliphez. Ez lassabb, mint a közel azonnali generálás, amit néhány modell kínál, de a kompromisszum egy koherens hosszú formátumú kimenet a szép fragmentumok helyett, amelyek nem kapcsolódnak egymáshoz.

Miért fontos ez az alkotóknak

Az 5 perces korlát nem önkényes. Ez az a küszöb, ahol az AI videó hasznossá válik valódi tartalomhoz.

10 sec

Közösségi klipek

Jó TikTok részletekhez és hirdetésekhez, de korlátozott történetmesélés

30 sec

Rövid magyarázók

Elég egy gyors termékbemutatóhoz vagy koncepció illusztrációhoz

2-5 min

Valódi tartalom

YouTube oktatók, oktatóvideók, prezentációk, narratív tartalom

Future

Hosszú formátum

Teljes epizódok, dokumentumfilmek, oktatási kurzusok

A legtöbb üzleti videótartalom a 2-5 perces tartományban él. Termékbemutatók. Oktatómodulok. Magyarázó videók. Belső kommunikáció. Itt válik relevánssá a CraftStory professzionális használati esetekhez.

Megnyíló használati esetek:

  • Termék oktatók konzisztens prezenterrel végig
  • Oktatóvideók, amelyek nem igényelnek tehetség ütemezést
  • Személyre szabott videó üzenetek skálában
  • Oktatási tartalom virtuális instruktorokkal
  • Vállalati kommunikáció generált szóvivőkkel

A versenykörnyezet

A CraftStory 2 millió dolláros magvető finanszírozást gyűjtött Andrew Filev vezetésével, a Wrike és a Zencoder alapítója. Ez szerény az OpenAI-ba és a Google-ba áramló milliárdokhoz képest, de elég a technológia bizonyításához.

🎯

Az OpenCV kapcsolat

Az alapító csapat származása számít itt. Az OpenCV iparágakon átívelő számítógépes látás rendszereket hajt meg. Ezek az emberek olyan szinten értik a vizuális feldolgozás alapjait, amit a legtöbb AI videó startup nem ért.

A text-to-video képesség fejlesztés alatt áll. Amint az elindul, az értékajánlat világosabbá válik: írj le egy 5 perces videót szövegben, kapj koherens kimenetet anélkül, hogy képkockánkénti minőségromlást kapnál, ami más eszközöket gyötör.

Mi jön ezután

Roadmap funkciók

A CraftStory bejelentett több közelgő képességet:

  • Text-to-video: Generálás promptokból vezérlő videó nélkül
  • Mozgó kamera: Pan, zoom és követő felvételek
  • Séta és beszélgetés: Tárgyak, akik a térben mozognak beszéd közben

A bidirekcíonális diffúzió megközelítés nem csak egy CraftStory trükk. Ez egy minta, amit más csapatok valószínűleg át fognak venni. Amint megoldod a "hibák előre halmozódnak" problémát, a hosszabb generálás egy mérnöki kihívássá válik fundamentális korlát helyett.

⚠️

A Model 2.0 jelenleg az ember-centrikus videóra fókuszál. Emberek nélküli jelenetekhez továbbra is eszközöket akarsz, amelyek környezeti vagy absztrakt generálásra optimalizáltak. Ez egy szakértő eszköz, nem generalista.

A nagyobb kép

Azt látjuk, ahogy az AI videó átmegy a kínos tizenéves fázison. A modellek lenyűgöző 10 másodperces klipeket tudnak produkálni, de kérd meg őket, hogy tartsák meg a koherenciát perceken keresztül, és szétesnek. A CraftStory bidirekcíonális megközelítése egy válasz erre a problémára.

Az igazi kérdés: mennyi idő, amíg ezt a technikát a nagyobb játékosok át nem veszik? Az OpenAI, a Google és a Runway mindegyik rendelkezik forrásokkal hasonló architektúrák implementálásához. A CraftStory előnye az, hogy először van a piacon működő hosszú formátumú generálással.

Egyelőre, ha konzisztens több perces AI videó tartalmat akarsz emberi tárgyakkal, a CraftStory most lett az egyetlen játék a városban. Az időtartam korlát még nem tört meg, de valaki most tett bele egy komoly repedést.

🚀

Próbáld ki

A CraftStory Model 2.0 már elérhető. Az árstruktúra nem lett nyilvánosan részletezve, szóval ellenőrizned kell az oldalukat a jelenlegi ajánlatokhoz. A text-to-video jön, ami a platformot elérhetővé teszi olyan felhasználók számára, akiknek nincs meglévő vezérlő videó tartalma.

Henry

Henry

Kreatív Technológus

Kreatív technológus Lausanne-ból, aki azt kutatja, hol találkozik az AI a művészettel. Generatív modellekkel kísérletezik elektronikus zenei szesszióik között.

Tetszett a cikk?

Fedezz fel további érdekességeket, és maradj naprakész a legújabb tartalmainkkal.

CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat