CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat

Az AI videó legnagyobb problémája? Időtartam. A Sora 2 maximum 25 másodperc. A Runway és a Pika körülbelül 10 másodperc körül lebeg. A CraftStory most belépett és azt mondta "tartsátok a söröm": koherens 5 perces videók. A mögötte álló technika tényleg okos.

Az időtartam probléma, amit senki sem oldott meg

A jelenlegi AI videó modellek lényege: ők a sprinterek, nem maratonisták. Generálj nyolc másodperc gyönyörű felvételt, aztán próbáld meg meghosszabbítani, és megkapod a stille post játék vizuális megfelelőjét. Az artefaktumok halmozódnak. A karakterek eltolódnak. Az egész szétesik.

25s

Sora 2 Max

10s

Typical Models

5min

CraftStory

A hagyományos megközelítés így működik: generálj egy darabot, használd az utolsó néhány képkockát kontextusként a következő darabhoz, varrd őket össze. A probléma? A hibák halmozódnak. Egy kissé furcsa kéztartás az első darabban furcsa foltként jelenik meg az ötödik darabban.

💡

A CraftStory-t az OpenCV mögött álló csapat alapította, a számítógépes látás könyvtár, ami gyakorlatilag minden általad valaha használt látásrendszerben fut. A CEO-juk Victor Erukhimov társalapítója volt az Itseeznek, egy számítógépes látás startupnak, amit az Intel vásárolt meg 2016-ban.

Bidirekcíonális diffúzió: az építészeti innováció

A CraftStory megoldása teljesen megfordítja a tipikus megközelítést. Ahelyett, hogy szekvenciálisan generálnának és a legjobbat remélnék, több kisebb diffúziós motort futtatnak egyidejűleg a teljes videó idővonal mentén.

🔄

Bidirekcíonális korlátozások

A kulcs felismerés: "A videó későbbi része is befolyásolhatja a videó korábbi részét," magyarázza Erukhimov. "És ez elég fontos, mert ha egyenként csinálod, akkor az első részben megjelenő artefaktum átterjedhet a másodikra, aztán halmozódik."

Gondolj erre úgy, mint regényt írni versus vázlatot készíteni. A szekvenciális generálás olyan, mint írni az első oldalt, aztán a második oldalt, aztán a harmadik oldalt, visszalépés lehetősége nélkül. A CraftStory megközelítése olyan, mint ha van egy vázlatod, ahol a tizedik fejezet befolyásolhatja, hogy mi történjen a második fejezetben.

Hagyományos szekvenciális

Generáld az A szegmenst
Használd az A végét a B indításához
Használd a B végét a C indításához
Reméld, hogy semmi sem halmozódik
Ujjakat keresztbe az illesztési pontokon

Bidirekcíonális párhuzamos

Összes szegmens egyidejű feldolgozása
Minden szegmens korlátozza a szomszédjait
Korai szegmensek későbbiek által befolyásoltak
Artefaktumok önjavítanak az idővonalon keresztül
Natív koherencia, nincs illesztés

Hogyan működik a Model 2.0 valójában

Jelenleg a CraftStory Model 2.0 egy videó-videó rendszer. Adsz egy képet és egy vezérlő videót, és generál egy kimenetet, ahol a képeden lévő személy végrehajtja a vezérlő videó mozdulatait.

✓Tölts fel egy referencia képet (a tárgyad)
✓Adj meg egy vezérlő videót (a mozgás sablon)
✓A modell szintetizálja a teljesítményt
○Text-to-video egy jövőbeli frissítésben érkezik

Az ajak szinkronizációs rendszer kiemelkedik. Adj neki egy forgatókönyvet vagy hangsávot, és generál hozzá illő szájmozgásokat. Egy külön gesztusillesítő algoritmus szinkronizálja a testbeszédet a beszéd ritmusával és érzelmi tónusával. Az eredmény? Videók, ahol a személy tényleg úgy néz ki, mintha azt mondaná azokat a szavakat, nem csak csapkodja az állkapcsát.

💡

A CraftStory saját, magas képkocka sebességű felvételeken tréningezett, amelyet kifejezetten a modellhez forgattak. A standard 30fps YouTube klipek túl sok mozgási elmosódást tartalmaznak olyan finom részletekhez, mint az ujjak. Stúdiókat béreltek fel, hogy szereplőket forgatjanak magasabb képkocka sebességnél tisztább tréning adatokért.

A kimenet: mit kapsz ténylegesen

✓Capabilities

Akár 5 perc folyamatos videó
Natív 480p és 720p felbontás
720p skálázható 1080p-re
Fekvő és álló formátumok
Szinkronizált ajak mozgások
Természetes gesztus igazítás

✗Limitations

Csak videó-videó (még nincs text-to-video)
Vezérlő videó bemenet szükséges
Körülbelül 15 perc 30 másodpercért alacsony felbontásban
Jelenleg statikus kamera (mozgó kamera jön)

A generálás körülbelül 15 percet vesz igénybe egy alacsony felbontású 30 másodperces kliphez. Ez lassabb, mint a közel azonnali generálás, amit néhány modell kínál, de a kompromisszum egy koherens hosszú formátumú kimenet a szép fragmentumok helyett, amelyek nem kapcsolódnak egymáshoz.

Miért fontos ez az alkotóknak

Az 5 perces korlát nem önkényes. Ez az a küszöb, ahol az AI videó hasznossá válik valódi tartalomhoz.

10 sec

Közösségi klipek

Jó TikTok részletekhez és hirdetésekhez, de korlátozott történetmesélés

30 sec

Rövid magyarázók

Elég egy gyors termékbemutatóhoz vagy koncepció illusztrációhoz

2-5 min

Valódi tartalom

YouTube oktatók, oktatóvideók, prezentációk, narratív tartalom

Future

Hosszú formátum

Teljes epizódok, dokumentumfilmek, oktatási kurzusok

A legtöbb üzleti videótartalom a 2-5 perces tartományban él. Termékbemutatók. Oktatómodulok. Magyarázó videók. Belső kommunikáció. Itt válik relevánssá a CraftStory professzionális használati esetekhez.

Megnyíló használati esetek:

Termék oktatók konzisztens prezenterrel végig
Oktatóvideók, amelyek nem igényelnek tehetség ütemezést
Személyre szabott videó üzenetek skálában
Oktatási tartalom virtuális instruktorokkal
Vállalati kommunikáció generált szóvivőkkel

A versenykörnyezet

A CraftStory 2 millió dolláros magvető finanszírozást gyűjtött Andrew Filev vezetésével, a Wrike és a Zencoder alapítója. Ez szerény az OpenAI-ba és a Google-ba áramló milliárdokhoz képest, de elég a technológia bizonyításához.

🎯

Az OpenCV kapcsolat

Az alapító csapat származása számít itt. Az OpenCV iparágakon átívelő számítógépes látás rendszereket hajt meg. Ezek az emberek olyan szinten értik a vizuális feldolgozás alapjait, amit a legtöbb AI videó startup nem ért.

A text-to-video képesség fejlesztés alatt áll. Amint az elindul, az értékajánlat világosabbá válik: írj le egy 5 perces videót szövegben, kapj koherens kimenetet anélkül, hogy képkockánkénti minőségromlást kapnál, ami más eszközöket gyötör.

Mi jön ezután

Roadmap funkciók▼

A CraftStory bejelentett több közelgő képességet:

Text-to-video: Generálás promptokból vezérlő videó nélkül
Mozgó kamera: Pan, zoom és követő felvételek
Séta és beszélgetés: Tárgyak, akik a térben mozognak beszéd közben

A bidirekcíonális diffúzió megközelítés nem csak egy CraftStory trükk. Ez egy minta, amit más csapatok valószínűleg át fognak venni. Amint megoldod a "hibák előre halmozódnak" problémát, a hosszabb generálás egy mérnöki kihívássá válik fundamentális korlát helyett.

⚠️

A Model 2.0 jelenleg az ember-centrikus videóra fókuszál. Emberek nélküli jelenetekhez továbbra is eszközöket akarsz, amelyek környezeti vagy absztrakt generálásra optimalizáltak. Ez egy szakértő eszköz, nem generalista.

A nagyobb kép

Azt látjuk, ahogy az AI videó átmegy a kínos tizenéves fázison. A modellek lenyűgöző 10 másodperces klipeket tudnak produkálni, de kérd meg őket, hogy tartsák meg a koherenciát perceken keresztül, és szétesnek. A CraftStory bidirekcíonális megközelítése egy válasz erre a problémára.

Az igazi kérdés: mennyi idő, amíg ezt a technikát a nagyobb játékosok át nem veszik? Az OpenAI, a Google és a Runway mindegyik rendelkezik forrásokkal hasonló architektúrák implementálásához. A CraftStory előnye az, hogy először van a piacon működő hosszú formátumú generálással.

Egyelőre, ha konzisztens több perces AI videó tartalmat akarsz emberi tárgyakkal, a CraftStory most lett az egyetlen játék a városban. Az időtartam korlát még nem tört meg, de valaki most tett bele egy komoly repedést.

🚀

Próbáld ki

A CraftStory Model 2.0 már elérhető. Az árstruktúra nem lett nyilvánosan részletezve, szóval ellenőrizned kell az oldalukat a jelenlegi ajánlatokhoz. A text-to-video jön, ami a platformot elérhetővé teszi olyan felhasználók számára, akiknek nincs meglévő vezérlő videó tartalma.

CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat

Az időtartam probléma, amit senki sem oldott meg

Bidirekcíonális diffúzió: az építészeti innováció

Bidirekcíonális korlátozások

Hogyan működik a Model 2.0 valójában

A kimenet: mit kapsz ténylegesen

Miért fontos ez az alkotóknak

Közösségi klipek

Rövid magyarázók

Valódi tartalom

Hosszú formátum

A versenykörnyezet

Az OpenCV kapcsolat

Mi jön ezután

A nagyobb kép

Próbáld ki

Henry

Like what you read?

Kapcsolódó cikkek

Pika 2.5: Az AI videó demokratizálása sebesség, ár és kreatív eszközök révén

Runway Gen-4.5 az 1. helyen: Hogyan előzte meg 100 mérnök a Google-t és az OpenAI-t

Veo 3.1 Ingredients to Video: Teljes útmutató a képből videóra történő generáláshoz

Tetszett a cikk?