HenryHenry
6 min read
1118 slová

CraftStory Model 2.0: Ako Obojsmerná Difúzia Odomkla 5-Minútové AI Videá

Kým Sora 2 má maximum 25 sekúnd, CraftStory práve predstavil systém, ktorý generuje súvislé 5-minútové videá. Tajomstvo? Paralelné spúšťanie viacerých difúznych motorov s obojsmernými obmedzeniami.

CraftStory Model 2.0: Ako Obojsmerná Difúzia Odomkla 5-Minútové AI Videá

Najväčší problém AI videa? Dĺžka. Sora 2 má limit 25 sekúnd. Runway a Pika sa pohybujú okolo 10 sekúnd. CraftStory práve prišiel a povedal: tu máte 5-minútové súvislé videá. Technika za tým je skutočne chytrá.

Problém Dĺžky, Ktorý Nikto Nevyriešil

Takto to je s aktuálnymi modelmi AI videa: sú to šprintéri, nie maratónci. Vygenerujte osem sekúnd nádherného záberu, potom sa ho pokúste rozšíriť a dostanete vizuálny ekvivalent pokazeného telefónu. Artefakty sa hromadia. Postavy sa rozplývajú. Všetko sa rozpadá.

25s
Sora 2 Max
10s
Typické Modely
5min
CraftStory

Tradičný prístup funguje takto: vygeneruje sa úsek, posledné snímky sa použijú ako kontext pre ďalší úsek, zlepia sa dohromady. Problém? Chyby sa kumulujú. Trochu zvláštna pozícia ruky v prvom úseku sa stane čudnou škvrnou v piatom úseku.

💡

CraftStory založil tím, ktorý stojí za OpenCV, knižnicou počítačového videnia, ktorá beží prakticky v každom systéme videnia, ktorý ste kedy používali. Ich CEO Victor Erukhimov bol spoluzakladateľom Itseez, startupu v oblasti počítačového videnia, ktorý Intel získal v roku 2016.

Obojsmerná Difúzia: Architektonická Inovácia

Riešenie CraftStory obracia typický prístup naruby. Namiesto sekvenčného generovania a dúfania v najlepšie, spúšťajú viacero menších difúznych motorov súčasne naprieč celou časovou osou videa.

🔄

Obojsmerné Obmedzenia

Kľúčové poznanie: "Neskoršia časť videa môže ovplyvniť aj predchádzajúcu časť videa", vysvetľuje Erukhimov. "A to je dosť dôležité, pretože ak to robíte jeden po druhom, potom artefakt, ktorý sa objaví v prvej časti, sa šíri do druhej a potom sa kumuluje."

Predstavte si to ako písanie románu verzus jeho načrtnutie. Sekvenčné generovanie je ako písanie strany jedna, potom strany dva, potom strany tri, bez možnosti vrátiť sa späť. Prístup CraftStory je ako mať osnovu, kde desiatá kapitola môže ovplyvniť to, čo sa musí stať v druhej kapitole.

Tradičné Sekvenčné

  • Vygenerovať segment A
  • Použiť koniec A na začiatok B
  • Použiť koniec B na začiatok C
  • Dúfať, že sa nič nekumuluje
  • Držať palce v bodoch spájania

Obojsmerné Paralelné

  • Spracovanie všetkých segmentov súčasne
  • Každý segment obmedzuje svojich susedov
  • Skoré segmenty ovplyvnené neskoršími
  • Artefakty sa samoopravujú naprieč časovou osou
  • Natívna súvislosť, žiadne spájanie

Ako Model 2.0 Skutočne Funguje

V súčasnosti je CraftStory Model 2.0 systém video-na-video. Poskytnete obrázok a riadiace video a systém vygeneruje výstup, kde osoba z vášho obrázka vykonáva pohyby z riadiaceho videa.

  • Nahrajte referenčný obrázok (váš subjekt)
  • Poskytnite riadiace video (šablóna pohybu)
  • Model syntetizuje výkon
  • Text-na-video vo vývoji pre budúcu aktualizáciu

Systém synchronizácie pier vyniká. Dodajte mu skript alebo zvukovú stopu a vygeneruje zodpovedajúce pohyby úst. Samostatný algoritmus zarovnania gest synchronizuje reč tela s rytmom reči a emocionálnym tónom. Výsledok? Videá, kde osoba skutočne vyzerá, že hovorí tie slová, nie len pohybuje čeľusťou.

💡

CraftStory trénoval na proprietárnych záberoch s vysokou frekvenciou snímok natočených špeciálne pre model. Štandardné YouTube klipy na 30fps majú príliš veľa rozmazania pohybu pre jemné detaily ako prsty. Najali štúdiá na zachytenie hercov pri vyšších frekvenciách snímok pre čistejšie tréningové dáta.

Výstup: Čo Skutočne Dostanete

Schopnosti
  • Až 5 minút nepretržitého videa
  • Natívne rozlíšenie 480p a 720p
  • 720p škálovateľné na 1080p
  • Formáty na šírku a na výšku
  • Synchronizované pohyby pier
  • Prirodzené zarovnanie gest
Obmedzenia
  • Iba video-na-video (zatiaľ žiadny text-na-video)
  • Vyžaduje vstup riadiaceho videa
  • Približne 15 minút pre 30 sekúnd v nízkom rozlíšení
  • Momentálne statická kamera (pohyblivá kamera vo vývoji)

Generovanie trvá približne 15 minút pre 30-sekundový klip v nízkom rozlíšení. Je to pomalšie ako takmer okamžité generovanie, ktoré ponúkajú niektoré modely, ale kompromis je v súvislom dlhom výstupe namiesto krásnych fragmentov, ktoré sa nespájajú.

Prečo To Záleží Pre Tvorcov

Bariéra 5 minút nie je arbitrárna. Je to prah, kde AI video sa stáva užitočným pre skutočný obsah.

10 sek

Sociálne Klipy

Dobré pre TikTok úryvky a reklamy, ale obmedzené rozpoviadanie

30 sek

Krátke Vysvetľovacie

Dosť pre rýchlu ukážku produktu alebo ilustráciu konceptu

2-5 min

Skutočný Obsah

YouTube tutoriály, školiace videá, prezentácie, naratívny obsah

Budúcnosť

Dlhá Forma

Celé epizódy, dokumentárne filmy, vzdelávacie kurzy

Väčšina obchodného video obsahu žije v rozsahu 2-5 minút. Ukážky produktov. Školiace moduly. Vysvetľovacie videá. Interná komunikácia. Tu sa CraftStory stáva relevantným pre profesionálne použitie.

Prípady Použitia, Ktoré Sa Otvárajú:

  • Tutoriály produktov s konzistentným prezentátorom od začiatku do konca
  • Školiace videá, ktoré nevyžadujú plánovanie nakrúcania
  • Personalizované video správy v škále
  • Vzdelávací obsah s virtuálnymi inštruktormi
  • Firemná komunikácia s generovanými hovorcom

Konkurenčná Krajina

CraftStory získal 2 milióny dolárov v počiatočnom financovaní vedenom Andrewom Filevom, zakladateľom Wrike a Zencoder. Je to skromné v porovnaní s miliardami tečúcimi do OpenAI a Google, ale stačí to na preukázanie technológie.

🎯

Spojenie s OpenCV

Rodokmeň zakladateľského tímu tu záleží. OpenCV pohania systémy počítačového videnia naprieč odvetviami. Títo ľudia rozumejú základom vizuálneho spracovania na úrovni, ktorú väčšina AI video startupov nedosahuje.

Schopnosť text-na-video je vo vývoji. Akmile sa spustí, hodnotová ponuka sa stane jasnejšou: popíšte 5-minútové video textom, dostanete súvislý výstup bez postupnej degradácie kvality, ktorá trápi iné nástroje.

Čo Nasleduje

Funkcie Cestovnej Mapy

CraftStory ohlásil niekoľko budúcich schopností:

  • Text-na-video: Generovanie z promptov bez riadiaceho videa
  • Pohyblivá kamera: Panorámovanie, zoom a sledovacie zábery
  • Chôdza a rozprávanie: Subjekty, ktoré sa pohybujú priestorom počas rozprávania

Prístup obojsmernej difúzie nie je len trik CraftStory. Je to vzor, ktorý pravdepodobne prijmú aj iné tímy. Akmile vyriešite problém "chyby sa kumulujú dopredu", dlhšie generovanie sa stane inžinierskou výzvou namiesto základnej bariéry.

⚠️

Model 2.0 je momentálne zameraný na video centrované na ľudí. Pre scény bez ľudí budete stále chcieť nástroje optimalizované pre environmentálne alebo abstraktné generovanie. Toto je špecializovaný nástroj, nie všeobecný.

Väčší Obraz

Pozorujeme, ako AI video prechádza svojou trápnou dospievajúcou fázou. Modely dokážu produkovať úžasné 10-sekundové klipy, ale požiadajte ich o udržanie súvislosti cez minúty a rozpadnú sa. Obojsmerný prístup CraftStory je jednou odpoveďou na tento problém.

Skutočná otázka: ako dlho potrvá, kým túto techniku prijmú väčší hráči? OpenAI, Google a Runway majú všetky zdroje na implementáciu podobných architektúr. Výhoda CraftStory je v tom, že je prvý na trhu s fungujúcim generovaním dlhej formy.

Zatiaľ, ak potrebujete konzistentný viacminútový AI video obsah s ľudskými subjektmi, CraftStory sa práve stal jediným dostupným riešením. Bariéra dĺžky ešte nie je prelomená, ale niekto do nej práve urobil vážnu trhlinu.

🚀

Vyskúšajte

CraftStory Model 2.0 je dostupný teraz. Cenová štruktúra nebola verejne detailizovaná, takže budete musieť skontrolovať ich stránku pre aktuálne ponuky. Text-na-video prichádza čoskoro, čo sprístupní platformu používateľom bez existujúceho riadiaceho video obsahu.

Henry

Henry

Kreatívny technológ

Kreatívny technológ z Lausanne, ktorý skúma miesta, kde sa AI stretáva s umením. Experimentuje s generatívnymi modelmi medzi seansami elektronickej hudby.

Páčil sa vám tento článok?

Objavte ďalšie postrehy a sledujte náš najnovší obsah.