CraftStory Model 2.0: Jak obousměrná difuze odemyká 5minutová AI videa

Slon v místnosti AI videa? Délka. Sora 2 končí na 25 sekundách. Runway a Pika se drží kolem 10 sekund. CraftStory přišlo s tím: 5minutová koherentní videa. Technika za tím je opravdu chytrá.

Problém s délkou, který nikdo nevyřešil

Podstata současných AI video modelů: jsou to sprinteři, ne maratónci. Vygenerujte osm sekund nádherného záběru, pak to zkuste prodloužit a dostanete vizuální ekvivalent hry na telefon. Artefakty se násobí. Postavy se mění. Celé to spadne.

25s

Sora 2 Max

10s

Typické modely

5min

CraftStory

Tradiční přístup funguje takto: vygenerujte část, použijte posledních pár snímků jako kontext pro další část, spojte je dohromady. Problém? Chyby se akumulují. Trochu divná pozice ruky v části jedna se stane podivným skvrnou v části pět.

💡

CraftStory založil tým za OpenCV, knihovnou pro počítačové vidění, která běží prakticky v každém systému vidění, který jste kdy použili. Jejich CEO Victor Erukhimov spoluzaložil Itseez, startup zaměřený na počítačové vidění, který Intel koupil v roce 2016.

Obousměrná difuze: architektonická inovace

Řešení CraftStory obrací typický přístup naruby. Namísto sekvenčního generování a doufání v nejlepší výsledek spouštějí několik menších difuzních motorů současně napříč celou časovou osou videa.

🔄

Obousměrná omezení

Klíčový poznatek: "Pozdější část videa může ovlivnit i předchozí část videa," vysvětluje Erukhimov. "A to je docela důležité, protože pokud to děláte jeden po druhém, pak se artefakt, který se objeví v první části, přenese do druhé a pak se akumuluje."

Představte si to jako psaní románu versus jeho osnovu. Sekvenční generování je jako psaní stránky jedna, pak stránky dva, pak stránky tři, bez možnosti vrátit se zpět. Přístup CraftStory je jako mít osnovu, kde kapitola deset může informovat, co se musí stát v kapitole dva.

Tradiční sekvenční

Vygenerovat segment A
Použít konec A pro začátek B
Použít konec B pro začátek C
Doufat, že se nic nenásobí
Křížit prsty při spojovacích bodech

Obousměrný paralelní

Zpracovat všechny segmenty současně
Každý segment omezuje své sousedy
Rané segmenty ovlivněny pozdějšími
Artefakty se samy opravují napříč časovou osou
Nativní koherence, žádné spojování

Jak Model 2.0 skutečně funguje

V současnosti je CraftStory Model 2.0 systém video na video. Poskytnete obrázek a řídící video a vygeneruje výstup, kde osoba na vašem obrázku provádí pohyby z řídícího videa.

✓Nahrát referenční obrázek (váš subjekt)
✓Poskytnout řídící video (šablonu pohybu)
✓Model syntetizuje představení
○Text na video přichází v budoucí aktualizaci

Systém synchronizace rtů vyniká. Vložte mu skript nebo zvukovou stopu a vygeneruje odpovídající pohyby úst. Samostatný algoritmus zarovnání gest synchronizuje řeč těla s rytmem řeči a emočním tónem. Výsledek? Videa, kde osoba skutečně vypadá, že mluví ta slova, ne jen pohybuje čelistí.

💡

CraftStory trénoval na proprietárních záběrech s vysokou snímkovou frekvencí natočených speciálně pro model. Standardní 30fps YouTube klipy mají příliš mnoho rozmazání pohybu pro jemné detaily jako prsty. Najali studia, aby zachytila herce ve vyšších snímkových frekvencích pro čistší tréninková data.

Výstup: co skutečně dostanete

✓Schopnosti

Až 5 minut souvislého videa
Nativní rozlišení 480p a 720p
720p škálovatelné na 1080p
Formáty na šířku a na výšku
Synchronizované pohyby rtů
Přirozené zarovnání gest

✗Omezení

Pouze video na video (zatím žádný text na video)
Vyžaduje vstup řídícího videa
Asi 15 minut pro 30 sekund v nízkém rozlišení
Aktuálně statická kamera (pohyblivá kamera přichází)

Generování trvá asi 15 minut pro 30sekundový klip v nízkém rozlišení. To je pomalejší než téměř okamžité generování, které některé modely nabízejí, ale kompromis je koherentní dlouhý výstup spíše než krásné fragmenty, které se nespojují.

Proč to je důležité pro tvůrce

Bariéra 5 minut není libovolná. Je to práh, kde se AI video stává užitečným pro skutečný obsah.

10 sec

Sociální klipy

Dobré pro TikTok úryvky a reklamy, ale omezené vyprávění

30 sec

Krátká vysvětlení

Dost pro rychlou ukázku produktu nebo ilustraci konceptu

2-5 min

Skutečný obsah

YouTube tutoriály, školicí videa, prezentace, narativní obsah

Budoucnost

Dlouhý formát

Celé epizody, dokumenty, vzdělávací kurzy

Většina obchodního video obsahu žije v rozmezí 2-5 minut. Ukázky produktů. Školicí moduly. Vysvětlovací videa. Interní komunikace. To je místo, kde se CraftStory stává relevantním pro profesionální použití.

Případy použití, které se otevírají:

Tutoriály produktů s konzistentním prezentátorem po celou dobu
Školicí videa, která nevyžadují plánování talentů
Personalizované video zprávy ve velkém měřítku
Vzdělávací obsah s virtuálními instruktory
Firemní komunikace s generovanými mluvčími

Konkurenční prostředí

CraftStory získalo 2 miliony dolarů v seed financování vedeném Andrewem Filevem, zakladatelem Wrike a Zencoder. To je skromné ve srovnání s miliardami proudícími do OpenAI a Google, ale stačí to k prokázání technologie.

🎯

Spojení s OpenCV

Rodokmen zakladatelského týmu tu hraje roli. OpenCV pohání systémy počítačového vidění napříč odvětvími. Tito lidé rozumějí základům vizuálního zpracování na úrovni, kterou většina AI video startupů nemá.

Schopnost text na video je ve vývoji. Jakmile to bude spuštěno, hodnotová nabídka se stane jasnější: popište 5minutové video v textu, získejte koherentní výstup bez degradace kvality snímek po snímku, která sužuje ostatní nástroje.

Co je dál

Funkce na plánu▼

CraftStory oznámilo několik nadcházejících schopností:

Text na video: Generování z promptů bez řídícího videa
Pohyblivá kamera: Panorama, přiblížení a sledovací záběry
Chodit a mluvit: Subjekty, které se pohybují prostorem při mluvení

Přístup obousměrné difuze není jen trik CraftStory. Je to vzor, který pravděpodobně přijmou i další týmy. Jakmile vyřešíte problém "chyby se akumulují dopředu", delší generování se stává inženýrskou výzvou spíše než základní bariérou.

⚠️

Model 2.0 je aktuálně zaměřen na video zaměřené na lidi. Pro scény bez lidí budete stále chtít nástroje optimalizované pro environmentální nebo abstraktní generování. Toto je specializovaný nástroj, ne generalista.

Širší obraz

Sledujeme, jak AI video prochází svou trapnou fází teenagera. Modely mohou produkovat ohromující 10sekundové klipy, ale požádejte je, aby udržely koherenci napříč minutami, a spadnou. Obousměrný přístup CraftStory je jedna odpověď na ten problém.

Skutečná otázka: jak dlouho bude trvat, než tuto techniku přijmou větší hráči? OpenAI, Google a Runway mají všichni zdroje k implementaci podobných architektur. Výhoda CraftStory je být první na trhu s fungujícím dlouhým generováním.

Pro teď, pokud potřebujete konzistentní víceminutový AI video obsah s lidskými subjekty, CraftStory se právě stalo jedinou hrou ve městě. Bariéra délky ještě není prolomena, ale někdo do ní právě dal vážnou trhlinu.

🚀

Vyzkoušejte to

CraftStory Model 2.0 je dostupný nyní. Cenová struktura nebyla veřejně zveřejněna, takže budete muset zkontrolovat jejich stránky pro aktuální nabídky. Text na video přichází, což zpřístupní platformu uživatelům bez existujícího obsahu řídícího videa.

CraftStory Model 2.0: Jak obousměrná difuze odemyká 5minutová AI videa

Problém s délkou, který nikdo nevyřešil

Obousměrná difuze: architektonická inovace

Obousměrná omezení

Jak Model 2.0 skutečně funguje

Výstup: co skutečně dostanete

Proč to je důležité pro tvůrce

Sociální klipy

Krátká vysvětlení

Skutečný obsah

Dlouhý formát

Konkurenční prostředí

Spojení s OpenCV

Co je dál

Širší obraz

Vyzkoušejte to

Henry

Like what you read?

Související články

Pika 2.5: Dostupné AI video skrz rychlost, cenu a nástroje

Runway Gen-4.5 na prvním místě: 100 inženýrů porazilo Google a OpenAI

Veo 3.1 Ingredients to Video: Kompletní průvodce generováním videa z obrázků

Líbil se vám tento článek?