HenryHenry
6 min read
1127 slov

CraftStory Model 2.0: Jak obousměrná difuze odemyká 5minutová AI videa

Zatímco Sora 2 končí na 25 sekundách, CraftStory právě představilo systém, který generuje koherentní 5minutová videa. Tajemství? Paralelní běh několika difuzních motorů s obousměrnými omezeními.

CraftStory Model 2.0: Jak obousměrná difuze odemyká 5minutová AI videa

Slon v místnosti AI videa? Délka. Sora 2 končí na 25 sekundách. Runway a Pika se drží kolem 10 sekund. CraftStory přišlo s tím: 5minutová koherentní videa. Technika za tím je opravdu chytrá.

Problém s délkou, který nikdo nevyřešil

Podstata současných AI video modelů: jsou to sprinteři, ne maratónci. Vygenerujte osm sekund nádherného záběru, pak to zkuste prodloužit a dostanete vizuální ekvivalent hry na telefon. Artefakty se násobí. Postavy se mění. Celé to spadne.

25s
Sora 2 Max
10s
Typické modely
5min
CraftStory

Tradiční přístup funguje takto: vygenerujte část, použijte posledních pár snímků jako kontext pro další část, spojte je dohromady. Problém? Chyby se akumulují. Trochu divná pozice ruky v části jedna se stane podivným skvrnou v části pět.

💡

CraftStory založil tým za OpenCV, knihovnou pro počítačové vidění, která běží prakticky v každém systému vidění, který jste kdy použili. Jejich CEO Victor Erukhimov spoluzaložil Itseez, startup zaměřený na počítačové vidění, který Intel koupil v roce 2016.

Obousměrná difuze: architektonická inovace

Řešení CraftStory obrací typický přístup naruby. Namísto sekvenčního generování a doufání v nejlepší výsledek spouštějí několik menších difuzních motorů současně napříč celou časovou osou videa.

🔄

Obousměrná omezení

Klíčový poznatek: "Pozdější část videa může ovlivnit i předchozí část videa," vysvětluje Erukhimov. "A to je docela důležité, protože pokud to děláte jeden po druhém, pak se artefakt, který se objeví v první části, přenese do druhé a pak se akumuluje."

Představte si to jako psaní románu versus jeho osnovu. Sekvenční generování je jako psaní stránky jedna, pak stránky dva, pak stránky tři, bez možnosti vrátit se zpět. Přístup CraftStory je jako mít osnovu, kde kapitola deset může informovat, co se musí stát v kapitole dva.

Tradiční sekvenční

  • Vygenerovat segment A
  • Použít konec A pro začátek B
  • Použít konec B pro začátek C
  • Doufat, že se nic nenásobí
  • Křížit prsty při spojovacích bodech

Obousměrný paralelní

  • Zpracovat všechny segmenty současně
  • Každý segment omezuje své sousedy
  • Rané segmenty ovlivněny pozdějšími
  • Artefakty se samy opravují napříč časovou osou
  • Nativní koherence, žádné spojování

Jak Model 2.0 skutečně funguje

V současnosti je CraftStory Model 2.0 systém video na video. Poskytnete obrázek a řídící video a vygeneruje výstup, kde osoba na vašem obrázku provádí pohyby z řídícího videa.

  • Nahrát referenční obrázek (váš subjekt)
  • Poskytnout řídící video (šablonu pohybu)
  • Model syntetizuje představení
  • Text na video přichází v budoucí aktualizaci

Systém synchronizace rtů vyniká. Vložte mu skript nebo zvukovou stopu a vygeneruje odpovídající pohyby úst. Samostatný algoritmus zarovnání gest synchronizuje řeč těla s rytmem řeči a emočním tónem. Výsledek? Videa, kde osoba skutečně vypadá, že mluví ta slova, ne jen pohybuje čelistí.

💡

CraftStory trénoval na proprietárních záběrech s vysokou snímkovou frekvencí natočených speciálně pro model. Standardní 30fps YouTube klipy mají příliš mnoho rozmazání pohybu pro jemné detaily jako prsty. Najali studia, aby zachytila herce ve vyšších snímkových frekvencích pro čistší tréninková data.

Výstup: co skutečně dostanete

Schopnosti
  • Až 5 minut souvislého videa
  • Nativní rozlišení 480p a 720p
  • 720p škálovatelné na 1080p
  • Formáty na šířku a na výšku
  • Synchronizované pohyby rtů
  • Přirozené zarovnání gest
Omezení
  • Pouze video na video (zatím žádný text na video)
  • Vyžaduje vstup řídícího videa
  • Asi 15 minut pro 30 sekund v nízkém rozlišení
  • Aktuálně statická kamera (pohyblivá kamera přichází)

Generování trvá asi 15 minut pro 30sekundový klip v nízkém rozlišení. To je pomalejší než téměř okamžité generování, které některé modely nabízejí, ale kompromis je koherentní dlouhý výstup spíše než krásné fragmenty, které se nespojují.

Proč to je důležité pro tvůrce

Bariéra 5 minut není libovolná. Je to práh, kde se AI video stává užitečným pro skutečný obsah.

10 sec

Sociální klipy

Dobré pro TikTok úryvky a reklamy, ale omezené vyprávění

30 sec

Krátká vysvětlení

Dost pro rychlou ukázku produktu nebo ilustraci konceptu

2-5 min

Skutečný obsah

YouTube tutoriály, školicí videa, prezentace, narativní obsah

Budoucnost

Dlouhý formát

Celé epizody, dokumenty, vzdělávací kurzy

Většina obchodního video obsahu žije v rozmezí 2-5 minut. Ukázky produktů. Školicí moduly. Vysvětlovací videa. Interní komunikace. To je místo, kde se CraftStory stává relevantním pro profesionální použití.

Případy použití, které se otevírají:

  • Tutoriály produktů s konzistentním prezentátorem po celou dobu
  • Školicí videa, která nevyžadují plánování talentů
  • Personalizované video zprávy ve velkém měřítku
  • Vzdělávací obsah s virtuálními instruktory
  • Firemní komunikace s generovanými mluvčími

Konkurenční prostředí

CraftStory získalo 2 miliony dolarů v seed financování vedeném Andrewem Filevem, zakladatelem Wrike a Zencoder. To je skromné ve srovnání s miliardami proudícími do OpenAI a Google, ale stačí to k prokázání technologie.

🎯

Spojení s OpenCV

Rodokmen zakladatelského týmu tu hraje roli. OpenCV pohání systémy počítačového vidění napříč odvětvími. Tito lidé rozumějí základům vizuálního zpracování na úrovni, kterou většina AI video startupů nemá.

Schopnost text na video je ve vývoji. Jakmile to bude spuštěno, hodnotová nabídka se stane jasnější: popište 5minutové video v textu, získejte koherentní výstup bez degradace kvality snímek po snímku, která sužuje ostatní nástroje.

Co je dál

Funkce na plánu

CraftStory oznámilo několik nadcházejících schopností:

  • Text na video: Generování z promptů bez řídícího videa
  • Pohyblivá kamera: Panorama, přiblížení a sledovací záběry
  • Chodit a mluvit: Subjekty, které se pohybují prostorem při mluvení

Přístup obousměrné difuze není jen trik CraftStory. Je to vzor, který pravděpodobně přijmou i další týmy. Jakmile vyřešíte problém "chyby se akumulují dopředu", delší generování se stává inženýrskou výzvou spíše než základní bariérou.

⚠️

Model 2.0 je aktuálně zaměřen na video zaměřené na lidi. Pro scény bez lidí budete stále chtít nástroje optimalizované pro environmentální nebo abstraktní generování. Toto je specializovaný nástroj, ne generalista.

Širší obraz

Sledujeme, jak AI video prochází svou trapnou fází teenagera. Modely mohou produkovat ohromující 10sekundové klipy, ale požádejte je, aby udržely koherenci napříč minutami, a spadnou. Obousměrný přístup CraftStory je jedna odpověď na ten problém.

Skutečná otázka: jak dlouho bude trvat, než tuto techniku přijmou větší hráči? OpenAI, Google a Runway mají všichni zdroje k implementaci podobných architektur. Výhoda CraftStory je být první na trhu s fungujícím dlouhým generováním.

Pro teď, pokud potřebujete konzistentní víceminutový AI video obsah s lidskými subjekty, CraftStory se právě stalo jedinou hrou ve městě. Bariéra délky ještě není prolomena, ale někdo do ní právě dal vážnou trhlinu.

🚀

Vyzkoušejte to

CraftStory Model 2.0 je dostupný nyní. Cenová struktura nebyla veřejně zveřejněna, takže budete muset zkontrolovat jejich stránky pro aktuální nabídky. Text na video přichází, což zpřístupní platformu uživatelům bez existujícího obsahu řídícího videa.

Henry

Henry

Kreativní technolog

Kreativní technolog z Lausanne zkoumající místo, kde se AI setkává s uměním. Experimentuje s generativními modely mezi sezeními elektronické hudby.

Líbil se vám tento článek?

Objevte více poznatků a zůstaňte aktuální s naším nejnovějším obsahem.

CraftStory Model 2.0: Jak obousměrná difuze odemyká 5minutová AI videa