HenryHenry
6 min read
1123 słów

CraftStory Model 2.0: Jak Bidirectional Diffusion Odblokowuje 5-Minutowe Wideo AI

Podczas gdy Sora 2 kończy na 25 sekundach, CraftStory właśnie wypuściło system generujący spójne 5-minutowe filmy. Sekret? Równoległe działanie wielu silników dyfuzji z dwukierunkowymi ograniczeniami.

CraftStory Model 2.0: Jak Bidirectional Diffusion Odblokowuje 5-Minutowe Wideo AI

Słoń w pokoju AI wideo? Długość. Sora 2 kończy na 25 sekundach. Runway i Pika krążą wokół 10 sekund. CraftStory właśnie wszedł i powiedział "trzymaj mi piwo": 5-minutowe spójne filmy. Technika za tym stojąca jest naprawdę sprytna.

Problem Długości, Którego Nikt Nie Rozwiązał

Rzecz w tym z obecnymi modelami wideo AI: są sprinterami, nie maratończykami. Wygeneruj osiem sekund wspaniałego materiału, potem spróbuj go przedłużyć, a dostaniesz wizualny odpowiednik głuchego telefonu. Artefakty narastają. Postacie się rozjeżdżają. Wszystko się rozpada.

25s
Sora 2 Max
10s
Typowe Modele
5min
CraftStory

Tradycyjne podejście działa tak: generuj fragment, użyj ostatnich klatek jako kontekstu dla kolejnego fragmentu, zszyj je razem. Problem? Błędy się kumulują. Nieco dziwna pozycja ręki w fragmencie pierwszym staje się dziwaczną plamą w fragmencie piątym.

💡

CraftStory zostało założone przez zespół stojący za OpenCV, biblioteką wizji komputerowej działającą w praktycznie każdym systemie wizyjnym, którego kiedykolwiek użyłeś. Ich CEO Victor Erukhimov był współzałożycielem Itseez, startupu z zakresu wizji komputerowej, który Intel przejął w 2016 roku.

Bidirectional Diffusion: Architektoniczna Innowacja

Rozwiązanie CraftStory odwraca typowe podejście do góry nogami. Zamiast generować sekwencyjnie i liczyć na najlepsze, uruchamiają równolegle wiele mniejszych silników dyfuzji na całej osi czasu wideo.

🔄

Dwukierunkowe Ograniczenia

Kluczowe spostrzeżenie: "Późniejsza część wideo może wpływać również na wcześniejszą część wideo," wyjaśnia Erukhimov. "I to jest dość ważne, bo jeśli robisz to jeden po drugim, to artefakt, który pojawia się w pierwszej części, przenosi się do drugiej, a potem się kumuluje."

Pomyśl o tym jak o pisaniu powieści kontra tworzeniu planu. Generacja sekwencyjna to jak pisanie strony pierwszej, potem drugiej, potem trzeciej, bez możliwości powrotu. Podejście CraftStory to jak posiadanie planu, gdzie rozdział dziesiąty może wpłynąć na to, co musi się wydarzyć w rozdziale drugim.

Tradycyjna Sekwencyjna

  • Generuj segment A
  • Użyj końca A do rozpoczęcia B
  • Użyj końca B do rozpoczęcia C
  • Licz, że nic się nie skumuluje
  • Trzymaj kciuki przy punktach łączenia

Dwukierunkowa Równoległa

  • Przetwarzaj wszystkie segmenty jednocześnie
  • Każdy segment ogranicza swoich sąsiadów
  • Wczesne segmenty pod wpływem późniejszych
  • Artefakty samokorygują się na osi czasu
  • Natywna spójność, bez łączenia

Jak Model 2.0 Faktycznie Działa

Obecnie CraftStory Model 2.0 to system wideo-do-wideo. Dostarczasz obraz i wideo napędowe, a on generuje wynik, w którym osoba z twojego obrazu wykonuje ruchy z wideo napędowego.

  • Wgraj obraz referencyjny (twój podmiot)
  • Dostarcz wideo napędowe (szablon ruchu)
  • Model syntetyzuje performance
  • Tekst-do-wideo nadchodzi w przyszłej aktualizacji

System synchronizacji warg wyróżnia się. Podaj mu skrypt lub ścieżkę dźwiękową, a wygeneruje pasujące ruchy ust. Oddzielny algorytm wyrównania gestów synchronizuje język ciała z rytmem mowy i tonem emocjonalnym. Rezultat? Filmy, gdzie osoba naprawdę wygląda, jakby mówiła te słowa, nie tylko poruszała szczęką.

💡

CraftStory trenował na zastrzeżonym materiale o wysokiej liczbie klatek na sekundę, nakręconym specjalnie dla modelu. Standardowe 30fps klipy z YouTube mają zbyt dużo rozmycia ruchu dla drobnych szczegółów jak palce. Wynajęli studia do nagrywania aktorów przy wyższej liczbie klatek dla czystszych danych treningowych.

Wynik: Co Faktycznie Dostajesz

Możliwości
  • Do 5 minut ciągłego wideo
  • Natywna rozdzielczość 480p i 720p
  • 720p możliwy do skalowania do 1080p
  • Formaty poziome i pionowe
  • Zsynchronizowane ruchy warg
  • Naturalne wyrównanie gestów
Ograniczenia
  • Tylko wideo-do-wideo (jeszcze bez tekst-do-wideo)
  • Wymaga wejścia wideo napędowego
  • Około 15 minut na 30 sekund w niskiej rozdzielczości
  • Obecnie statyczna kamera (ruchoma kamera nadchodzi)

Generacja zajmuje około 15 minut dla niskorozdzielczego 30-sekundowego klipu. To wolniej niż niemal natychmiastowa generacja, którą oferują niektóre modele, ale kompromisem jest spójny długi wynik zamiast pięknych fragmentów, które się nie łączą.

Dlaczego To Ma Znaczenie dla Twórców

Bariera 5 minut nie jest arbitralna. To próg, gdzie wideo AI staje się użyteczne dla faktycznej treści.

10 sek

Klipy Społecznościowe

Dobre na snippety TikTok i reklamy, ale ograniczone opowiadanie historii

30 sek

Krótkie Wyjaśnienia

Wystarczy na szybkie demo produktu lub ilustrację koncepcji

2-5 min

Prawdziwa Treść

Tutoriale YouTube, filmy szkoleniowe, prezentacje, treść narracyjna

Przyszłość

Długi Format

Pełne odcinki, dokumenty, kursy edukacyjne

Większość biznesowej treści wideo mieści się w zakresie 2-5 minut. Dema produktów. Moduły szkoleniowe. Filmy wyjaśniające. Komunikacja wewnętrzna. To tutaj CraftStory staje się istotne dla profesjonalnych zastosowań.

Przypadki Użycia, Które Się Otwierają:

  • Tutoriale produktów z konsekwentnym prezenterem przez cały czas
  • Filmy szkoleniowe, które nie wymagają planowania talentu
  • Spersonalizowane wiadomości wideo na skalę
  • Treści edukacyjne z wirtualnymi instruktorami
  • Komunikacja korporacyjna z generowanymi rzecznikami

Krajobraz Konkurencyjny

CraftStory zebrało $2 miliony w rundzie seed pod przewodnictwem Andrew Fileva, założyciela Wrike i Zencoder. To skromnie w porównaniu do miliardów płynących do OpenAI i Google, ale wystarczy, by udowodnić technologię.

🎯

Połączenie z OpenCV

Rodowód zespołu założycielskiego ma tu znaczenie. OpenCV napędza systemy wizji komputerowej w różnych branżach. Ci ludzie rozumieją podstawy przetwarzania wizualnego na poziomie, którego większość startupów AI wideo nie ma.

Możliwość tekst-do-wideo jest w trakcie rozwoju. Gdy zostanie uruchomiona, propozycja wartości staje się jaśniejsza: opisz 5-minutowe wideo tekstem, otrzymaj spójny wynik bez degradacji jakości klatka po klatce, która nęka inne narzędzia.

Co Dalej

Funkcje w Planie

CraftStory ogłosił kilka nadchodzących możliwości:

  • Tekst-do-wideo: Generuj z promptów bez wideo napędowego
  • Ruchoma kamera: Ujęcia panoramiczne, zbliżeniowe i śledzące
  • Spacer-i-rozmowa: Podmioty poruszające się w przestrzeni podczas mówienia

Podejście dwukierunkowej dyfuzji to nie tylko sztuczka CraftStory. To wzorzec, który prawdopodobnie przyjmą inne zespoły. Gdy rozwiążesz problem "błędy kumulują się w przód", dłuższa generacja staje się wyzwaniem inżynieryjnym, a nie fundamentalną barierą.

⚠️

Model 2.0 jest obecnie skoncentrowany na wideo skupionym na ludziach. Dla scen bez ludzi nadal będziesz potrzebować narzędzi zoptymalizowanych pod generację środowiskową lub abstrakcyjną. To narzędzie specjalistyczne, nie uniwersalne.

Szerszy Obraz

Obserwujemy, jak wideo AI przechodzi przez niezręczną fazę nastolatka. Modele mogą produkować oszałamiające 10-sekundowe klipy, ale poproś je o utrzymanie spójności przez minuty, a rozpadają się. Dwukierunkowe podejście CraftStory to jedna odpowiedź na ten problem.

Prawdziwe pytanie: ile potrwa, zanim ta technika zostanie przyjęta przez większych graczy? OpenAI, Google i Runway mają wszystkie zasoby do wdrożenia podobnych architektur. Przewaga CraftStory polega na byciu pierwszym na rynku z działającą generacją długiego formatu.

Na razie, jeśli potrzebujesz spójnej kilkuminutowej treści wideo AI z ludzkimi podmiotami, CraftStory właśnie stało się jedyną grą w mieście. Bariera długości jeszcze nie została przełamana, ale ktoś właśnie postawił w niej poważną rysę.

🚀

Wypróbuj

CraftStory Model 2.0 jest teraz dostępny. Struktura cenowa nie została publicznie szczegółowo opisana, więc będziesz musiał sprawdzić ich stronę dla obecnych ofert. Tekst-do-wideo nadchodzi, co uczyni platformę dostępną dla użytkowników bez istniejącej treści wideo napędowego.

Henry

Henry

Technolog Kreatywny

Technolog kreatywny z Lozanny badający, gdzie AI spotyka się ze sztuką. Eksperymentuje z modelami generatywnymi między sesjami muzyki elektronicznej.

Spodobał Ci się ten artykuł?

Odkryj więcej inspiracji i bądź na bieżąco z naszymi najnowszymi treściami.