Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа
Докато Sora 2 е ограничен до 25 секунди, CraftStory току-що представи система, която генерира последователни 5-минутни видеа. Тайната? Паралелно работещи множество дифузионни двигатели с двупосочни ограничения.

Слонът в стаята на AI видеото? Продължителността. Sora 2 е ограничен до 25 секунди. Runway и Pika се въртят около 10 секунди. CraftStory току-що влезе и каза "дръжте ми бирата": 5-минутни последователни видеа. Техниката зад това е наистина умна.
Проблемът с продължителността, който никой не реши
Ето какво е с настоящите AI видео модели: те са спринтьори, не маратонци. Генерират осем секунди великолепен материал, след което опитайте да го удължите и получавате визуалния еквивалент на играта развален телефон. Артефактите се натрупват. Героите се отклоняват. Всичко се разпада.
Традиционният подход работи така: генерирате парче, използвате последните няколко кадъра като контекст за следващото парче, слепвате ги заедно. Проблемът? Грешките се натрупват. Леко странна позиция на ръката в парче едно става странен булон до парче пет.
CraftStory е основана от екипа зад OpenCV, библиотеката за компютърно зрение, която работи практически във всяка визуална система, която сте използвали. Техният изпълнителен директор Victor Erukhimov е съосновател на Itseez, стартъп за компютърно зрение, който Intel придоби през 2016.
Двупосочна дифузия: архитектурната иновация
Решението на CraftStory обръща типичния подход. Вместо да генерира последователно и да се надява на най-доброто, те едновременно стартират множество по-малки дифузионни двигатели през цялата времева линия на видеото.
Двупосочни ограничения
Ключовата идея: "Втората част на видеото може да влияе на първата част на видеото също", обяснява Erukhimov. "И това е доста важно, защото ако го правите едно след друго, тогава артефакт, който се появява в първата част, се разпространява във втората и след това се натрупва."
Помислете за това като писане на роман срещу правене на план. Последователната генерация е като писане на страница едно, след това страница две, след това страница три, без възможност да се върнете. Подходът на CraftStory е като да имате план, където глава десет може да информира какво трябва да се случи в глава две.
Традиционна последователна
- Генериране на сегмент A
- Използване на края на A за начало на B
- Използване на края на B за начало на C
- Надежда, че нищо не се натрупва
- Кръстосване на пръсти при точките на залепване
Двупосочна паралелна
- Обработка на всички сегменти едновременно
- Всеки сегмент ограничава съседите си
- Ранните сегменти се влияят от по-късните
- Артефактите се самокоригират по времевата линия
- Естествена последователност, без залепване
Как работи модел 2.0 в действителност
В момента CraftStory Model 2.0 е система видео-към-видео. Вие предоставяте изображение и управляващо видео, и тя генерира изход, където човекът на вашето изображение изпълнява движенията от управляващото видео.
- ✓Качете референтно изображение (вашият обект)
- ✓Предоставете управляващо видео (шаблона за движение)
- ✓Моделът синтезира изпълнението
- ○Текст-към-видео идва в бъдеща актуализация
Системата за синхронизация на устните се откроява. Подайте й скрипт или аудио запис и тя генерира съответстващи движения на устата. Отделен алгоритъм за подравняване на жестовете синхронизира езика на тялото с ритъма на речта и емоционалния тон. Резултатът? Видеа, където човекът действително изглежда да произнася тези думи, а не просто да маха челюстта си.
CraftStory се обучи върху собствен материал с висока честота на кадрите, заснет специално за модела. Стандартните YouTube клипове с 30fps имат твърде много размазване на движението за фини детайли като пръсти. Те наеха студиа да заснемат актьори с по-високи честоти на кадрите за по-чисти данни за обучение.
Изходът: какво всъщност получавате
- До 5 минути непрекъснато видео
- Родна резолюция 480p и 720p
- 720p с възможност за увеличаване до 1080p
- Пейзажни и портретни формати
- Синхронизирани движения на устните
- Естествено подравняване на жестовете
- Само видео-към-видео (все още няма текст-към-видео)
- Изисква въвеждане на управляващо видео
- Около 15 минути за 30 секунди при ниска резолюция
- Понастоящем статична камера (движеща се камера идва)
Генерирането отнема около 15 минути за 30-секунден клип с ниска резолюция. Това е по-бавно от почти мигновената генерация, която някои модели предлагат, но компромисът е последователен дълъг изход вместо красиви фрагменти, които не се свързват.
Защо това е важно за създателите
Бариерата от 5 минути не е произволна. Това е прагът, където AI видеото става полезно за реално съдържание.
Социални клипове
Добро за TikTok откъси и реклами, но ограничено разказване
Кратки обяснения
Достатъчно за бърза демонстрация на продукт или илюстрация на концепция
Реално съдържание
YouTube уроци, обучителни видеа, презентации, наративно съдържание
Дълга форма
Пълни епизоди, документални филми, образователни курсове
Повечето бизнес видео съдържание живее в диапазона 2-5 минути. Демонстрации на продукти. Обучителни модули. Обяснителни видеа. Вътрешни комуникации. Тук CraftStory става релевантна за професионални случаи на употреба.
Случаи на употреба, които се отварят:
- Уроци за продукти с последователен водещ през цялото време
- Обучителни видеа, които не изискват планиране на таланти
- Персонализирани видео съобщения в мащаб
- Образователно съдържание с виртуални инструктори
- Корпоративни комуникации с генерирани говорители
Конкурентният пейзаж
CraftStory събра 2 милиона долара начално финансиране, водено от Andrew Filev, основател на Wrike и Zencoder. Това е скромно в сравнение с милиардите, които текат към OpenAI и Google, но е достатъчно, за да докаже технологията.
Връзката с OpenCV
Произходът на основния екип има значение тук. OpenCV задвижва системи за компютърно зрение в индустриите. Тези хора разбират основите на визуалната обработка на ниво, което повечето AI видео стартъпи не разбират.
Възможността текст-към-видео е в разработка. След като тя стартира, стойностното предложение става по-ясно: опишете 5-минутно видео в текст, получете последователен изход без влошаване на качеството кадър по кадър, което измъчва другите инструменти.
Какво следва
Функции в пътната карта▼
CraftStory обяви няколко предстоящи възможности:
- Текст-към-видео: генериране от подкани без управляващо видео
- Движеща се камера: панорамиране, увеличаване и следящи кадри
- Ходене и говорене: обекти, които се движат през пространството, докато говорят
Подходът на двупосочната дифузия не е само трик на CraftStory. Това е модел, който други екипи вероятно ще приемат. След като решите проблема "грешките се натрупват напред", по-дългото генериране става инженерно предизвикателство, а не фундаментална бариера.
Модел 2.0 понастоящем е фокусиран върху видео, центрирано на човека. За сцени без хора все още ще искате инструменти, оптимизирани за генериране на околна среда или абстрактно. Това е специализиран инструмент, не обобщен.
По-широката картина
Наблюдаваме AI видеото да преминава през неудобната си тийнейджърска фаза. Моделите могат да произведат зашеметяващи 10-секундни клипове, но поискайте от тях да поддържат последователност през минути и те се разпадат. Двупосочният подход на CraftStory е един отговор на този проблем.
Истинският въпрос: колко време до това техниката да бъде приета от по-големите играчи? OpenAI, Google и Runway всички имат ресурсите да приложат подобни архитектури. Предимството на CraftStory е да е първа на пазара с работещо дълго генериране.
Засега, ако се нуждаете от последователно многоминутно AI видео съдържание с човешки обекти, CraftStory току-що стана единствената игра в града. Бариерата на продължителността все още не е счупена, но някой току-що постави сериозна пукнатина в нея.
Изпробвайте
CraftStory Model 2.0 е налична сега. Структурата на ценообразуването не е публично детайлна, така че ще трябва да проверите техния сайт за текущите предложения. Текст-към-видео идва, което ще направи платформата достъпна за потребители без съществуващо управляващо видео съдържание.

Henry
Творчески технологТворчески технолог от Лозана, който изследва къде изкуственият интелект среща изкуството. Експериментира с генеративни модели между сесии по електронна музика.