Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа

Слонът в стаята на AI видеото? Продължителността. Sora 2 е ограничен до 25 секунди. Runway и Pika се въртят около 10 секунди. CraftStory току-що влезе и каза "дръжте ми бирата": 5-минутни последователни видеа. Техниката зад това е наистина умна.

Проблемът с продължителността, който никой не реши

Ето какво е с настоящите AI видео модели: те са спринтьори, не маратонци. Генерират осем секунди великолепен материал, след което опитайте да го удължите и получавате визуалния еквивалент на играта развален телефон. Артефактите се натрупват. Героите се отклоняват. Всичко се разпада.

25s

Sora 2 максимум

10s

Типични модели

5min

CraftStory

Традиционният подход работи така: генерирате парче, използвате последните няколко кадъра като контекст за следващото парче, слепвате ги заедно. Проблемът? Грешките се натрупват. Леко странна позиция на ръката в парче едно става странен булон до парче пет.

💡

CraftStory е основана от екипа зад OpenCV, библиотеката за компютърно зрение, която работи практически във всяка визуална система, която сте използвали. Техният изпълнителен директор Victor Erukhimov е съосновател на Itseez, стартъп за компютърно зрение, който Intel придоби през 2016.

Двупосочна дифузия: архитектурната иновация

Решението на CraftStory обръща типичния подход. Вместо да генерира последователно и да се надява на най-доброто, те едновременно стартират множество по-малки дифузионни двигатели през цялата времева линия на видеото.

🔄

Двупосочни ограничения

Ключовата идея: "Втората част на видеото може да влияе на първата част на видеото също", обяснява Erukhimov. "И това е доста важно, защото ако го правите едно след друго, тогава артефакт, който се появява в първата част, се разпространява във втората и след това се натрупва."

Помислете за това като писане на роман срещу правене на план. Последователната генерация е като писане на страница едно, след това страница две, след това страница три, без възможност да се върнете. Подходът на CraftStory е като да имате план, където глава десет може да информира какво трябва да се случи в глава две.

Традиционна последователна

Генериране на сегмент A
Използване на края на A за начало на B
Използване на края на B за начало на C
Надежда, че нищо не се натрупва
Кръстосване на пръсти при точките на залепване

Двупосочна паралелна

Обработка на всички сегменти едновременно
Всеки сегмент ограничава съседите си
Ранните сегменти се влияят от по-късните
Артефактите се самокоригират по времевата линия
Естествена последователност, без залепване

Как работи модел 2.0 в действителност

В момента CraftStory Model 2.0 е система видео-към-видео. Вие предоставяте изображение и управляващо видео, и тя генерира изход, където човекът на вашето изображение изпълнява движенията от управляващото видео.

✓Качете референтно изображение (вашият обект)
✓Предоставете управляващо видео (шаблона за движение)
✓Моделът синтезира изпълнението
○Текст-към-видео идва в бъдеща актуализация

Системата за синхронизация на устните се откроява. Подайте й скрипт или аудио запис и тя генерира съответстващи движения на устата. Отделен алгоритъм за подравняване на жестовете синхронизира езика на тялото с ритъма на речта и емоционалния тон. Резултатът? Видеа, където човекът действително изглежда да произнася тези думи, а не просто да маха челюстта си.

💡

CraftStory се обучи върху собствен материал с висока честота на кадрите, заснет специално за модела. Стандартните YouTube клипове с 30fps имат твърде много размазване на движението за фини детайли като пръсти. Те наеха студиа да заснемат актьори с по-високи честоти на кадрите за по-чисти данни за обучение.

Изходът: какво всъщност получавате

✓Възможности

До 5 минути непрекъснато видео
Родна резолюция 480p и 720p
720p с възможност за увеличаване до 1080p
Пейзажни и портретни формати
Синхронизирани движения на устните
Естествено подравняване на жестовете

✗Ограничения

Само видео-към-видео (все още няма текст-към-видео)
Изисква въвеждане на управляващо видео
Около 15 минути за 30 секунди при ниска резолюция
Понастоящем статична камера (движеща се камера идва)

Генерирането отнема около 15 минути за 30-секунден клип с ниска резолюция. Това е по-бавно от почти мигновената генерация, която някои модели предлагат, но компромисът е последователен дълъг изход вместо красиви фрагменти, които не се свързват.

Защо това е важно за създателите

Бариерата от 5 минути не е произволна. Това е прагът, където AI видеото става полезно за реално съдържание.

10 сек

Социални клипове

Добро за TikTok откъси и реклами, но ограничено разказване

30 сек

Кратки обяснения

Достатъчно за бърза демонстрация на продукт или илюстрация на концепция

2-5 мин

Реално съдържание

YouTube уроци, обучителни видеа, презентации, наративно съдържание

Бъдеще

Дълга форма

Пълни епизоди, документални филми, образователни курсове

Повечето бизнес видео съдържание живее в диапазона 2-5 минути. Демонстрации на продукти. Обучителни модули. Обяснителни видеа. Вътрешни комуникации. Тук CraftStory става релевантна за професионални случаи на употреба.

Случаи на употреба, които се отварят:

Уроци за продукти с последователен водещ през цялото време
Обучителни видеа, които не изискват планиране на таланти
Персонализирани видео съобщения в мащаб
Образователно съдържание с виртуални инструктори
Корпоративни комуникации с генерирани говорители

Конкурентният пейзаж

CraftStory събра 2 милиона долара начално финансиране, водено от Andrew Filev, основател на Wrike и Zencoder. Това е скромно в сравнение с милиардите, които текат към OpenAI и Google, но е достатъчно, за да докаже технологията.

🎯

Връзката с OpenCV

Произходът на основния екип има значение тук. OpenCV задвижва системи за компютърно зрение в индустриите. Тези хора разбират основите на визуалната обработка на ниво, което повечето AI видео стартъпи не разбират.

Възможността текст-към-видео е в разработка. След като тя стартира, стойностното предложение става по-ясно: опишете 5-минутно видео в текст, получете последователен изход без влошаване на качеството кадър по кадър, което измъчва другите инструменти.

Какво следва

Функции в пътната карта▼

CraftStory обяви няколко предстоящи възможности:

Текст-към-видео: генериране от подкани без управляващо видео
Движеща се камера: панорамиране, увеличаване и следящи кадри
Ходене и говорене: обекти, които се движат през пространството, докато говорят

Подходът на двупосочната дифузия не е само трик на CraftStory. Това е модел, който други екипи вероятно ще приемат. След като решите проблема "грешките се натрупват напред", по-дългото генериране става инженерно предизвикателство, а не фундаментална бариера.

⚠️

Модел 2.0 понастоящем е фокусиран върху видео, центрирано на човека. За сцени без хора все още ще искате инструменти, оптимизирани за генериране на околна среда или абстрактно. Това е специализиран инструмент, не обобщен.

По-широката картина

Наблюдаваме AI видеото да преминава през неудобната си тийнейджърска фаза. Моделите могат да произведат зашеметяващи 10-секундни клипове, но поискайте от тях да поддържат последователност през минути и те се разпадат. Двупосочният подход на CraftStory е един отговор на този проблем.

Истинският въпрос: колко време до това техниката да бъде приета от по-големите играчи? OpenAI, Google и Runway всички имат ресурсите да приложат подобни архитектури. Предимството на CraftStory е да е първа на пазара с работещо дълго генериране.

Засега, ако се нуждаете от последователно многоминутно AI видео съдържание с човешки обекти, CraftStory току-що стана единствената игра в града. Бариерата на продължителността все още не е счупена, но някой току-що постави сериозна пукнатина в нея.

🚀

Изпробвайте

CraftStory Model 2.0 е налична сега. Структурата на ценообразуването не е публично детайлна, така че ще трябва да проверите техния сайт за текущите предложения. Текст-към-видео идва, което ще направи платформата достъпна за потребители без съществуващо управляващо видео съдържание.

Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа

Проблемът с продължителността, който никой не реши

Двупосочна дифузия: архитектурната иновация

Двупосочни ограничения

Как работи модел 2.0 в действителност

Изходът: какво всъщност получавате

Защо това е важно за създателите

Социални клипове

Кратки обяснения

Реално съдържание

Дълга форма

Конкурентният пейзаж

Връзката с OpenCV

Какво следва

По-широката картина

Изпробвайте

Henry

Like what you read?

Свързани статии

Pika 2.5: Достъпно AI видео чрез скорост, цена и инструменти

Runway Gen-4.5 на върха: Как 100 инженери изпревариха Google и OpenAI

Платформи за AI Video Storytelling: Как сериализираното съдържание променя всичко през 2026

Хареса ли Ви тази статия?