CraftStory Model 2.0: Како двонасочната дифузија овозможува 5-минутни AI видеа
Додека Sora 2 стигнува до 25 секунди, CraftStory објави систем што генерира кохерентни 5-минутни видеа. Тајната? Повеќе дифузиски двигатели паралелно со двонасочни ограничувања.

Најголемиот проблем во AI видео? Траењето. Sora 2 максимум е 25 секунди. Runway и Pika се движат околу 10 секунди. CraftStory токму објави систем што генерира кохерентни 5-минутни видеа. Техниката зад тоа е навистина паметна.
Проблемот со траењето што никој не го реши
Постојните AI видео модели се спринтери, не маратонци. Генерираат осум секунди одличен материјал, потоа пробувате да го продолжите, и добивате визуелен еквивалент на телефонска игра. Артефактите се собираат. Карактерите се губат. Целата работа пропаѓа.
Традиционалниот пристап работи вака: генерира сегмент, ги користи последните неколку кадри како контекст за следниот сегмент, ги спојува заедно. Проблемот? Грешките се собираат. Малку чудна позиција на раката во првиот сегмент станува чудна форма во петтиот.
CraftStory е основан од тимот зад OpenCV, библиотеката за компјутерска визија која работи во практично секој визуелен систем што сте го користеле. Нивниот CEO Victor Erukhimov е ко-основач на Itseez, старт-ап за компјутерска визија што Intel го купи во 2016.
Двонасочна дифузија: Архитектонска иновација
Решението на CraftStory го превртува типичниот пристап. Наместо секвенцијално генерирање и надеж за најдоброто, тие истовремено користат повеќе помали дифузиски двигатели низ целата временска линија на видеото.
Двонасочни ограничувања
Клучното сознание: "Понатамошниот дел од видеото може да влијае на поранешниот дел од видеото исто така," објаснува Erukhimov. "И ова е прилично важно, бидејќи ако го правите еден по еден, тогаш артефакт што се појавува во првиот дел се пренесува во вториот, и тогаш се собира."
Замислете како пишување роман наспроти правење на негова структура. Секвенцијалното генерирање е како пишување на прва страница, потоа втора, потоа трета, без можност да се вратите. Пристапот на CraftStory е како имање структура каде десеттата глава може да информира што треба да се случи во втората глава.
Традиционално секвенцијално
- Генерира сегмент А
- Користи крај на А за почеток на Б
- Користи крај на Б за почеток на В
- Се надева дека ништо не се собира
- Вкрстени прсти на точките на спојување
Двонасочно паралелно
- Обработува сите сегменти истовремено
- Секој сегмент ги ограничува соседите
- Раните сегменти се под влијание на подоцнежните
- Артефактите се само-коригираат низ временската линија
- Природна кохерентност без спојување
Како всушност работи Model 2.0
Моментално, CraftStory Model 2.0 е систем видео-до-видео. Обезбедувате слика и управувачко видео, и генерира излез каде лицето од вашата слика ги изведува движењата од управувачкото видео.
- ✓Прикачи референтна слика (вашиот субјект)
- ✓Обезбеди управувачко видео (шаблон за движење)
- ✓Моделот синтетизира перформанс
- ○Текст-до-видео доаѓа во идна надградба
Системот за синхронизација на усни се истакнува. Дајте му скрипта или аудио запис, и генерира соодветни движења на устата. Посебен алгоритам за усогласување на гестови ги синхронизира јазикот на телото со ритамот на говорот и емоционалниот тон. Резултатот? Видеа каде лицето навистина изгледа како да ги зборува тие зборови, а не само маши со вилица.
CraftStory тренираше на сопствени снимки со висока стапка на кадри снимени специјално за моделот. Стандардните 30fps YouTube клипови имаат премногу замаглување на движење за фини детали како прсти. Тие ангажираа студија да снимаат актери со повисока стапка на кадри за почисти податоци за тренинг.
Излезот: Што всушност добивате
- До 5 минути континуирано видео
- 480p и 720p природна резолуција
- 720p може да се зголеми до 1080p
- Хоризонтален и вертикален формат
- Синхронизирани движења на усни
- Природно усогласување на гестови
- Само видео-до-видео (сè уште нема текст-до-видео)
- Потребен е управувачки видео влез
- Околу 15 минути за 30 секунди на ниска резолуција
- Моментално статична камера (движечка камера доаѓа)
Генерирањето трае околу 15 минути за клип од 30 секунди со ниска резолуција. Тоа е побавно од речиси моменталното генерирање што го нудат некои модели, но компромисот е кохерентен излез во долг формат наместо убави фрагменти што не се поврзуваат.
Зошто ова е важно за креаторите
Бариерата од 5 минути не е произволна. Тоа е прагот каде AI видеото станува корисно за вистински содржини.
Социјални клипови
Добро за TikTok фрагменти и реклами, но ограничено раскажување
Кратки објаснувања
Доволно за брза демонстрација на производ или илустрација на концепт
Вистинска содржина
YouTube туторијали, тренинг видеа, презентации, наративна содржина
Долг формат
Цели епизоди, документарци, образовни курсеви
Повеќето бизнис видео содржини се во опсегот од 2-5 минути. Демонстрации на производи, тренинг модули, објаснувачки видеа, интерна комуникација. Тука CraftStory станува релевантен за професионални употреби.
Случаи на употреба што се отвораат:
- Туторијали за производи со доследен презентер низ целото
- Тренинг видеа што не бараат закажување на таленти
- Персонализирани видео пораки во голем обем
- Образовна содржина со виртуелни инструктори
- Корпоративна комуникација со генерирани говорници
Конкурентната позадина
CraftStory собра 2 милиони долари почетно финансирање предводено од Andrew Filev, основач на Wrike и Zencoder. Тоа е скромно споредено со милијардите што течат во OpenAI и Google, но доволно за да се докаже технологијата.
OpenCV врската
Искуството на основачкиот тим овде е важно. OpenCV ги напојува системите за компјутерска визија низ индустриите. Овие луѓе ги разбираат основите на визуелната обработка на ниво што повеќето AI видео старт-апови не го имаат.
Можноста текст-до-видео е во развој. Кога тоа ќе се лансира, вредносната понуда станува појасна: опишете 5-минутно видео со текст, добијте кохерентен излез без деградација на квалитет кадар-по-кадар што ги мачи другите алатки.
Што следува
Патоказ функции▼
CraftStory објави неколку идни можности:
- Текст-до-видео: Генерирање од промпти без управувачко видео
- Движечка камера: Панорама, зум и следечки снимки
- Одење-и-зборување: Субјекти што се движат низ просторот додека зборуваат
Двонасочниот дифузиски пристап не е само трик на CraftStory. Тоа е шема што другите тимови веројатно ќе ја усвојат. Кога ќе го решите проблемот "грешките се собираат напред", подолгото генерирање станува инженерски предизвик наместо фундаментална бариера.
Model 2.0 моментално е фокусиран на видео центрирано на луѓе. За сцени без луѓе, сè уште ќе ви требаат алатки оптимизирани за генерирање на животна средина или апстрактно. Ова е специјализирана алатка, не општа.
Поголемата слика
Гледаме како AI видеото минува низ својата чудна тинејџерска фаза. Моделите можат да произведат впечатливи 10-секундни клипови, но барајте од нив да одржат кохерентност низ минути и тие пропаѓаат. Двонасочниот пристап на CraftStory е еден одговор на тој проблем.
Вистинското прашање: колку долго додека оваа техника ја усвојат поголемите играчи? OpenAI, Google и Runway сите имаат ресурси да имплементираат слични архитектури. Предноста на CraftStory е да биде прв на пазарот со работечко генерирање во долг формат.
Засега, ако ви треба доследна повеќе-минутна AI видео содржина со човечки субјекти, CraftStory токму стана единствената игра во градот. Бариерата за траење сè уште не е скршена, но некој токму стави сериозна пукнатина во неа.
Пробајте
CraftStory Model 2.0 е достапен сега. Структурата на цените не е јавно детализирана, па ќе треба да ја проверите нивната страница за тековните понуди. Текст-до-видео доаѓа, што ќе ја направи платформата достапна за корисници без постоечка управувачка видео содржина.

Henry
Креативен технологКреативен технолог од Лозана кој истражува каде вештачката интелигенција се среќава со уметноста. Експериментира со генеративни модели помеѓу сесиите на електронска музика.