CraftStory Model 2.0: Як двонаправлена дифузія відкриває 5-хвилинні відео зі штучним інтелектом

Головна проблема відео зі штучним інтелектом? Тривалість. Sora 2 обмежується 25 секундами. Runway і Pika крутяться біля 10 секунд. CraftStory увійшла і сказала: 5-хвилинні зв'язні відео. Техніка за цим справді розумна.

Проблема тривалості, яку ніхто не вирішив

Ось справа з поточними моделями відео зі штучним інтелектом: вони спринтери, а не марафонці. Генеруєш вісім секунд чудових кадрів, потім намагаєшся продовжити, і отримуєш візуальний еквівалент зіпсованого телефону. Артефакти накопичуються. Персонажі змінюються. Все розвалюється.

25с

Sora 2 Макс

10с

Типові моделі

5хв

CraftStory

Традиційний підхід працює так: генеруєш шматок, використовуєш останні кілька кадрів як контекст для наступного шматка, зшиваєш їх разом. Проблема? Помилки накопичуються. Трохи дивна позиція руки в першому шматку стає дивною плямою до п'ятого.

💡

CraftStory заснована командою за OpenCV, бібліотекою комп'ютерного зору, яка працює практично в кожній системі зору, яку ви коли-небудь використовували. Їхній CEO Віктор Єрухімов співзаснував Itseez, стартап комп'ютерного зору, який Intel придбав у 2016 році.

Двонаправлена дифузія: архітектурна інновація

Рішення CraftStory перевертає типовий підхід з ніг на голову. Замість послідовної генерації й надії на краще, вони запускають кілька менших дифузійних движків одночасно по всій часовій шкалі відео.

🔄

Двонаправлені обмеження

Ключова ідея: "Друга частина відео також може впливати на першу частину відео," пояснює Єрухімов. "І це досить важливо, тому що якщо ви робите це один за одним, то артефакт, який з'являється в першій частині, поширюється на другу, а потім накопичується."

Подумайте про це як про написання роману проти складання схеми. Послідовна генерація: це як писати першу сторінку, потім другу, потім третю, без можливості повернутися. Підхід CraftStory, це як мати схему, де десятий розділ може інформувати про те, що має статися в другому.

Традиційний послідовний

Генеруй сегмент A
Використай кінець A для початку B
Використай кінець B для початку C
Сподівайся, що нічого не накопичується
Схрещуй пальці на точках з'єднання

Двонаправлений паралельний

Обробляй усі сегменти одночасно
Кожен сегмент обмежує сусідів
Ранні сегменти під впливом пізніших
Артефакти самокоригуються по часовій шкалі
Природна зв'язність, без зшивання

Як насправді працює Model 2.0

Наразі CraftStory Model 2.0 – це система відео-до-відео. Ви надаєте зображення і керівне відео, і воно генерує вихід, де людина на вашому зображенні виконує рухи з керівного відео.

✓Завантажте референсне зображення (ваш об'єкт)
✓Надайте керівне відео (шаблон руху)
✓Модель синтезує виконання
○Текст-до-відео у майбутньому оновленні

Система синхронізації губ виділяється. Дай їй сценарій або аудіодоріжку, і вона генерує відповідні рухи рота. Окремий алгоритм вирівнювання жестів синхронізує мову тіла з ритмом мови і емоційним тоном. Результат? Відео, де людина насправді виглядає так, ніби вона говорить ці слова, а не просто рухає щелепою.

💡

CraftStory тренувалася на власних відео високої частоти кадрів, знятих спеціально для моделі. Стандартні 30fps кліпи YouTube мають занадто багато розмиття руху для дрібних деталей, таких як пальці. Вони найняли студії для зйомки акторів з вищою частотою кадрів для чистіших тренувальних даних.

Вихід: що ви насправді отримуєте

✓Можливості

До 5 хвилин безперервного відео
480p і 720p нативна роздільність
720p масштабується до 1080p
Горизонтальний і вертикальний формати
Синхронізовані рухи губ
Природне вирівнювання жестів

✗Обмеження

Тільки відео-до-відео (поки немає тексту-до-відео)
Потрібен вхід керівного відео
Близько 15 хвилин для 30 секунд низької роздільності
Наразі статична камера (рухома камера скоро)

Генерація займає близько 15 хвилин для 30-секундного кліпу низької роздільності. Це повільніше, ніж майже миттєва генерація, яку пропонують деякі моделі, але компроміс – це зв'язний довгоформатний вихід замість красивих фрагментів, які не з'єднуються.

Чому це важливо для творців

5-хвилинний бар'єр не довільний. Це поріг, де відео зі штучним інтелектом стає корисним для реального контенту.

10 сек

Соціальні кліпи

Добре для уривків TikTok і реклами, але обмежена розповідь

30 сек

Короткі пояснення

Достатньо для швидкої демонстрації продукту чи ілюстрації концепції

2-5 хв

Справжній контент

Навчальні відео YouTube, тренінги, презентації, наративний контент

Майбутнє

Довгий формат

Повні епізоди, документальні фільми, освітні курси

Більшість бізнес-відеоконтенту знаходиться в діапазоні 2-5 хвилин. Демонстрації продуктів. Тренінгові модулі. Пояснювальні відео. Внутрішні комунікації. Це місце, де CraftStory стає актуальною для професійних випадків використання.

Випадки використання, які відкриваються:

Навчальні відео з продуктів з послідовним ведучим
Тренінгові відео, які не вимагають планування талантів
Персоналізовані відеоповідомлення в масштабі
Освітній контент з віртуальними інструкторами
Корпоративні комунікації з згенерованими представниками

Конкурентне середовище

CraftStory залучила 2 мільйони доларів посівного фінансування під керівництвом Ендрю Філева, засновника Wrike і Zencoder. Це скромно порівняно з мільярдами, що течуть в OpenAI і Google, але достатньо, щоб довести технологію.

🎯

Зв'язок з OpenCV

Родовід команди засновників тут важливий. OpenCV живить системи комп'ютерного зору в різних галузях. Ці люди розуміють основи візуальної обробки на рівні, якого не розуміє більшість стартапів відео зі штучним інтелектом.

Можливість текст-до-відео в розробці. Як тільки це запуститься, ціннісна пропозиція стане чіткішою: опиши 5-хвилинне відео текстом, отримай зв'язний вихід без покадрової деградації якості, яка мучить інші інструменти.

Що далі

Функції дорожньої карти▼

CraftStory оголосила кілька майбутніх можливостей:

Текст-до-відео: генерація з підказок без керівного відео
Рухома камера: панорамування, масштабування і відстеження знімків
Ходьба і розмова: суб'єкти, що рухаються в просторі під час розмови

Підхід двонаправленої дифузії – це не просто трюк CraftStory. Це шаблон, який, ймовірно, прийме інші команди. Коли ви вирішите проблему "помилки накопичуються вперед", довша генерація стає інженерною проблемою, а не фундаментальним бар'єром.

⚠️

Model 2.0 наразі зосереджена на відео, орієнтованому на людей. Для сцен без людей вам все одно знадобляться інструменти, оптимізовані для генерації оточення чи абстрактної генерації. Це спеціалізований інструмент, а не універсальний.

Загальна картина

Ми спостерігаємо, як відео зі штучним інтелектом проходить свою незграбну підліткову фазу. Моделі можуть виробляти приголомшливі 10-секундні кліпи, але коли їх просять підтримувати зв'язність протягом хвилин, вони розвалюються. Двонаправлений підхід CraftStory – одна відповідь на цю проблему.

Справжнє питання: скільки часу пройде, поки цю техніку приймуть великі гравці? OpenAI, Google і Runway мають ресурси для реалізації подібних архітектур. Перевага CraftStory в тому, що вона першою вийшла на ринок з працюючою довгоформатною генерацією.

Наразі, якщо вам потрібен послідовний багатохвилинний контент відео зі штучним інтелектом з людськими об'єктами, CraftStory щойно стала єдиною грою в місті. Бар'єр тривалості ще не подоланий, але хтось щойно зробив у ньому серйозну тріщину.

🚀

Спробуйте

CraftStory Model 2.0 доступна зараз. Структура ціноутворення публічно не деталізована, тому вам потрібно перевірити їхній сайт для поточних пропозицій. Текст-до-відео скоро, що зробить платформу доступною для користувачів без існуючого контенту керівного відео.

CraftStory Model 2.0: Як двонаправлена дифузія відкриває 5-хвилинні відео зі штучним інтелектом

Проблема тривалості, яку ніхто не вирішив

Двонаправлена дифузія: архітектурна інновація

Двонаправлені обмеження

Як насправді працює Model 2.0

Вихід: що ви насправді отримуєте

Чому це важливо для творців

Соціальні кліпи

Короткі пояснення

Справжній контент

Довгий формат

Конкурентне середовище

Зв'язок з OpenCV

Що далі

Загальна картина

Спробуйте

Henry

Like what you read?

Схожі статті

Pika 2.5: Доступне AI-відео через швидкість, ціну та інструменти

Runway Gen-4.5 на 1 місці: Як 100 інженерів випередили Google та OpenAI

Платформи AI Video Storytelling: як серіалізований контент змінює все в 2026

Сподобалась ця стаття?