HenryHenry
6 min read
1096 слів

CraftStory Model 2.0: Як двонаправлена дифузія відкриває 5-хвилинні відео зі штучним інтелектом

Поки Sora 2 обмежується 25 секундами, CraftStory представила систему, яка генерує зв'язні 5-хвилинні відео. Секрет: кілька дифузійних движків, що працюють паралельно з двонаправленими обмеженнями.

CraftStory Model 2.0: Як двонаправлена дифузія відкриває 5-хвилинні відео зі штучним інтелектом

Головна проблема відео зі штучним інтелектом? Тривалість. Sora 2 обмежується 25 секундами. Runway і Pika крутяться біля 10 секунд. CraftStory увійшла і сказала: 5-хвилинні зв'язні відео. Техніка за цим справді розумна.

Проблема тривалості, яку ніхто не вирішив

Ось справа з поточними моделями відео зі штучним інтелектом: вони спринтери, а не марафонці. Генеруєш вісім секунд чудових кадрів, потім намагаєшся продовжити, і отримуєш візуальний еквівалент зіпсованого телефону. Артефакти накопичуються. Персонажі змінюються. Все розвалюється.

25с
Sora 2 Макс
10с
Типові моделі
5хв
CraftStory

Традиційний підхід працює так: генеруєш шматок, використовуєш останні кілька кадрів як контекст для наступного шматка, зшиваєш їх разом. Проблема? Помилки накопичуються. Трохи дивна позиція руки в першому шматку стає дивною плямою до п'ятого.

💡

CraftStory заснована командою за OpenCV, бібліотекою комп'ютерного зору, яка працює практично в кожній системі зору, яку ви коли-небудь використовували. Їхній CEO Віктор Єрухімов співзаснував Itseez, стартап комп'ютерного зору, який Intel придбав у 2016 році.

Двонаправлена дифузія: архітектурна інновація

Рішення CraftStory перевертає типовий підхід з ніг на голову. Замість послідовної генерації й надії на краще, вони запускають кілька менших дифузійних движків одночасно по всій часовій шкалі відео.

🔄

Двонаправлені обмеження

Ключова ідея: "Друга частина відео також може впливати на першу частину відео," пояснює Єрухімов. "І це досить важливо, тому що якщо ви робите це один за одним, то артефакт, який з'являється в першій частині, поширюється на другу, а потім накопичується."

Подумайте про це як про написання роману проти складання схеми. Послідовна генерація: це як писати першу сторінку, потім другу, потім третю, без можливості повернутися. Підхід CraftStory, це як мати схему, де десятий розділ може інформувати про те, що має статися в другому.

Традиційний послідовний

  • Генеруй сегмент A
  • Використай кінець A для початку B
  • Використай кінець B для початку C
  • Сподівайся, що нічого не накопичується
  • Схрещуй пальці на точках з'єднання

Двонаправлений паралельний

  • Обробляй усі сегменти одночасно
  • Кожен сегмент обмежує сусідів
  • Ранні сегменти під впливом пізніших
  • Артефакти самокоригуються по часовій шкалі
  • Природна зв'язність, без зшивання

Як насправді працює Model 2.0

Наразі CraftStory Model 2.0 – це система відео-до-відео. Ви надаєте зображення і керівне відео, і воно генерує вихід, де людина на вашому зображенні виконує рухи з керівного відео.

  • Завантажте референсне зображення (ваш об'єкт)
  • Надайте керівне відео (шаблон руху)
  • Модель синтезує виконання
  • Текст-до-відео у майбутньому оновленні

Система синхронізації губ виділяється. Дай їй сценарій або аудіодоріжку, і вона генерує відповідні рухи рота. Окремий алгоритм вирівнювання жестів синхронізує мову тіла з ритмом мови і емоційним тоном. Результат? Відео, де людина насправді виглядає так, ніби вона говорить ці слова, а не просто рухає щелепою.

💡

CraftStory тренувалася на власних відео високої частоти кадрів, знятих спеціально для моделі. Стандартні 30fps кліпи YouTube мають занадто багато розмиття руху для дрібних деталей, таких як пальці. Вони найняли студії для зйомки акторів з вищою частотою кадрів для чистіших тренувальних даних.

Вихід: що ви насправді отримуєте

Можливості
  • До 5 хвилин безперервного відео
  • 480p і 720p нативна роздільність
  • 720p масштабується до 1080p
  • Горизонтальний і вертикальний формати
  • Синхронізовані рухи губ
  • Природне вирівнювання жестів
Обмеження
  • Тільки відео-до-відео (поки немає тексту-до-відео)
  • Потрібен вхід керівного відео
  • Близько 15 хвилин для 30 секунд низької роздільності
  • Наразі статична камера (рухома камера скоро)

Генерація займає близько 15 хвилин для 30-секундного кліпу низької роздільності. Це повільніше, ніж майже миттєва генерація, яку пропонують деякі моделі, але компроміс – це зв'язний довгоформатний вихід замість красивих фрагментів, які не з'єднуються.

Чому це важливо для творців

5-хвилинний бар'єр не довільний. Це поріг, де відео зі штучним інтелектом стає корисним для реального контенту.

10 сек

Соціальні кліпи

Добре для уривків TikTok і реклами, але обмежена розповідь

30 сек

Короткі пояснення

Достатньо для швидкої демонстрації продукту чи ілюстрації концепції

2-5 хв

Справжній контент

Навчальні відео YouTube, тренінги, презентації, наративний контент

Майбутнє

Довгий формат

Повні епізоди, документальні фільми, освітні курси

Більшість бізнес-відеоконтенту знаходиться в діапазоні 2-5 хвилин. Демонстрації продуктів. Тренінгові модулі. Пояснювальні відео. Внутрішні комунікації. Це місце, де CraftStory стає актуальною для професійних випадків використання.

Випадки використання, які відкриваються:

  • Навчальні відео з продуктів з послідовним ведучим
  • Тренінгові відео, які не вимагають планування талантів
  • Персоналізовані відеоповідомлення в масштабі
  • Освітній контент з віртуальними інструкторами
  • Корпоративні комунікації з згенерованими представниками

Конкурентне середовище

CraftStory залучила 2 мільйони доларів посівного фінансування під керівництвом Ендрю Філева, засновника Wrike і Zencoder. Це скромно порівняно з мільярдами, що течуть в OpenAI і Google, але достатньо, щоб довести технологію.

🎯

Зв'язок з OpenCV

Родовід команди засновників тут важливий. OpenCV живить системи комп'ютерного зору в різних галузях. Ці люди розуміють основи візуальної обробки на рівні, якого не розуміє більшість стартапів відео зі штучним інтелектом.

Можливість текст-до-відео в розробці. Як тільки це запуститься, ціннісна пропозиція стане чіткішою: опиши 5-хвилинне відео текстом, отримай зв'язний вихід без покадрової деградації якості, яка мучить інші інструменти.

Що далі

Функції дорожньої карти

CraftStory оголосила кілька майбутніх можливостей:

  • Текст-до-відео: генерація з підказок без керівного відео
  • Рухома камера: панорамування, масштабування і відстеження знімків
  • Ходьба і розмова: суб'єкти, що рухаються в просторі під час розмови

Підхід двонаправленої дифузії – це не просто трюк CraftStory. Це шаблон, який, ймовірно, прийме інші команди. Коли ви вирішите проблему "помилки накопичуються вперед", довша генерація стає інженерною проблемою, а не фундаментальним бар'єром.

⚠️

Model 2.0 наразі зосереджена на відео, орієнтованому на людей. Для сцен без людей вам все одно знадобляться інструменти, оптимізовані для генерації оточення чи абстрактної генерації. Це спеціалізований інструмент, а не універсальний.

Загальна картина

Ми спостерігаємо, як відео зі штучним інтелектом проходить свою незграбну підліткову фазу. Моделі можуть виробляти приголомшливі 10-секундні кліпи, але коли їх просять підтримувати зв'язність протягом хвилин, вони розвалюються. Двонаправлений підхід CraftStory – одна відповідь на цю проблему.

Справжнє питання: скільки часу пройде, поки цю техніку приймуть великі гравці? OpenAI, Google і Runway мають ресурси для реалізації подібних архітектур. Перевага CraftStory в тому, що вона першою вийшла на ринок з працюючою довгоформатною генерацією.

Наразі, якщо вам потрібен послідовний багатохвилинний контент відео зі штучним інтелектом з людськими об'єктами, CraftStory щойно стала єдиною грою в місті. Бар'єр тривалості ще не подоланий, але хтось щойно зробив у ньому серйозну тріщину.

🚀

Спробуйте

CraftStory Model 2.0 доступна зараз. Структура ціноутворення публічно не деталізована, тому вам потрібно перевірити їхній сайт для поточних пропозицій. Текст-до-відео скоро, що зробить платформу доступною для користувачів без існуючого контенту керівного відео.

Henry

Henry

Креативний Технолог

Креативний технолог з Лозанни, що досліджує перетин ШІ та мистецтва. Експериментує з генеративними моделями між сесіями електронної музики.

Сподобалась ця стаття?

Дізнавайтеся більше та слідкуйте за нашими останніми матеріалами.

CraftStory Model 2.0: Як двонаправлена дифузія відкриває 5-хвилинні відео зі штучним інтелектом