HenryHenry
7 min read
1226 думи

Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа

Докато Sora 2 е ограничен до 25 секунди, CraftStory току-що представи система, която генерира последователни 5-минутни видеа. Тайната? Паралелно работещи множество дифузионни двигатели с двупосочни ограничения.

Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа

Слонът в стаята на AI видеото? Продължителността. Sora 2 е ограничен до 25 секунди. Runway и Pika се въртят около 10 секунди. CraftStory току-що влезе и каза "дръжте ми бирата": 5-минутни последователни видеа. Техниката зад това е наистина умна.

Проблемът с продължителността, който никой не реши

Ето какво е с настоящите AI видео модели: те са спринтьори, не маратонци. Генерират осем секунди великолепен материал, след което опитайте да го удължите и получавате визуалния еквивалент на играта развален телефон. Артефактите се натрупват. Героите се отклоняват. Всичко се разпада.

25s
Sora 2 максимум
10s
Типични модели
5min
CraftStory

Традиционният подход работи така: генерирате парче, използвате последните няколко кадъра като контекст за следващото парче, слепвате ги заедно. Проблемът? Грешките се натрупват. Леко странна позиция на ръката в парче едно става странен булон до парче пет.

💡

CraftStory е основана от екипа зад OpenCV, библиотеката за компютърно зрение, която работи практически във всяка визуална система, която сте използвали. Техният изпълнителен директор Victor Erukhimov е съосновател на Itseez, стартъп за компютърно зрение, който Intel придоби през 2016.

Двупосочна дифузия: архитектурната иновация

Решението на CraftStory обръща типичния подход. Вместо да генерира последователно и да се надява на най-доброто, те едновременно стартират множество по-малки дифузионни двигатели през цялата времева линия на видеото.

🔄

Двупосочни ограничения

Ключовата идея: "Втората част на видеото може да влияе на първата част на видеото също", обяснява Erukhimov. "И това е доста важно, защото ако го правите едно след друго, тогава артефакт, който се появява в първата част, се разпространява във втората и след това се натрупва."

Помислете за това като писане на роман срещу правене на план. Последователната генерация е като писане на страница едно, след това страница две, след това страница три, без възможност да се върнете. Подходът на CraftStory е като да имате план, където глава десет може да информира какво трябва да се случи в глава две.

Традиционна последователна

  • Генериране на сегмент A
  • Използване на края на A за начало на B
  • Използване на края на B за начало на C
  • Надежда, че нищо не се натрупва
  • Кръстосване на пръсти при точките на залепване

Двупосочна паралелна

  • Обработка на всички сегменти едновременно
  • Всеки сегмент ограничава съседите си
  • Ранните сегменти се влияят от по-късните
  • Артефактите се самокоригират по времевата линия
  • Естествена последователност, без залепване

Как работи модел 2.0 в действителност

В момента CraftStory Model 2.0 е система видео-към-видео. Вие предоставяте изображение и управляващо видео, и тя генерира изход, където човекът на вашето изображение изпълнява движенията от управляващото видео.

  • Качете референтно изображение (вашият обект)
  • Предоставете управляващо видео (шаблона за движение)
  • Моделът синтезира изпълнението
  • Текст-към-видео идва в бъдеща актуализация

Системата за синхронизация на устните се откроява. Подайте й скрипт или аудио запис и тя генерира съответстващи движения на устата. Отделен алгоритъм за подравняване на жестовете синхронизира езика на тялото с ритъма на речта и емоционалния тон. Резултатът? Видеа, където човекът действително изглежда да произнася тези думи, а не просто да маха челюстта си.

💡

CraftStory се обучи върху собствен материал с висока честота на кадрите, заснет специално за модела. Стандартните YouTube клипове с 30fps имат твърде много размазване на движението за фини детайли като пръсти. Те наеха студиа да заснемат актьори с по-високи честоти на кадрите за по-чисти данни за обучение.

Изходът: какво всъщност получавате

Възможности
  • До 5 минути непрекъснато видео
  • Родна резолюция 480p и 720p
  • 720p с възможност за увеличаване до 1080p
  • Пейзажни и портретни формати
  • Синхронизирани движения на устните
  • Естествено подравняване на жестовете
Ограничения
  • Само видео-към-видео (все още няма текст-към-видео)
  • Изисква въвеждане на управляващо видео
  • Около 15 минути за 30 секунди при ниска резолюция
  • Понастоящем статична камера (движеща се камера идва)

Генерирането отнема около 15 минути за 30-секунден клип с ниска резолюция. Това е по-бавно от почти мигновената генерация, която някои модели предлагат, но компромисът е последователен дълъг изход вместо красиви фрагменти, които не се свързват.

Защо това е важно за създателите

Бариерата от 5 минути не е произволна. Това е прагът, където AI видеото става полезно за реално съдържание.

10 сек

Социални клипове

Добро за TikTok откъси и реклами, но ограничено разказване

30 сек

Кратки обяснения

Достатъчно за бърза демонстрация на продукт или илюстрация на концепция

2-5 мин

Реално съдържание

YouTube уроци, обучителни видеа, презентации, наративно съдържание

Бъдеще

Дълга форма

Пълни епизоди, документални филми, образователни курсове

Повечето бизнес видео съдържание живее в диапазона 2-5 минути. Демонстрации на продукти. Обучителни модули. Обяснителни видеа. Вътрешни комуникации. Тук CraftStory става релевантна за професионални случаи на употреба.

Случаи на употреба, които се отварят:

  • Уроци за продукти с последователен водещ през цялото време
  • Обучителни видеа, които не изискват планиране на таланти
  • Персонализирани видео съобщения в мащаб
  • Образователно съдържание с виртуални инструктори
  • Корпоративни комуникации с генерирани говорители

Конкурентният пейзаж

CraftStory събра 2 милиона долара начално финансиране, водено от Andrew Filev, основател на Wrike и Zencoder. Това е скромно в сравнение с милиардите, които текат към OpenAI и Google, но е достатъчно, за да докаже технологията.

🎯

Връзката с OpenCV

Произходът на основния екип има значение тук. OpenCV задвижва системи за компютърно зрение в индустриите. Тези хора разбират основите на визуалната обработка на ниво, което повечето AI видео стартъпи не разбират.

Възможността текст-към-видео е в разработка. След като тя стартира, стойностното предложение става по-ясно: опишете 5-минутно видео в текст, получете последователен изход без влошаване на качеството кадър по кадър, което измъчва другите инструменти.

Какво следва

Функции в пътната карта

CraftStory обяви няколко предстоящи възможности:

  • Текст-към-видео: генериране от подкани без управляващо видео
  • Движеща се камера: панорамиране, увеличаване и следящи кадри
  • Ходене и говорене: обекти, които се движат през пространството, докато говорят

Подходът на двупосочната дифузия не е само трик на CraftStory. Това е модел, който други екипи вероятно ще приемат. След като решите проблема "грешките се натрупват напред", по-дългото генериране става инженерно предизвикателство, а не фундаментална бариера.

⚠️

Модел 2.0 понастоящем е фокусиран върху видео, центрирано на човека. За сцени без хора все още ще искате инструменти, оптимизирани за генериране на околна среда или абстрактно. Това е специализиран инструмент, не обобщен.

По-широката картина

Наблюдаваме AI видеото да преминава през неудобната си тийнейджърска фаза. Моделите могат да произведат зашеметяващи 10-секундни клипове, но поискайте от тях да поддържат последователност през минути и те се разпадат. Двупосочният подход на CraftStory е един отговор на този проблем.

Истинският въпрос: колко време до това техниката да бъде приета от по-големите играчи? OpenAI, Google и Runway всички имат ресурсите да приложат подобни архитектури. Предимството на CraftStory е да е първа на пазара с работещо дълго генериране.

Засега, ако се нуждаете от последователно многоминутно AI видео съдържание с човешки обекти, CraftStory току-що стана единствената игра в града. Бариерата на продължителността все още не е счупена, но някой току-що постави сериозна пукнатина в нея.

🚀

Изпробвайте

CraftStory Model 2.0 е налична сега. Структурата на ценообразуването не е публично детайлна, така че ще трябва да проверите техния сайт за текущите предложения. Текст-към-видео идва, което ще направи платформата достъпна за потребители без съществуващо управляващо видео съдържание.

Henry

Henry

Творчески технолог

Творчески технолог от Лозана, който изследва къде изкуственият интелект среща изкуството. Експериментира с генеративни модели между сесии по електронна музика.

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа