HenryHenry
6 min read
1108 слоў

Мадэль CraftStory 2.0: Як двухбаковая дыфузія адкрывае магчымасць стварэння 5-хвіліннага відэа з дапамогай ШІ

У той час як Sora 2 абмяжоўваецца 25 секундамі, CraftStory толькі што прадставіла сістэму, якая генеруе звязныя 5-хвіліннныя відэа. Сакрэт? Паралельны запуск некалькіх дыфузійных рухавікоў з двухбаковымі абмежаваннямі.

Мадэль CraftStory 2.0: Як двухбаковая дыфузія адкрывае магчымасць стварэння 5-хвіліннага відэа з дапамогай ШІ

Слон у пакоі ШІ-відэа? Працягласць. Sora 2 абмяжавана 25 секундамі. Runway і Pika кружляюць вакол 10 секунд. CraftStory проста прыйшла і сказала "трымайце маё піва": 5-хвіліннае звязнае відэа. Тэхніка за гэтым сапраўды разумная.

Праблема працягласці, якую ніхто не вырашыў

Вось што з цяперашнімі мадэлямі ШІ-відэа: яны спрынтэры, а не марафонцы. Генеруюць восем секунд цудоўнага матэрыялу, потым паспрабуй пашырыць гэта, і атрымаеш візуальны эквівалент гульні ў сланаты тэлефон. Артэфакты множацца. Персанажы плывуць. Усё разваліваецца.

25s
Максімум Sora 2
10s
Тыповыя мадэлі
5min
CraftStory

Традыцыйны падыход працуе так: генераваць кавалак, выкарыстоўваць апошнія кадры як кантэкст для наступнага кавалка, збіраць іх разам. Праблема? Памылкі назапашваюцца. Крыху дзіўная пазіцыя рукі ў першым кавалку становіцца дзіўным плямам да пятага.

💡

CraftStory заснавана камандай, якая стварыла OpenCV, бібліятэку кампутарнага зроку, якая працуе практычна ў кожнай сістэме зроку, якую вы калі-небудзь выкарыстоўвалі. Іх генеральны дырэктар Victor Erukhimov быў суаснавальнікам Itseez, стартапа кампутарнага зроку, які Intel набыў у 2016.

Двухбаковая дыфузія: архітэктурная інавацыя

Рашэнне CraftStory перакульвае тыповы падыход. Замест паслядоўнай генерацыі і спадзявання на лепшае, яны адначасова запускаюць некалькі меншых дыфузійных рухавікоў па ўсёй часавай лініі відэа.

🔄

Двухбаковыя абмежаванні

Ключавая ідэя: "Другая частка відэа можа ўплываць на першую частку відэа таксама", тлумачыць Erukhimov. "І гэта даволі важна, таму што калі вы робіце гэта адно за адным, то артэфакт, які з'яўляецца ў першай частцы, распаўсюджваецца на другую, а потым назапашваецца."

Падумайце пра гэта як пра напісанне рамана супраць яго канспекта. Паслядоўная генерацыя гэта як напісанне старонкі адзін, потым старонкі два, потым старонкі тры, без магчымасці вярнуцца. Падыход CraftStory гэта як мець канспект, дзе дзясятая глава можа інфармаваць пра тое, што павінна адбыцца ў другой главе.

Традыцыйная паслядоўная

  • Генераваць сегмент A
  • Выкарыстоўваць канец A для пачатку B
  • Выкарыстоўваць канец B для пачатку C
  • Спадзявацца, што нічога не назапашваецца
  • Схрэсціць пальцы на месцах злучэння

Двухбаковая паралельная

  • Апрацоўваць усе сегменты адначасова
  • Кожны сегмент абмяжоўвае суседзяў
  • Ранія сегменты атрымліваюць уплыў ад пазнейшых
  • Артэфакты саміскарэктуюцца па часавой лініі
  • Натуральная звязнасць, без злучэння

Як мадэль 2.0 фактычна працуе

У цяперашні час CraftStory Model 2.0 – гэта сістэма відэа-ў-відэа. Вы даяце відарыс і кіруючае відэа, і яна генеруе вывад, дзе чалавек на вашым відарысе выконвае рухі з кіруючага відэа.

  • Загрузіць эталонны відарыс (ваш суб'ект)
  • Даць кіруючае відэа (шаблон руху)
  • Мадэль сінтэзуе выкананне
  • Тэкст-у-відэа з'явіцца ў будучым абнаўленні

Сістэма сінхранізацыі губ выдатна выглядае. Падайце ёй скрыпт або аўдыёдарожку, і яна генеруе адпаведныя рухі рота. Асобны алгарытм выраўноўвання жэстаў сінхранізуе мову цела з рытмам гутаркі і эмацыйным тонам. Вынік? Відэа, дзе чалавек сапраўды выглядае так, быццам ён гаворыць гэтыя словы, а не проста махае сківіцай.

💡

CraftStory трэніравалася на ўласным матэрыяле з высокай частатой кадраў, здзейсненым спецыяльна для мадэлі. Стандартныя YouTube-кліпы з 30fps маюць занадта шмат размыцця руху для дробных дэталяў, такіх як пальцы. Яны наймалі студыі для здымкі акцёраў з больш высокай частатой кадраў для больш чыстых дадзеных трэніроўкі.

Вынік: што вы атрымліваеце

Магчымасці
  • Да 5 хвілін бесперапыннага відэа
  • Роднае дазвол 480p і 720p
  • 720p з магчымасцю павелічэння да 1080p
  • Альбомны і партрэтны фарматы
  • Сінхранізаваныя рухі губ
  • Натуральнае выраўноўванне жэстаў
Абмежаванні
  • Толькі відэа-ў-відэа (пакуль няма тэкст-у-відэа)
  • Патрабуе ўводу кіруючага відэа
  • Каля 15 хвілін на 30 секунд у нізкім дазволе
  • У цяперашні час статычная камера (рухомая камера ідзе)

Генерацыя займае каля 15 хвілін для 30-секунднага кліпа ў нізкім дазволе. Гэта павольней за амаль імгненную генерацыю, якую прапануюць некаторыя мадэлі, але кампраміс – гэта звязны доўгі вывад, а не прыгожыя фрагменты, якія не злучаюцца.

Чаму гэта важна для стваральнікаў

Бар'ер у 5 хвілін не адвольны. Гэта парог, дзе ШІ-відэа становіцца карысным для сапраўднага кантэнту.

10 сек

Сацыяльныя кліпы

Добра для TikTok-урыўкаў і рэкламы, але абмежаванае апавяданне

30 сек

Кароткія тлумачэнні

Дастаткова для хуткага дэма прадукту або ілюстрацыі канцэпцыі

2-5 хв

Сапраўдны кантэнт

YouTube-навучанні, трэніровачныя відэа, прэзентацыі, апавядальны кантэнт

Будучыня

Доўгая форма

Поўныя эпізоды, дакументальныя фільмы, адукацыйныя курсы

Большасць бізнес-відэа кантэнту знаходзіцца ў дыяпазоне 2-5 хвілін. Дэма прадуктаў. Трэніровачныя модулі. Тлумачальныя відэа. Унутраныя камунікацыі. Тут CraftStory становіцца актуальнай для прафесійных выпадкаў выкарыстання.

Выпадкі выкарыстання, якія адкрываюцца:

  • Навучанні па прадуктах з паслядоўным прэзентатарам на ўсім працягу
  • Трэніровачныя відэа, якія не патрабуюць планавання талентаў
  • Персаналізаваныя відэападзякі ў маштабе
  • Адукацыйны кантэнт з віртуальнымі інструктарамі
  • Карпаратыўныя камунікацыі са створанымі прадстаўнікамі

Канкурэнтны ландшафт

CraftStory сабрала 2 мільёны долараў пачатковага фінансавання пад кіраўніцтвам Andrew Filev, заснавальніка Wrike і Zencoder. Гэта сціпла ў параўнанні з мільярдамі, якія плывуць у OpenAI і Google, але дастаткова, каб даказаць тэхналогію.

🎯

Сувязь з OpenCV

Паходжанне каманды заснавальнікаў мае значэнне тут. OpenCV кіруе сістэмамі кампутарнага зроку ў галінах. Гэтыя людзі разумеюць асновы візуальнай апрацоўкі на ўзроўні, які большасць стартапаў ШІ-відэа не разумее.

Магчымасць тэкст-у-відэа ў распрацоўцы. Калі гэта запусціцца, каштоўнасць становіцца больш зразумелай: апішыце 5-хвіліннае відэа тэкстам, атрымайце звязны вывад без пакадравай дэградацыі якасці, якая пакутуе іншыя інструменты.

Што далей

Функцыі дарожнай карты

CraftStory абвясціла некалькі надыходзячых магчымасцей:

  • Тэкст-у-відэа: генерацыя з падказак без кіруючага відэа
  • Рухомая камера: панараміраванне, маштабаванне і здымкі адсочвання
  • Хада і размова: суб'екты, якія рухаюцца праз прастору падчас размовы

Падыход двухбаковай дыфузіі – гэта не проста трук CraftStory. Гэта шаблон, які іншыя каманды хутчэй за ўсё прымуць. Калі вы вырашыце праблему "памылкі назапашваюцца наперад", больш доўгая генерацыя становіцца інжынернай праблемай, а не фундаментальным бар'ерам.

⚠️

Мадэль 2.0 у цяперашні час сканцэнтравана на відэа, арыентаваным на чалавека. Для сцэн без людзей вам усё яшчэ спатрэбяцца інструменты, аптымізаваныя для генерацыі навакольнага асяроддзя або абстрактнай. Гэта спецыялізаваны інструмент, а не універсальны.

Больш шырокая карціна

Мы назіраем, як ШІ-відэа праходзіць праз незграбную падлеткавую фазу. Мадэлі могуць ствараць цудоўныя 10-секундныя кліпы, але папрасіце іх падтрымліваць звязнасць праз хвіліны, і яны разваляюцца. Двухбаковы падыход CraftStory – адзін з адказаў на гэтую праблему.

Сапраўднае пытанне: колькі часу, пакуль гэтую тэхніку прымуць большыя гульцы? OpenAI, Google і Runway усе маюць рэсурсы для рэалізацыі падобных архітэктур. Перавага CraftStory у тым, што яна першая на рынку з працуючай доўгай генерацыяй.

Зараз, калі вам патрэбны паслядоўны шматхвіліннны кантэнт ШІ-відэа з людзьмі, CraftStory толькі што стала адзінай гульнёй у горадзе. Бар'ер працягласці яшчэ не зламаны, але хтосьці толькі што стварыў у ім сур'ёзную трэшчыну.

🚀

Паспрабаваць

CraftStory Model 2.0 даступная зараз. Структура цэнаў не дэталізавана публічна, таму вам трэба будзе праверыць іх сайт для бягучых прапаноў. Тэкст-у-відэа ідзе, што зробіць платформу даступнай для карыстальнікаў без наяўнага кіруючага відэа кантэнту.

Henry

Henry

Творчы тэхнолаг

Творчы тэхнолаг з Лазаны, які даследуе сутыкненне ШІ і мастацтва. Эксперыментуе з генератыўнымі мадэлямі паміж сеансамі электроннай музыкі.

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

Мадэль CraftStory 2.0: Як двухбаковая дыфузія адкрывае магчымасць стварэння 5-хвіліннага відэа з дапамогай ШІ