Meta Pixel
DamienDamien
7 min read
1316 слоў

ByteDance Vidi2: ШІ, які разумее відэа як рэдактар

ByteDance адкрыў зыходны код Vidi2 — мадэль з 12 млрд параметраў, якая настолькі добра разумее відэаконтэнт, што аўтаматычна рэдагуе гадзіны запісаў у адшліфаваныя кліпы. Ужо працуе ў TikTok Smart Split.

ByteDance Vidi2: ШІ, які разумее відэа як рэдактар

Пакуль усе апантана працуюць над генерацыяй відэа, ByteDance ціха вырашыла іншую праблему: навучыла ШІ разумець відэа як вопытны рэдактар. Vidi2 можа прагледзець гадзіны сырога матэрыялу і выняць менавіта тое, што важна.

Праблема, пра якую ніхто не гаворыць

У нас зараз ёсць цудоўныя генератары відэа на ШІ. Runway Gen-4.5 лідзіруе па якасці. Kling O1 генеруе сінхранізаваны гук. Але вось брудны сакрэт відэапрадукцыі: большасць часу ідзе на рэдагаванне, а не на стварэнне.

Відэаграф на вяселлі здымае 8 гадзін для 5-хвіліннага ролік найкращых момантаў. Стваральнік кантэнту запісвае 45 хвілін, каб зрабіць 60-секундны TikTok. Карпаратыўная каманда мае 200 гадзін навучальнага матэрыялу, схаванага ў SharePoint.

💡

Генерацыя відэа трапляе ў загалоўкі. Разуменне відэа робіць рэальную працу.

Vidi2 закрывае гэты прабел. Гэта не чарговы генератар. Гэта ШІ, які глядзіць відэа, разумее, што адбываецца, і дапамагае працаваць з гэтым кантэнтам у маштабе.

Што рэальна робіць Vidi2

ByteDance апісвае Vidi2 як "вялікую мультымадальную мадэль для разумення і стварэння відэа." Мадэль з 12 мільярдаў параметраў адлічваецца ў:

🔍

Прасторава-часавая лакалізацыя

Знайдзі любы аб'ект у відэа і адсочвай яго ў часе. Не проста "кошка о 0:32", а "кошка заходзіць о 0:32, рухаецца да дывана о 0:45 і пакідае кадр о 1:12."

✂️

Разумнае рэдагаванне

Аналізуй матэрыял і прапануй разрэзы на аснове кантэнту. Знаходзь лепшыя моманты, вызначай межы сцэн, разумей рытм.

📝

Аналіз кантэнту

Апісвай, што адбываецца ў відэа з дастатковай дэталёвасцю, каб быць карысным. Не "двое размаўляюць", а "сегмент інтэрв'ю, госць тлумачыць функцыі прадукту, момант высокай ўвагі на 3:45."

🎯

Адсочванне аб'ектаў

Адсочвай аб'екты як бесперапынныя "трубы" праз відэа, нават калі яны выходзяць і зноў уваходзяць у кадр. Гэта дозваляе дакладны вылучэнне для эфектаў, выдалення альбо акцэнту.

Тэхнічная інавацыя: прасторава-часавая лакалізацыя

Папярэднія ШІ для відэа працавалі ў двух вымярэннях: прастора (што ў гэтым кадры) альбо час (калі нешта адбываецца). Vidi2 спалучае абодва ў тое, што ByteDance называе "прасторава-часавай лакалізацыяй" (STG).

Традыцыйны падыход:

  • Прасторавы: "Машына на піксельных каардынатах (450, 320)"
  • Часавы: "Машына з'яўляецца на таймстэмпе 0:15"
  • Вынік: Разрозненная інфармацыя, якая патрабуе ручной карэляцыі

Vidi2 STG:

  • Спалучаны: "Чырвоная машына на (450, 320) о 0:15, рухаецца да (890, 340) о 0:18, выходзіць направа о 0:22"
  • Вынік: Поўная траекторыя аб'екта ў прасторы і часе

Гэта важна, бо рэальныя задачы рэдагавання патрабуюць абодвух вымярэнняў. "Выдаліць мікрафон" трэба ведаць, дзе ён з'яўляецца (прастора) і на колькі доўга (час). Vidi2 апрацоўвае гэта як адзіны запыт.

Бэнчмаркі: перамога над гігантамі

12B
Параметраў
#1
Разуменне відэа
Адкрыты
Код

Вось тут становіцца цікава. На бэнчмарку VUE-STG ад ByteDance для прасторава-часавай лакалізацыі, Vidi2 абыгрывае і Gemini 2.0 Flash, і GPT-4o, нягледзячы на меншую колькасць параметраў.

💡

Заўвага: гэтыя бэнчмаркі стварыла ByteDance. Незалежная праверка на старонніх бэнчмарках узмацніла б гэтыя сцвярджэнні. Тым не менш, падыход спецыялізаванай архітэктуры абгрунтаваны.

Вынікі бэнчмаркаў паказваюць, што разуменне відэа больш выйграе ад спецыялізаванага дызайну, чым ад простага памеру. Мадэль, пабудаваная для відэа з нуля, можа перамагчы большыя ўніверсальныя мадэлі, якія разглядаюць відэа як пашырэнне разумення выяў.

Ужо ў прадукцыі: TikTok Smart Split

Гэта не папяровая тэхналогія. Vidi2 кіруе функцыяй "Smart Split" у TikTok, якая:

  • Аўтаматычна выцягвае важныя моманты з доўгіх відэа
  • Генеруе субцітры, сінхранізаваныя з маўленнем
  • Перабудоўвае макет для розных суадносін бакоў
  • Вызначае аптымальныя кропкі разрэзу на аснове кантэнту

Мільёны стваральнікаў выкарыстоўваюць Smart Split штодня. Мадэль пацверджана ў маштабе, а не тэарэтычна.

Адкрыты код: запусці сам

ByteDance выпусціў Vidi2 на GitHub пад ліцэнзіяй CC BY-NC 4.0. Гэта азначае бясплатна для даследаванняў, адукацыі і асабістых праектаў, але камерцыйнае выкарыстанне патрабуе асобнай ліцэнзіі. Наступствы:

Для распрацоўшчыкаў:

  • Будуй уласныя канвееры аналізу відэа
  • Інтэгруй разуменне ў існуючыя інструменты
  • Дакладная настройка для канкрэтных абласцей
  • Няма кошту API у маштабе

Для прадпрыемстваў:

  • Апрацоўвай канфідэнцыйны матэрыял лакальна
  • Будуй уласныя працоўныя працэсы рэдагавання
  • Пазбягай залежнасці ад пастаўшчыкоў
  • Наладжвай пад унутраныя тыпы кантэнту

Выпуск з адкрытым кодам ідзе ў рэчышчы шаблону, які мы бачылі з LTX Video і іншымі кітайскімі ШІ-лабараторыямі: выпуск магутных мадэляў адкрыта, у той час як заходнія канкурэнты трымаюць свае ўласнымі.

Практычныя прымяненні

Дазвольце прайсціся па некалькіх рэальных працоўных працэсах, якія дазваляе Vidi2:

Паўторнае выкарыстанне кантэнту

Увод: 2-гадзінны запіс падкаста Вывад: 10 кароткіх кліпаў з лепшых момантаў, кожны з адпаведным уступам/заключэннем

Мадэль вызначае цікавыя моманты, знаходзіць натуральныя кропкі разрэзу і выцягвае кліпы, якія працуюць як самастойны кантэнт.

Кіраванне навучальнымі відэа

Увод: 500 гадзін карпаратыўнага навучальнага матэрыялу Запыт: "Знайдзі ўсе сегменты, якія тлумачаць новы працэс CRM"

Замест ручнога пераглядання альбо залежнасці ад ненадзейных метададзеных, Vidi2 рэальна глядзіць і разумее кантэнт.

Спартыўныя падборкі

Увод: Запіс поўнага матча Вывад: Падборка з усімі момантамі гола, блізкімі выпадкамі і святкаваннямі

Мадэль разумее спартыўны кантэкст настолькі добра, каб вызначаць значныя моманты, а не прысто рух.

Прагляд назірання

Увод: 24 гадзіны запісаў бяспекі Запыт: "Знайдзі ўсе выпадкі людзей, якія ўваходзяць праз бакавыя дзверы пасля 18:00"

Прасторава-часавая лакалізацыя азначае дакладныя адказы з дакладнымі таймстэмпамі і месцамі.

Як параўноўваецца з мадэлямі генерацыі

Разуменне відэа (Vidi2)
  • Працуе з існуючым матэрыялам
  • Эканоміць час рэдагавання, а не генерацыі
  • Маштабуецца да вялікіх відэабібліятэк
  • Не патрабуе творчых промптаў
  • Практычна для прадпрыемстваў адразу
Генерацыя відэа (Runway, Sora)
  • Стварае новы кантэнт з нічога
  • Інструмент творчага выказвання
  • Прымяненні ў маркетынгу і рэкламе
  • Якасць хутка расце
  • Цікава, але іншы варыянт выкарыстання

Гэта не канкуруючыя тэхналогіі. Яны вырашаюць розныя праблемы. Поўны працоўны працэс ШІ-відэа патрабуе абодвух: генерацыю для стварэння новага кантэнту, разуменне для працы з існуючым кантэнтам.

Большая карціна

⚠️

Разуменне відэа — гэта там, дзе ШІ пераходзіць ад "уражлівага дэма" да "паўсядзённага інструмента." Генерацыя прыцягвае ўвагу. Разуменне робіць працу.

Падумайце, што гэта дазваляе:

  • Кожнае прадпрыемства мае відэаканент, зачынены ў архівах
  • Кожны стваральнік праводзіць больш часу на рэдагаванне, чым на здымку
  • Кожная платформа патрабує лепшай мадэрацыі і выяўлення кантэнту
  • Кожны даследчык мае матэрыял, які не можа эфектыўна аналізаваць

Vidi2 вырашае ўсё гэта. Выпуск з адкрытым кодам азначае, што гэтыя магчымасці цяпер даступныя кожнаму, хто мае дастатковыя вылічальныя рэсурсы.

Пачатак працы

Мадэль даступная на GitHub з дакументацыяй і дэма. Патрабаванні:

  • NVIDIA GPU з прынамсі 24GB VRAM для поўнай мадэлі
  • Квантаваныя версіі даступныя для меншых GPU
  • Python 3.10+ з PyTorch 2.0+

Хуткі старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Дакументацыя пераважна на англійскай, нягледзячы на тое, што ByteDance кітайская кампанія, што адлюстроўвае глабальную мэтавую аўдыторыю.

Што гэта азначае для індустрыі

Ландшафт ШІ-відэа цяпер мае два розныя накірункі:

НакірунакЛідэрыФокусКаштоўнасць
ГенерацыяRunway, Sora, Veo, KlingСтварэнне новага відэаТворчае выказванне
РазуменнеVidi2, (іншыя, што з'яўляюцца)Аналіз існуючага відэаПрадукцыйнасць

Абодва будуць сталець. Абодва будуць інтэгравацца. Поўны стэк ШІ-відэа 2026 года будзе генераваць, рэдагаваць і разумець бесперашкодна.

На дадзены момант Vidi2 прадстаўляе самы магутны варыянт з адкрытым кодам для разумення відэа. Калі ў вас ёсць матэрыял для аналізу, рэдагаванне для аўтаматызацыі альбо кантэнт для арганізацыі, гэта мадэль для даследавання.

Мая думка

Я провёў гады, будуючы канвееры апрацоўкі відэа. Розніца да і пасля мадэляў накшталт Vidi2 разючая. Задачы, якія патрабавалі ўласных стэкаў камп'ютарнага зроку, ручных анатацый і крохкіх эўрыстык, цяпер можна вырашыць промптам.

💡

Лепшыя інструменты ШІ не замяняюць чалавечае меркаванне. Яны выдаляюць нудную работу, якая перашкаджае людзям прымяняць меркаванне ў маштабе.

Vidi2 не замяняе рэдактараў. Ён дае рэдактарам магчымасці, якія раней былі немагчымыя ў маштабе. І з адкрытым доступам (для некамерцыйнага выкарыстання) гэтыя магчымасці даступныя кожнаму, хто гатовы наладзіць інфраструктуру.

Будучыня відэа — не толькі генерацыя. Гэта разуменне. І гэтая будучыня цяпер з адкрытым кодам.


Крыніцы

Гэты артыкул быў карысны?

Damien

Damien

Распрацоўнік ШІ

Распрацоўнік ШІ з Ліёна, які любіць ператвараць складаныя канцэпцыі машыннага навучання ў простыя рэцэпты. Калі не адладжвае мадэлі, яго можна знайсці на веласіпедзе ў даліне Роны.

Звязаныя артыкулы

Працягвайце даследаванне з гэтымі звязанымі допісамі

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

ByteDance Vidi2: ШІ, які разумее відэа як рэдактар