ByteDance Vidi2: ШІ, які разумее відэа як рэдактар

Пакуль усе апантана працуюць над генерацыяй відэа, ByteDance ціха вырашыла іншую праблему: навучыла ШІ разумець відэа як вопытны рэдактар. Vidi2 можа прагледзець гадзіны сырога матэрыялу і выняць менавіта тое, што важна.

Праблема, пра якую ніхто не гаворыць

У нас зараз ёсць цудоўныя генератары відэа на ШІ. Runway Gen-4.5 лідзіруе па якасці. Kling O1 генеруе сінхранізаваны гук. Але вось брудны сакрэт відэапрадукцыі: большасць часу ідзе на рэдагаванне, а не на стварэнне.

Відэаграф на вяселлі здымае 8 гадзін для 5-хвіліннага ролік найкращых момантаў. Стваральнік кантэнту запісвае 45 хвілін, каб зрабіць 60-секундны TikTok. Карпаратыўная каманда мае 200 гадзін навучальнага матэрыялу, схаванага ў SharePoint.

💡

Генерацыя відэа трапляе ў загалоўкі. Разуменне відэа робіць рэальную працу.

Vidi2 закрывае гэты прабел. Гэта не чарговы генератар. Гэта ШІ, які глядзіць відэа, разумее, што адбываецца, і дапамагае працаваць з гэтым кантэнтам у маштабе.

Што рэальна робіць Vidi2

ByteDance апісвае Vidi2 як "вялікую мультымадальную мадэль для разумення і стварэння відэа." Мадэль з 12 мільярдаў параметраў адлічваецца ў:

🔍

Прасторава-часавая лакалізацыя

Знайдзі любы аб'ект у відэа і адсочвай яго ў часе. Не проста "кошка о 0:32", а "кошка заходзіць о 0:32, рухаецца да дывана о 0:45 і пакідае кадр о 1:12."

✂️

Разумнае рэдагаванне

Аналізуй матэрыял і прапануй разрэзы на аснове кантэнту. Знаходзь лепшыя моманты, вызначай межы сцэн, разумей рытм.

📝

Аналіз кантэнту

Апісвай, што адбываецца ў відэа з дастатковай дэталёвасцю, каб быць карысным. Не "двое размаўляюць", а "сегмент інтэрв'ю, госць тлумачыць функцыі прадукту, момант высокай ўвагі на 3:45."

🎯

Адсочванне аб'ектаў

Адсочвай аб'екты як бесперапынныя "трубы" праз відэа, нават калі яны выходзяць і зноў уваходзяць у кадр. Гэта дозваляе дакладны вылучэнне для эфектаў, выдалення альбо акцэнту.

Тэхнічная інавацыя: прасторава-часавая лакалізацыя

Папярэднія ШІ для відэа працавалі ў двух вымярэннях: прастора (што ў гэтым кадры) альбо час (калі нешта адбываецца). Vidi2 спалучае абодва ў тое, што ByteDance называе "прасторава-часавай лакалізацыяй" (STG).

Традыцыйны падыход:

Прасторавы: "Машына на піксельных каардынатах (450, 320)"
Часавы: "Машына з'яўляецца на таймстэмпе 0:15"
Вынік: Разрозненная інфармацыя, якая патрабуе ручной карэляцыі

Vidi2 STG:

Спалучаны: "Чырвоная машына на (450, 320) о 0:15, рухаецца да (890, 340) о 0:18, выходзіць направа о 0:22"
Вынік: Поўная траекторыя аб'екта ў прасторы і часе

Гэта важна, бо рэальныя задачы рэдагавання патрабуюць абодвух вымярэнняў. "Выдаліць мікрафон" трэба ведаць, дзе ён з'яўляецца (прастора) і на колькі доўга (час). Vidi2 апрацоўвае гэта як адзіны запыт.

Бэнчмаркі: перамога над гігантамі

12B

Параметраў

Разуменне відэа

Адкрыты

Код

Вось тут становіцца цікава. На бэнчмарку VUE-STG ад ByteDance для прасторава-часавай лакалізацыі, Vidi2 абыгрывае і Gemini 2.0 Flash, і GPT-4o, нягледзячы на меншую колькасць параметраў.

💡

Заўвага: гэтыя бэнчмаркі стварыла ByteDance. Незалежная праверка на старонніх бэнчмарках узмацніла б гэтыя сцвярджэнні. Тым не менш, падыход спецыялізаванай архітэктуры абгрунтаваны.

Вынікі бэнчмаркаў паказваюць, што разуменне відэа больш выйграе ад спецыялізаванага дызайну, чым ад простага памеру. Мадэль, пабудаваная для відэа з нуля, можа перамагчы большыя ўніверсальныя мадэлі, якія разглядаюць відэа як пашырэнне разумення выяў.

Ужо ў прадукцыі: TikTok Smart Split

Гэта не папяровая тэхналогія. Vidi2 кіруе функцыяй "Smart Split" у TikTok, якая:

✓Аўтаматычна выцягвае важныя моманты з доўгіх відэа
✓Генеруе субцітры, сінхранізаваныя з маўленнем
✓Перабудоўвае макет для розных суадносін бакоў
✓Вызначае аптымальныя кропкі разрэзу на аснове кантэнту

Мільёны стваральнікаў выкарыстоўваюць Smart Split штодня. Мадэль пацверджана ў маштабе, а не тэарэтычна.

Адкрыты код: запусці сам

ByteDance выпусціў Vidi2 на GitHub пад ліцэнзіяй CC BY-NC 4.0. Гэта азначае бясплатна для даследаванняў, адукацыі і асабістых праектаў, але камерцыйнае выкарыстанне патрабуе асобнай ліцэнзіі. Наступствы:

Для распрацоўшчыкаў:

Будуй уласныя канвееры аналізу відэа
Інтэгруй разуменне ў існуючыя інструменты
Дакладная настройка для канкрэтных абласцей
Няма кошту API у маштабе

Для прадпрыемстваў:

Апрацоўвай канфідэнцыйны матэрыял лакальна
Будуй уласныя працоўныя працэсы рэдагавання
Пазбягай залежнасці ад пастаўшчыкоў
Наладжвай пад унутраныя тыпы кантэнту

Выпуск з адкрытым кодам ідзе ў рэчышчы шаблону, які мы бачылі з LTX Video і іншымі кітайскімі ШІ-лабараторыямі: выпуск магутных мадэляў адкрыта, у той час як заходнія канкурэнты трымаюць свае ўласнымі.

Практычныя прымяненні

Дазвольце прайсціся па некалькіх рэальных працоўных працэсах, якія дазваляе Vidi2:

Паўторнае выкарыстанне кантэнту

Увод: 2-гадзінны запіс падкаста Вывад: 10 кароткіх кліпаў з лепшых момантаў, кожны з адпаведным уступам/заключэннем

Мадэль вызначае цікавыя моманты, знаходзіць натуральныя кропкі разрэзу і выцягвае кліпы, якія працуюць як самастойны кантэнт.

Кіраванне навучальнымі відэа

Увод: 500 гадзін карпаратыўнага навучальнага матэрыялу Запыт: "Знайдзі ўсе сегменты, якія тлумачаць новы працэс CRM"

Замест ручнога пераглядання альбо залежнасці ад ненадзейных метададзеных, Vidi2 рэальна глядзіць і разумее кантэнт.

Спартыўныя падборкі

Увод: Запіс поўнага матча Вывад: Падборка з усімі момантамі гола, блізкімі выпадкамі і святкаваннямі

Мадэль разумее спартыўны кантэкст настолькі добра, каб вызначаць значныя моманты, а не прысто рух.

Прагляд назірання

Увод: 24 гадзіны запісаў бяспекі Запыт: "Знайдзі ўсе выпадкі людзей, якія ўваходзяць праз бакавыя дзверы пасля 18:00"

Прасторава-часавая лакалізацыя азначае дакладныя адказы з дакладнымі таймстэмпамі і месцамі.

Як параўноўваецца з мадэлямі генерацыі

✓Разуменне відэа (Vidi2)

Працуе з існуючым матэрыялам
Эканоміць час рэдагавання, а не генерацыі
Маштабуецца да вялікіх відэабібліятэк
Не патрабуе творчых промптаў
Практычна для прадпрыемстваў адразу

✓Генерацыя відэа (Runway, Sora)

Стварае новы кантэнт з нічога
Інструмент творчага выказвання
Прымяненні ў маркетынгу і рэкламе
Якасць хутка расце
Цікава, але іншы варыянт выкарыстання

Гэта не канкуруючыя тэхналогіі. Яны вырашаюць розныя праблемы. Поўны працоўны працэс ШІ-відэа патрабуе абодвух: генерацыю для стварэння новага кантэнту, разуменне для працы з існуючым кантэнтам.

Большая карціна

⚠️

Разуменне відэа — гэта там, дзе ШІ пераходзіць ад "уражлівага дэма" да "паўсядзённага інструмента." Генерацыя прыцягвае ўвагу. Разуменне робіць працу.

Падумайце, што гэта дазваляе:

Кожнае прадпрыемства мае відэаканент, зачынены ў архівах
Кожны стваральнік праводзіць больш часу на рэдагаванне, чым на здымку
Кожная платформа патрабує лепшай мадэрацыі і выяўлення кантэнту
Кожны даследчык мае матэрыял, які не можа эфектыўна аналізаваць

Vidi2 вырашае ўсё гэта. Выпуск з адкрытым кодам азначае, што гэтыя магчымасці цяпер даступныя кожнаму, хто мае дастатковыя вылічальныя рэсурсы.

Пачатак працы

Мадэль даступная на GitHub з дакументацыяй і дэма. Патрабаванні:

NVIDIA GPU з прынамсі 24GB VRAM для поўнай мадэлі
Квантаваныя версіі даступныя для меншых GPU
Python 3.10+ з PyTorch 2.0+

Хуткі старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Дакументацыя пераважна на англійскай, нягледзячы на тое, што ByteDance кітайская кампанія, што адлюстроўвае глабальную мэтавую аўдыторыю.

Што гэта азначае для індустрыі

Ландшафт ШІ-відэа цяпер мае два розныя накірункі:

Накірунак	Лідэры	Фокус	Каштоўнасць
Генерацыя	Runway, Sora, Veo, Kling	Стварэнне новага відэа	Творчае выказванне
Разуменне	Vidi2, (іншыя, што з'яўляюцца)	Аналіз існуючага відэа	Прадукцыйнасць

Абодва будуць сталець. Абодва будуць інтэгравацца. Поўны стэк ШІ-відэа 2026 года будзе генераваць, рэдагаваць і разумець бесперашкодна.

На дадзены момант Vidi2 прадстаўляе самы магутны варыянт з адкрытым кодам для разумення відэа. Калі ў вас ёсць матэрыял для аналізу, рэдагаванне для аўтаматызацыі альбо кантэнт для арганізацыі, гэта мадэль для даследавання.

Мая думка

Я провёў гады, будуючы канвееры апрацоўкі відэа. Розніца да і пасля мадэляў накшталт Vidi2 разючая. Задачы, якія патрабавалі ўласных стэкаў камп'ютарнага зроку, ручных анатацый і крохкіх эўрыстык, цяпер можна вырашыць промптам.

💡

Лепшыя інструменты ШІ не замяняюць чалавечае меркаванне. Яны выдаляюць нудную работу, якая перашкаджае людзям прымяняць меркаванне ў маштабе.

Vidi2 не замяняе рэдактараў. Ён дае рэдактарам магчымасці, якія раней былі немагчымыя ў маштабе. І з адкрытым доступам (для некамерцыйнага выкарыстання) гэтыя магчымасці даступныя кожнаму, хто гатовы наладзіць інфраструктуру.

Будучыня відэа — не толькі генерацыя. Гэта разуменне. І гэтая будучыня цяпер з адкрытым кодам.