ByteDance Vidi2: ШІ, які разумее відэа як рэдактар
ByteDance адкрыў зыходны код Vidi2 — мадэль з 12 млрд параметраў, якая настолькі добра разумее відэаконтэнт, што аўтаматычна рэдагуе гадзіны запісаў у адшліфаваныя кліпы. Ужо працуе ў TikTok Smart Split.

Пакуль усе апантана працуюць над генерацыяй відэа, ByteDance ціха вырашыла іншую праблему: навучыла ШІ разумець відэа як вопытны рэдактар. Vidi2 можа прагледзець гадзіны сырога матэрыялу і выняць менавіта тое, што важна.
Праблема, пра якую ніхто не гаворыць
У нас зараз ёсць цудоўныя генератары відэа на ШІ. Runway Gen-4.5 лідзіруе па якасці. Kling O1 генеруе сінхранізаваны гук. Але вось брудны сакрэт відэапрадукцыі: большасць часу ідзе на рэдагаванне, а не на стварэнне.
Відэаграф на вяселлі здымае 8 гадзін для 5-хвіліннага ролік найкращых момантаў. Стваральнік кантэнту запісвае 45 хвілін, каб зрабіць 60-секундны TikTok. Карпаратыўная каманда мае 200 гадзін навучальнага матэрыялу, схаванага ў SharePoint.
Генерацыя відэа трапляе ў загалоўкі. Разуменне відэа робіць рэальную працу.
Vidi2 закрывае гэты прабел. Гэта не чарговы генератар. Гэта ШІ, які глядзіць відэа, разумее, што адбываецца, і дапамагае працаваць з гэтым кантэнтам у маштабе.
Што рэальна робіць Vidi2
ByteDance апісвае Vidi2 як "вялікую мультымадальную мадэль для разумення і стварэння відэа." Мадэль з 12 мільярдаў параметраў адлічваецца ў:
Прасторава-часавая лакалізацыя
Знайдзі любы аб'ект у відэа і адсочвай яго ў часе. Не проста "кошка о 0:32", а "кошка заходзіць о 0:32, рухаецца да дывана о 0:45 і пакідае кадр о 1:12."
Разумнае рэдагаванне
Аналізуй матэрыял і прапануй разрэзы на аснове кантэнту. Знаходзь лепшыя моманты, вызначай межы сцэн, разумей рытм.
Аналіз кантэнту
Апісвай, што адбываецца ў відэа з дастатковай дэталёвасцю, каб быць карысным. Не "двое размаўляюць", а "сегмент інтэрв'ю, госць тлумачыць функцыі прадукту, момант высокай ўвагі на 3:45."
Адсочванне аб'ектаў
Адсочвай аб'екты як бесперапынныя "трубы" праз відэа, нават калі яны выходзяць і зноў уваходзяць у кадр. Гэта дозваляе дакладны вылучэнне для эфектаў, выдалення альбо акцэнту.
Тэхнічная інавацыя: прасторава-часавая лакалізацыя
Папярэднія ШІ для відэа працавалі ў двух вымярэннях: прастора (што ў гэтым кадры) альбо час (калі нешта адбываецца). Vidi2 спалучае абодва ў тое, што ByteDance называе "прасторава-часавай лакалізацыяй" (STG).
Традыцыйны падыход:
- Прасторавы: "Машына на піксельных каардынатах (450, 320)"
- Часавы: "Машына з'яўляецца на таймстэмпе 0:15"
- Вынік: Разрозненная інфармацыя, якая патрабуе ручной карэляцыі
Vidi2 STG:
- Спалучаны: "Чырвоная машына на (450, 320) о 0:15, рухаецца да (890, 340) о 0:18, выходзіць направа о 0:22"
- Вынік: Поўная траекторыя аб'екта ў прасторы і часе
Гэта важна, бо рэальныя задачы рэдагавання патрабуюць абодвух вымярэнняў. "Выдаліць мікрафон" трэба ведаць, дзе ён з'яўляецца (прастора) і на колькі доўга (час). Vidi2 апрацоўвае гэта як адзіны запыт.
Бэнчмаркі: перамога над гігантамі
Вось тут становіцца цікава. На бэнчмарку VUE-STG ад ByteDance для прасторава-часавай лакалізацыі, Vidi2 абыгрывае і Gemini 2.0 Flash, і GPT-4o, нягледзячы на меншую колькасць параметраў.
Заўвага: гэтыя бэнчмаркі стварыла ByteDance. Незалежная праверка на старонніх бэнчмарках узмацніла б гэтыя сцвярджэнні. Тым не менш, падыход спецыялізаванай архітэктуры абгрунтаваны.
Вынікі бэнчмаркаў паказваюць, што разуменне відэа больш выйграе ад спецыялізаванага дызайну, чым ад простага памеру. Мадэль, пабудаваная для відэа з нуля, можа перамагчы большыя ўніверсальныя мадэлі, якія разглядаюць відэа як пашырэнне разумення выяў.
Ужо ў прадукцыі: TikTok Smart Split
Гэта не папяровая тэхналогія. Vidi2 кіруе функцыяй "Smart Split" у TikTok, якая:
- ✓Аўтаматычна выцягвае важныя моманты з доўгіх відэа
- ✓Генеруе субцітры, сінхранізаваныя з маўленнем
- ✓Перабудоўвае макет для розных суадносін бакоў
- ✓Вызначае аптымальныя кропкі разрэзу на аснове кантэнту
Мільёны стваральнікаў выкарыстоўваюць Smart Split штодня. Мадэль пацверджана ў маштабе, а не тэарэтычна.
Адкрыты код: запусці сам
ByteDance выпусціў Vidi2 на GitHub пад ліцэнзіяй CC BY-NC 4.0. Гэта азначае бясплатна для даследаванняў, адукацыі і асабістых праектаў, але камерцыйнае выкарыстанне патрабуе асобнай ліцэнзіі. Наступствы:
Для распрацоўшчыкаў:
- Будуй уласныя канвееры аналізу відэа
- Інтэгруй разуменне ў існуючыя інструменты
- Дакладная настройка для канкрэтных абласцей
- Няма кошту API у маштабе
Для прадпрыемстваў:
- Апрацоўвай канфідэнцыйны матэрыял лакальна
- Будуй уласныя працоўныя працэсы рэдагавання
- Пазбягай залежнасці ад пастаўшчыкоў
- Наладжвай пад унутраныя тыпы кантэнту
Выпуск з адкрытым кодам ідзе ў рэчышчы шаблону, які мы бачылі з LTX Video і іншымі кітайскімі ШІ-лабараторыямі: выпуск магутных мадэляў адкрыта, у той час як заходнія канкурэнты трымаюць свае ўласнымі.
Практычныя прымяненні
Дазвольце прайсціся па некалькіх рэальных працоўных працэсах, якія дазваляе Vidi2:
Паўторнае выкарыстанне кантэнту
Увод: 2-гадзінны запіс падкаста Вывад: 10 кароткіх кліпаў з лепшых момантаў, кожны з адпаведным уступам/заключэннем
Мадэль вызначае цікавыя моманты, знаходзіць натуральныя кропкі разрэзу і выцягвае кліпы, якія працуюць як самастойны кантэнт.
Кіраванне навучальнымі відэа
Увод: 500 гадзін карпаратыўнага навучальнага матэрыялу Запыт: "Знайдзі ўсе сегменты, якія тлумачаць новы працэс CRM"
Замест ручнога пераглядання альбо залежнасці ад ненадзейных метададзеных, Vidi2 рэальна глядзіць і разумее кантэнт.
Спартыўныя падборкі
Увод: Запіс поўнага матча Вывад: Падборка з усімі момантамі гола, блізкімі выпадкамі і святкаваннямі
Мадэль разумее спартыўны кантэкст настолькі добра, каб вызначаць значныя моманты, а не прысто рух.
Прагляд назірання
Увод: 24 гадзіны запісаў бяспекі Запыт: "Знайдзі ўсе выпадкі людзей, якія ўваходзяць праз бакавыя дзверы пасля 18:00"
Прасторава-часавая лакалізацыя азначае дакладныя адказы з дакладнымі таймстэмпамі і месцамі.
Як параўноўваецца з мадэлямі генерацыі
- Працуе з існуючым матэрыялам
- Эканоміць час рэдагавання, а не генерацыі
- Маштабуецца да вялікіх відэабібліятэк
- Не патрабуе творчых промптаў
- Практычна для прадпрыемстваў адразу
- Стварае новы кантэнт з нічога
- Інструмент творчага выказвання
- Прымяненні ў маркетынгу і рэкламе
- Якасць хутка расце
- Цікава, але іншы варыянт выкарыстання
Гэта не канкуруючыя тэхналогіі. Яны вырашаюць розныя праблемы. Поўны працоўны працэс ШІ-відэа патрабуе абодвух: генерацыю для стварэння новага кантэнту, разуменне для працы з існуючым кантэнтам.
Большая карціна
Разуменне відэа — гэта там, дзе ШІ пераходзіць ад "уражлівага дэма" да "паўсядзённага інструмента." Генерацыя прыцягвае ўвагу. Разуменне робіць працу.
Падумайце, што гэта дазваляе:
- Кожнае прадпрыемства мае відэаканент, зачынены ў архівах
- Кожны стваральнік праводзіць больш часу на рэдагаванне, чым на здымку
- Кожная платформа патрабує лепшай мадэрацыі і выяўлення кантэнту
- Кожны даследчык мае матэрыял, які не можа эфектыўна аналізаваць
Vidi2 вырашае ўсё гэта. Выпуск з адкрытым кодам азначае, што гэтыя магчымасці цяпер даступныя кожнаму, хто мае дастатковыя вылічальныя рэсурсы.
Пачатак працы
Мадэль даступная на GitHub з дакументацыяй і дэма. Патрабаванні:
- NVIDIA GPU з прынамсі 24GB VRAM для поўнай мадэлі
- Квантаваныя версіі даступныя для меншых GPU
- Python 3.10+ з PyTorch 2.0+
Хуткі старт:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Дакументацыя пераважна на англійскай, нягледзячы на тое, што ByteDance кітайская кампанія, што адлюстроўвае глабальную мэтавую аўдыторыю.
Што гэта азначае для індустрыі
Ландшафт ШІ-відэа цяпер мае два розныя накірункі:
| Накірунак | Лідэры | Фокус | Каштоўнасць |
|---|---|---|---|
| Генерацыя | Runway, Sora, Veo, Kling | Стварэнне новага відэа | Творчае выказванне |
| Разуменне | Vidi2, (іншыя, што з'яўляюцца) | Аналіз існуючага відэа | Прадукцыйнасць |
Абодва будуць сталець. Абодва будуць інтэгравацца. Поўны стэк ШІ-відэа 2026 года будзе генераваць, рэдагаваць і разумець бесперашкодна.
На дадзены момант Vidi2 прадстаўляе самы магутны варыянт з адкрытым кодам для разумення відэа. Калі ў вас ёсць матэрыял для аналізу, рэдагаванне для аўтаматызацыі альбо кантэнт для арганізацыі, гэта мадэль для даследавання.
Мая думка
Я провёў гады, будуючы канвееры апрацоўкі відэа. Розніца да і пасля мадэляў накшталт Vidi2 разючая. Задачы, якія патрабавалі ўласных стэкаў камп'ютарнага зроку, ручных анатацый і крохкіх эўрыстык, цяпер можна вырашыць промптам.
Лепшыя інструменты ШІ не замяняюць чалавечае меркаванне. Яны выдаляюць нудную работу, якая перашкаджае людзям прымяняць меркаванне ў маштабе.
Vidi2 не замяняе рэдактараў. Ён дае рэдактарам магчымасці, якія раней былі немагчымыя ў маштабе. І з адкрытым доступам (для некамерцыйнага выкарыстання) гэтыя магчымасці даступныя кожнаму, хто гатовы наладзіць інфраструктуру.
Будучыня відэа — не толькі генерацыя. Гэта разуменне. І гэтая будучыня цяпер з адкрытым кодам.
Крыніцы
Гэты артыкул быў карысны?

Damien
Распрацоўнік ШІРаспрацоўнік ШІ з Ліёна, які любіць ператвараць складаныя канцэпцыі машыннага навучання ў простыя рэцэпты. Калі не адладжвае мадэлі, яго можна знайсці на веласіпедзе ў даліне Роны.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

ByteDance Seedance 1.5 Pro: мадэль, якая генеруе гук і відэа разам
ByteDance выпускае Seedance 1.5 Pro з натыўнай аўдыявізуальнай генерацыяй, кінематаграфічным кіраваннем камерай і шматмоўнай сінхранізацыяй губ. Даступна бясплатна ў CapCut.

Рэвалюцыя адкрытага AI-відэа: ці могуць спажывецкія GPU спаборнічаць з тэхгігантамі?
ByteDance і Tencent толькі што выпусцілі адкрытыя відэа-мадэлі, якія працуюць на звычайным абсталяванні. Гэта мяняе ўсё для незалежных аўтараў.

Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе
GWM-1 ад Runway, гэта пераход ад генерацыі відэа да сімуляцыі светаў. Вывучыце, як гэтая аўтарэгрэсіўная мадэль стварае даследуемыя асяроддзі, фотарэалістычныя аватары і сімуляцыі для навучання робатаў.