Meta Pixel
DamienDamien
8 min read
1440 зборови

ByteDance Vidi2: AI што разбира видео како уредник

ByteDance токму објави Vidi2 како отворен код, модел од 12 милијарди параметри што разбира видео содржина доволно добро за автоматски да уредува часови материјал во изгладени клипови. Веќе го напојува TikTok Smart Split.

ByteDance Vidi2: AI што разбира видео како уредник

Додека сите се опседнати со генерирање видео, ByteDance тивко реши друг проблем: да го натера AI да разбира видео како искусен уредник. Vidi2 може да гледа часови сурово снимање и да извлече токму она што е важно.

Проблемот за кој никој не зборува

Сега имаме неверојатни AI генератори за видео. Runway Gen-4.5 е на врвот на графиконите за квалитет. Kling O1 генерира синхронизиран звук. Но еве ја прљавата тајна на видео продукцијата: повеќето време оди на уредување, не на креација.

Свадбен видеограф снима 8 часа материјал за 5-минутна истакнат ролна. Креатор на содржина снима 45 минути за да направи 60-секунден TikTok. Тим на претпријатие има 200 часа материјал за обука закопан во SharePoint.

💡

Генерирањето видео добива насловни страници. Разбирањето видео го прави вистинската работа.

Vidi2 го решава овој јаз. Тоа не е уште еден генератор. Тоа е AI што гледа видео, разбира што се случува и ви помага да работите со таа содржина на скала.

Што всушност прави Vidi2

ByteDance го опишува Vidi2 како "Голем мултимодален модел за разбирање и креација на видео." Моделот од 12 милијарди параметри е одличен во:

🔍

Просторно-временско вкотвување

Пронајдете било кој објект во видео и следете го низ времето. Не само "има мачка на 0:32" туку "мачката влегува на 0:32, се движи до каучот на 0:45 и го напушта кадарот на 1:12."

✂️

Интелигентно уредување

Анализирајте материјал и предложете сечења врз основа на содржината. Најдете ги најдобрите моменти, идентификувајте граници на сцени, разберете темпо.

📝

Анализа на содржина

Опишете што се случува во видео со доволно детали за да биде корисно. Не "двајца луѓе зборуваат" туку "сегмент интервју, гостин објаснува карактеристики на производ, момент на висока вклученост на 3:45."

🎯

Следење објекти

Следете објекти како континуирани "цевки" низ видео, дури и кога го напуштаат и повторно влегуваат во кадарот. Ова овозможува прецизна селекција за ефекти, отстранување или нагласување.

Техничката иновација: просторно-временско вкотвување

Претходните видео AI работеа во две димензии: простор (што е во овој кадар) или време (кога се случува нешто). Vidi2 ги комбинира двете во она што ByteDance го нарекува "Просторно-временско вкотвување" (STG).

Традиционален пристап:

  • Просторно: "Колата е на пиксел координати (450, 320)"
  • Временски: "Кола се појавува на временска ознака 0:15"
  • Резултат: Неповрзани информации што бараат рачна корелација

Vidi2 STG:

  • Комбинирано: "Црвената кола е на (450, 320) на 0:15, се движи до (890, 340) на 0:18, излегува десно на 0:22"
  • Резултат: Комплетна траекторија на објект низ простор и време

Ова е важно затоа што вистинските задачи за уредување бараат двете димензии. "Отстрани го бум микрофонот" треба да знае каде се појавува (просторно) и колку долго (временски). Vidi2 ова го обработува како еден барање.

Мерила: надминување на гигантите

12B
Параметри
#1
Разбирање видео
Отворен
Код

Еве каде станува интересно. На ByteDance VUE-STG мерилото за просторно-временско вкотвување, Vidi2 ги надминува и Gemini 2.0 Flash и GPT-4o, иако има помалку параметри од двата.

💡

Предупредување: овие мерила се создадени од ByteDance. Независна верификација на мерила од трета страна би ги зајакнале овие тврдења. Сепак, специјализираниот архитектурен пристап е солиден.

Резултатите од мерилата сугерираат дека разбирањето видео има поголема корист од специјализиран дизајн отколку од сурова скала. Модел изграден за видео од почеток може да ги надмине поголемите модели за општа намена што го третираат видео како продолжеток на разбирањето слики.

Веќе во производство: TikTok Smart Split

Ова не е вапорвер. Vidi2 ја напојува функцијата "Smart Split" на TikTok, која:

  • Автоматски извлекува истакнувања од долги видеа
  • Генерира титлови синхронизирани со говор
  • Реконструира распоред за различни сооднос на страни
  • Идентификува оптимални точки на сечење врз основа на содржината

Милиони креатори користат Smart Split секојдневно. Моделот е докажан на скала, не теоретски.

Отворен код: стартувајте го сами

ByteDance го објави Vidi2 на GitHub под CC BY-NC 4.0 лиценца. Тоа значи бесплатно за истражување, образование и лични проекти, но комерцијална употреба бара одделно лиценцирање. Импликациите:

За развивачи:

  • Градете приспособени цевководи за анализа на видео
  • Интегрирајте разбирање во постојни алатки
  • Фино подесување за специфични домени
  • Нема трошоци за API на скала

За претпријатија:

  • Обработувајте чувствителен материјал локално
  • Градете сопствени работни тек за уредување
  • Избегнувајте заклучување на продавач
  • Приспособете за внатрешни типови содржина

Објавувањето отворен код следи модел што го видовме со LTX Video и други кинески AI лаборатории: отворено објавување моќни модели додека западните конкуренти ги држат сопствени.

Практични примени

Дозволете ми да поминам низ некои вистински работни тек што Vidi2 ги овозможува:

Пренамена на содржина

Влез: 2-часовно снимање подкаст Излез: 10 кратки клипови од најдобрите моменти, секој со правилни сечења за интро/аутро

Моделот идентификува ангажирачки моменти, наоѓа природни точки на сечење и извлекува клипови што функционираат како самостојна содржина.

Управување со видео за обука

Влез: 500 часа корпоративен материјал за обука Барање: "Најди ги сите сегменти што го објаснуваат новиот CRM работен тек"

Наместо рачно скролање или потпирање на ненадеждни метаподатоци, Vidi2 всушност гледа и разбира содржината.

Спортски истакнувања

Влез: Целосно снимање натпревар Излез: Истакнат ролна со сите моменти на постигнување, блиски повици и прослави

Моделот разбира спортски контекст доволно добро за да идентификува значајни моменти, не само движење.

Преглед на надзор

Влез: 24 часа безбедносен материјал Барање: "Најди ги сите случаи на луѓе што влегуваат низ страничната врата после 18 часот"

Просторно-временското вкотвување значи прецизни одговори со точни временски ознаки и локации.

Како се споредува со генерациски модели

Разбирање видео (Vidi2)
  • Работи со постојно снимање
  • Заштедува време за уредување, не време за генерирање
  • Скалира до масивни библиотеки на видео
  • Не е потребно креативно барање
  • Практично за претпријатија веднаш
Генерирање видео (Runway, Sora)
  • Создава нова содржина од ништо
  • Алатка за креативен израз
  • Примени за маркетинг и реклама
  • Квалитетот расте брзо
  • Возбудливо но различна примена

Тоа не се конкурентски технологии. Тие решаваат различни проблеми. Комплетен AI видео работен тек треба и двете: генерирање за создавање нова содржина, разбирање за работа со постојна содржина.

Поголемата слика

⚠️

Разбирањето видео е каде AI се движи од "импресивно демо" во "дневна алатка." Генерирањето добива внимание. Разбирањето го завршува работата.

Размислете што ова овозможува:

  • Секое претпријатие има видео содржина заробена во архиви
  • Секој креатор трошиат повеќе време уредувајќи отколку снимајќи
  • Секоја платформа треба подобра модерација и откривање содржина
  • Секој истражувач има материјал што не може ефикасно да го анализира

Vidi2 ги адресира сите овие. Објавувањето отворен код значи дека овие способности сега се достапни за секој со доволно сметачка моќ.

Започнување

Моделот е достапен на GitHub со документација и демонстрации. Барања:

  • NVIDIA GPU со најмалку 24GB VRAM за целосен модел
  • Квантизирани верзии достапни за помали GPU
  • Python 3.10+ со PyTorch 2.0+

Брзо започнување:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Документацијата е главно на англиски јазик иако ByteDance е кинеска компанија, одразувајќи ја глобалната целна публика.

Што ова значи за индустријата

AI видео пејзажот сега има две различни патеки:

ПатекаЛидериФокусВредност
ГенерирањеRunway, Sora, Veo, KlingКреирај ново видеоКреативен израз
РазбирањеVidi2, (други што се појавуваат)Анализирај постоечко видеоПродуктивност

И двете ќе созреат. И двете ќе се интегрираат. Комплетниот AI видео стек од 2026 ќе генерира, уредува и разбира беспрекорно.

За сега, Vidi2 ја претставува најспособната опција со отворен код за разбирање видео. Ако имате материјал за анализа, уредување за автоматизација или содржина за организирање, ова е моделот што треба да го истражите.

Мое мислење

Поминав години градејќи цевководи за обработка на видео. Пред и по со модели како Vidi2 е остро. Задачи што барале приспособени стекови за компјутерска визија, рачна анотација и кревки хеуристики сега можат да се решат со барање.

💡

Најдобрите AI алатки не го заменуваат човечкото размислување. Тие ја отстрануваат досадната работа што ги спречува луѓето да применат размислување на скала.

Vidi2 не ги заменува уредниците. Им дава на уредниците способности што претходно беа невозможни на скала. И со отворен пристап (за некомерцијална употреба), овие способности се достапни за секој што е подготвен да ја постави инфраструктурата.

Иднината на видео не е само генерирање. Тоа е разбирање. И таа иднина сега е отворен код.


Извори

Дали оваа статија беше корисна?

Damien

Damien

Развивач на вештачка интелигенција

Развивач на вештачка интелигенција од Лион кој сака да ги претворува сложените концепти на машинско учење во едноставни рецепти. Кога не дебагира модели, ќе го најдете да вози велосипед низ долината Рона.

Поврзани статии

Продолжете со истражување со овие поврзани објави

ByteDance Seedance 1.5 Pro: Моделот што генерира аудио и видео заедно
ByteDanceSeedance

ByteDance Seedance 1.5 Pro: Моделот што генерира аудио и видео заедно

ByteDance објави Seedance 1.5 Pro со природна аудио-визуелна генерација, кинематографска контрола на камера и повеќејазична синхронизација на усни. Достапен бесплатно на CapCut.

Read
YouTube го Носи Veo 3 Fast во Shorts: Бесплатно AI Генерирање Видео за 2,5 Милијарди Корисници
YouTubeVeo 3

YouTube го Носи Veo 3 Fast во Shorts: Бесплатно AI Генерирање Видео за 2,5 Милијарди Корисници

Google го интегрира својот модел Veo 3 Fast директно во YouTube Shorts, нудејќи бесплатно генерирање видео од текст со звук за креатори ширум светот. Еве што значи ова за платформата и достапноста на AI видео.

Read
Kling 2.6: клонирање глас и контрола на движење ја редефинираат креацијата на AI видео
KlingAI Video

Kling 2.6: клонирање глас и контрола на движење ја редефинираат креацијата на AI видео

Најновото ажурирање на Kuaishou воведува истовремено аудио-визуелно генерирање, прилагодена обука на глас и прецизно фаќање движење што би можело да го промени пристапот на креаторите кон AI видео продукција.

Read

Ви се допадна оваа статија?

Дознајте повеќе и бидете во тек со нашата најнова содржина.

ByteDance Vidi2: AI што разбира видео како уредник