ByteDance Vidi2: ШІ, що розуміє відео як редактор

Поки всі одержимі генерацією відео, ByteDance тихо вирішив іншу проблему: навчив ШІ розуміти відео як досвідчений редактор. Vidi2 може переглядати години необробленого матеріалу й витягувати саме те, що важливо.

Проблема, про яку ніхто не говорить

У нас зараз є неймовірні ШІ-генератори відео. Runway Gen-4.5 очолює рейтинги якості. Kling O1 генерує синхронізоване аудіо. Але ось брудний секрет відеовиробництва: більшість часу йде на редагування, а не на створення.

Відеооператор весіль знімає 8 годин матеріалу для 5-хвилинного ролика найкращих моментів. Творець контенту записує 45 хвилин, щоб зробити 60-секундний TikTok. Корпоративна команда має 200 годин навчальних відео, похованих у SharePoint.

💡

Генерація відео потрапляє в заголовки. Розуміння відео виконує фактичну роботу.

Vidi2 вирішує цю прогалину. Це не черговий генератор. Це ШІ, який дивиться відео, розуміє, що відбувається, і допомагає вам працювати з цим контентом у масштабі.

Що насправді робить Vidi2

ByteDance описує Vidi2 як "Велику мультимодальну модель для розуміння та створення відео". Модель з 12 мільярдами параметрів чудово справляється з:

🔍

Просторово-часове позиціонування

Знайдіть будь-який об'єкт у відео та відстежуйте його в часі. Не просто "є кіт о 0:32", а "кіт входить о 0:32, переміщується на диван о 0:45 і залишає кадр о 1:12".

✂️

Інтелектуальне редагування

Аналізуйте матеріал і пропонуйте монтажні склейки на основі змісту. Знаходьте найкращі моменти, визначайте межі сцен, розумійте темп.

📝

Аналіз контенту

Описуйте, що відбувається у відео, з достатніми деталями, щоб бути корисним. Не "дві людини розмовляють", а "сегмент інтерв'ю, гість пояснює функції продукту, момент високого залучення о 3:45".

🎯

Відстеження об'єктів

Відстежуйте об'єкти як безперервні "труби" через відео, навіть коли вони виходять і повертаються в кадр. Це дозволяє точний вибір для ефектів, видалення або акценту.

Технічна інновація: просторово-часове позиціонування

Попередні відео-ШІ працювали в двох вимірах: простір (що є в цьому кадрі) або час (коли щось відбувається). Vidi2 поєднує обидва в те, що ByteDance називає "просторово-часовим позиціонуванням" (STG).

Традиційний підхід:

Просторовий: "Автомобіль знаходиться за координатами пікселів (450, 320)"
Часовий: "Автомобіль з'являється в часовій мітці 0:15"
Результат: роз'єднана інформація, що вимагає ручної кореляції

Vidi2 STG:

Комбінований: "Червоний автомобіль знаходиться в (450, 320) о 0:15, переміщується до (890, 340) о 0:18, виїжджає праворуч о 0:22"
Результат: повна траєкторія об'єкта через простір і час

Це важливо, тому що реальні завдання редагування потребують обох вимірів. "Видалити штангу мікрофона" потрібно знати, де вона з'являється (просторово) і як довго (часово). Vidi2 обробляє це як один запит.

Бенчмарки: перемога над гігантами

12B

Параметрів

Розуміння відео

Відкритий

Джерело

Ось де стає цікаво. На бенчмарку ByteDance VUE-STG для просторово-часового позиціонування Vidi2 перевершує як Gemini 2.0 Flash, так і GPT-4o, незважаючи на меншу кількість параметрів, ніж у обох.

💡

Застереження: ці бенчмарки були створені ByteDance. Незалежна перевірка на сторонніх бенчмарках посилила б ці твердження. При цьому підхід спеціалізованої архітектури є обґрунтованим.

Результати бенчмарку показують, що розуміння відео більше виграє від спеціалізованого дизайну, ніж від чистого масштабу. Модель, побудована для відео з нуля, може перевершити більші моделі загального призначення, які розглядають відео як розширення розуміння зображень.

Вже у виробництві: TikTok Smart Split

Це не паперова розробка. Vidi2 живить функцію TikTok "Smart Split", яка:

✓Автоматично витягує найкращі моменти з довгих відео
✓Генерує субтитри, синхронізовані з мовленням
✓Реконструює макет для різних співвідношень сторін
✓Визначає оптимальні точки склейки на основі змісту

Мільйони творців використовують Smart Split щодня. Модель доведена в масштабі, не теоретично.

Відкритий код: запустіть самі

ByteDance випустив Vidi2 на GitHub під ліцензією CC BY-NC 4.0. Це означає безкоштовно для досліджень, освіти та особистих проектів, але комерційне використання потребує окремого ліцензування. Наслідки:

Для розробників:

Будуйте власні конвеєри аналізу відео
Інтегруйте розуміння в існуючі інструменти
Тонко налаштовуйте для конкретних доменів
Ніяких витрат на API у масштабі

Для підприємств:

Обробляйте конфіденційний матеріал локально
Будуйте власні робочі процеси редагування
Уникайте прив'язки до постачальника
Налаштовуйте під внутрішні типи контенту

Випуск з відкритим кодом відповідає патерну, який ми бачили з LTX Video та іншими китайськими ШІ-лабораторіями: випуск потужних моделей відкрито, тоді як західні конкуренти тримають свої закритими.

Практичні застосування

Дозвольте мені пройтися по деяких реальних робочих процесах, які дозволяє Vidi2:

Переробка контенту

Вхід: 2-годинний запис подкасту Вихід: 10 коротких кліпів найкращих моментів, кожен з належними вступом/завершенням

Модель визначає цікаві моменти, знаходить природні точки склейки і витягує кліпи, які працюють як окремий контент.

Управління навчальними відео

Вхід: 500 годин корпоративного навчального матеріалу Запит: "Знайти всі сегменти, що пояснюють новий робочий процес CRM"

Замість ручного перегляду або покладання на ненадійні метадані, Vidi2 фактично дивиться і розуміє вміст.

Спортивні хайлайти

Вхід: повний запис матчу Вихід: ролик найкращих моментів з усіма голами, спірними моментами та святкуваннями

Модель розуміє спортивний контекст достатньо добре, щоб визначити значущі моменти, а не просто рух.

Перегляд спостереження

Вхід: 24 години матеріалу з камер спостереження Запит: "Знайти всі випадки входу людей через бічні двері після 18:00"

Просторово-часове позиціонування означає точні відповіді з точними часовими мітками та локаціями.

Як це порівнюється з моделями генерації

✓Розуміння відео (Vidi2)

Працює з існуючим матеріалом
Економить час редагування, а не генерації
Масштабується до величезних відеобібліотек
Не потрібні творчі запити
Практично для підприємств негайно

✓Генерація відео (Runway, Sora)

Створює новий контент з нічого
Інструмент творчого вираження
Застосування в маркетингу та рекламі
Швидко зростаюча якість
Захоплююче, але інший випадок використання

Це не конкуруючі технології. Вони вирішують різні проблеми. Повний робочий процес ШІ-відео потребує обох: генерації для створення нового контенту, розуміння для роботи з існуючим контентом.

Загальна картина

⚠️

Розуміння відео - це місце, де ШІ переходить від "вражаючого демо" до "щоденного інструменту". Генерація привертає увагу. Розуміння виконує роботу.

Подумайте, що це дозволяє:

Кожне підприємство має відеоконтент, заблокований в архівах
Кожен творець витрачає більше часу на редагування, ніж на зйомку
Кожна платформа потребує кращої модерації контенту та виявлення
Кожен дослідник має матеріал, який не може ефективно проаналізувати

Vidi2 вирішує все це. Випуск з відкритим кодом означає, що ці можливості тепер доступні кожному з достатніми обчисленнями.

Початок роботи

Модель доступна на GitHub з документацією та демо. Вимоги:

NVIDIA GPU з принаймні 24GB VRAM для повної моделі
Доступні квантизовані версії для менших GPU
Python 3.10+ з PyTorch 2.0+

Швидкий старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Документація в основному англійською, незважаючи на те, що ByteDance - китайська компанія, що відображає глобальну цільову аудиторію.

Що це означає для індустрії

Ландшафт ШІ-відео тепер має дві окремі траси:

Траса	Лідери	Фокус	Цінність
Генерація	Runway, Sora, Veo, Kling	Створити нове відео	Творче вираження
Розуміння	Vidi2, (інші з'являються)	Аналізувати існуюче відео	Продуктивність

Обидва дозріватимуть. Обидва інтегруватимуться. Повний стек ШІ-відео 2026 року генеруватиме, редагуватиме та розумітиме безшовно.

Наразі Vidi2 представляє найбільш здатний варіант з відкритим кодом для розуміння відео. Якщо у вас є матеріал для аналізу, редагування для автоматизації або контент для організації, це модель для дослідження.

Моя думка

Я витратив роки на створення конвеєрів обробки відео. До і після з моделями як Vidi2 різко відрізняються. Завдання, що вимагали власних стеків комп'ютерного зору, ручної анотації та крихких евристик, тепер можна вирішити за допомогою запиту.

💡

Найкращі інструменти ШІ не замінюють людське судження. Вони усувають нудну роботу, що заважає людям застосовувати судження в масштабі.

Vidi2 не замінює редакторів. Він дає редакторам можливості, які раніше були неможливі в масштабі. І з відкритим доступом (для некомерційного використання) ці можливості доступні кожному, хто бажає налаштувати інфраструктуру.

Майбутнє відео - це не тільки генерація. Це розуміння. І це майбутнє тепер з відкритим кодом.