ByteDance Vidi2: ШІ, що розуміє відео як редактор
ByteDance щойно відкрив вихідний код Vidi2, моделі з 12 мільярдами параметрів, яка розуміє відеовміст настільки добре, що автоматично редагує години матеріалу в відшліфовані кліпи. Вона вже живить TikTok Smart Split.

Поки всі одержимі генерацією відео, ByteDance тихо вирішив іншу проблему: навчив ШІ розуміти відео як досвідчений редактор. Vidi2 може переглядати години необробленого матеріалу й витягувати саме те, що важливо.
Проблема, про яку ніхто не говорить
У нас зараз є неймовірні ШІ-генератори відео. Runway Gen-4.5 очолює рейтинги якості. Kling O1 генерує синхронізоване аудіо. Але ось брудний секрет відеовиробництва: більшість часу йде на редагування, а не на створення.
Відеооператор весіль знімає 8 годин матеріалу для 5-хвилинного ролика найкращих моментів. Творець контенту записує 45 хвилин, щоб зробити 60-секундний TikTok. Корпоративна команда має 200 годин навчальних відео, похованих у SharePoint.
Генерація відео потрапляє в заголовки. Розуміння відео виконує фактичну роботу.
Vidi2 вирішує цю прогалину. Це не черговий генератор. Це ШІ, який дивиться відео, розуміє, що відбувається, і допомагає вам працювати з цим контентом у масштабі.
Що насправді робить Vidi2
ByteDance описує Vidi2 як "Велику мультимодальну модель для розуміння та створення відео". Модель з 12 мільярдами параметрів чудово справляється з:
Просторово-часове позиціонування
Знайдіть будь-який об'єкт у відео та відстежуйте його в часі. Не просто "є кіт о 0:32", а "кіт входить о 0:32, переміщується на диван о 0:45 і залишає кадр о 1:12".
Інтелектуальне редагування
Аналізуйте матеріал і пропонуйте монтажні склейки на основі змісту. Знаходьте найкращі моменти, визначайте межі сцен, розумійте темп.
Аналіз контенту
Описуйте, що відбувається у відео, з достатніми деталями, щоб бути корисним. Не "дві людини розмовляють", а "сегмент інтерв'ю, гість пояснює функції продукту, момент високого залучення о 3:45".
Відстеження об'єктів
Відстежуйте об'єкти як безперервні "труби" через відео, навіть коли вони виходять і повертаються в кадр. Це дозволяє точний вибір для ефектів, видалення або акценту.
Технічна інновація: просторово-часове позиціонування
Попередні відео-ШІ працювали в двох вимірах: простір (що є в цьому кадрі) або час (коли щось відбувається). Vidi2 поєднує обидва в те, що ByteDance називає "просторово-часовим позиціонуванням" (STG).
Традиційний підхід:
- Просторовий: "Автомобіль знаходиться за координатами пікселів (450, 320)"
- Часовий: "Автомобіль з'являється в часовій мітці 0:15"
- Результат: роз'єднана інформація, що вимагає ручної кореляції
Vidi2 STG:
- Комбінований: "Червоний автомобіль знаходиться в (450, 320) о 0:15, переміщується до (890, 340) о 0:18, виїжджає праворуч о 0:22"
- Результат: повна траєкторія об'єкта через простір і час
Це важливо, тому що реальні завдання редагування потребують обох вимірів. "Видалити штангу мікрофона" потрібно знати, де вона з'являється (просторово) і як довго (часово). Vidi2 обробляє це як один запит.
Бенчмарки: перемога над гігантами
Ось де стає цікаво. На бенчмарку ByteDance VUE-STG для просторово-часового позиціонування Vidi2 перевершує як Gemini 2.0 Flash, так і GPT-4o, незважаючи на меншу кількість параметрів, ніж у обох.
Застереження: ці бенчмарки були створені ByteDance. Незалежна перевірка на сторонніх бенчмарках посилила б ці твердження. При цьому підхід спеціалізованої архітектури є обґрунтованим.
Результати бенчмарку показують, що розуміння відео більше виграє від спеціалізованого дизайну, ніж від чистого масштабу. Модель, побудована для відео з нуля, може перевершити більші моделі загального призначення, які розглядають відео як розширення розуміння зображень.
Вже у виробництві: TikTok Smart Split
Це не паперова розробка. Vidi2 живить функцію TikTok "Smart Split", яка:
- ✓Автоматично витягує найкращі моменти з довгих відео
- ✓Генерує субтитри, синхронізовані з мовленням
- ✓Реконструює макет для різних співвідношень сторін
- ✓Визначає оптимальні точки склейки на основі змісту
Мільйони творців використовують Smart Split щодня. Модель доведена в масштабі, не теоретично.
Відкритий код: запустіть самі
ByteDance випустив Vidi2 на GitHub під ліцензією CC BY-NC 4.0. Це означає безкоштовно для досліджень, освіти та особистих проектів, але комерційне використання потребує окремого ліцензування. Наслідки:
Для розробників:
- Будуйте власні конвеєри аналізу відео
- Інтегруйте розуміння в існуючі інструменти
- Тонко налаштовуйте для конкретних доменів
- Ніяких витрат на API у масштабі
Для підприємств:
- Обробляйте конфіденційний матеріал локально
- Будуйте власні робочі процеси редагування
- Уникайте прив'язки до постачальника
- Налаштовуйте під внутрішні типи контенту
Випуск з відкритим кодом відповідає патерну, який ми бачили з LTX Video та іншими китайськими ШІ-лабораторіями: випуск потужних моделей відкрито, тоді як західні конкуренти тримають свої закритими.
Практичні застосування
Дозвольте мені пройтися по деяких реальних робочих процесах, які дозволяє Vidi2:
Переробка контенту
Вхід: 2-годинний запис подкасту Вихід: 10 коротких кліпів найкращих моментів, кожен з належними вступом/завершенням
Модель визначає цікаві моменти, знаходить природні точки склейки і витягує кліпи, які працюють як окремий контент.
Управління навчальними відео
Вхід: 500 годин корпоративного навчального матеріалу Запит: "Знайти всі сегменти, що пояснюють новий робочий процес CRM"
Замість ручного перегляду або покладання на ненадійні метадані, Vidi2 фактично дивиться і розуміє вміст.
Спортивні хайлайти
Вхід: повний запис матчу Вихід: ролик найкращих моментів з усіма голами, спірними моментами та святкуваннями
Модель розуміє спортивний контекст достатньо добре, щоб визначити значущі моменти, а не просто рух.
Перегляд спостереження
Вхід: 24 години матеріалу з камер спостереження Запит: "Знайти всі випадки входу людей через бічні двері після 18:00"
Просторово-часове позиціонування означає точні відповіді з точними часовими мітками та локаціями.
Як це порівнюється з моделями генерації
- Працює з існуючим матеріалом
- Економить час редагування, а не генерації
- Масштабується до величезних відеобібліотек
- Не потрібні творчі запити
- Практично для підприємств негайно
- Створює новий контент з нічого
- Інструмент творчого вираження
- Застосування в маркетингу та рекламі
- Швидко зростаюча якість
- Захоплююче, але інший випадок використання
Це не конкуруючі технології. Вони вирішують різні проблеми. Повний робочий процес ШІ-відео потребує обох: генерації для створення нового контенту, розуміння для роботи з існуючим контентом.
Загальна картина
Розуміння відео - це місце, де ШІ переходить від "вражаючого демо" до "щоденного інструменту". Генерація привертає увагу. Розуміння виконує роботу.
Подумайте, що це дозволяє:
- Кожне підприємство має відеоконтент, заблокований в архівах
- Кожен творець витрачає більше часу на редагування, ніж на зйомку
- Кожна платформа потребує кращої модерації контенту та виявлення
- Кожен дослідник має матеріал, який не може ефективно проаналізувати
Vidi2 вирішує все це. Випуск з відкритим кодом означає, що ці можливості тепер доступні кожному з достатніми обчисленнями.
Початок роботи
Модель доступна на GitHub з документацією та демо. Вимоги:
- NVIDIA GPU з принаймні 24GB VRAM для повної моделі
- Доступні квантизовані версії для менших GPU
- Python 3.10+ з PyTorch 2.0+
Швидкий старт:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Документація в основному англійською, незважаючи на те, що ByteDance - китайська компанія, що відображає глобальну цільову аудиторію.
Що це означає для індустрії
Ландшафт ШІ-відео тепер має дві окремі траси:
| Траса | Лідери | Фокус | Цінність |
|---|---|---|---|
| Генерація | Runway, Sora, Veo, Kling | Створити нове відео | Творче вираження |
| Розуміння | Vidi2, (інші з'являються) | Аналізувати існуюче відео | Продуктивність |
Обидва дозріватимуть. Обидва інтегруватимуться. Повний стек ШІ-відео 2026 року генеруватиме, редагуватиме та розумітиме безшовно.
Наразі Vidi2 представляє найбільш здатний варіант з відкритим кодом для розуміння відео. Якщо у вас є матеріал для аналізу, редагування для автоматизації або контент для організації, це модель для дослідження.
Моя думка
Я витратив роки на створення конвеєрів обробки відео. До і після з моделями як Vidi2 різко відрізняються. Завдання, що вимагали власних стеків комп'ютерного зору, ручної анотації та крихких евристик, тепер можна вирішити за допомогою запиту.
Найкращі інструменти ШІ не замінюють людське судження. Вони усувають нудну роботу, що заважає людям застосовувати судження в масштабі.
Vidi2 не замінює редакторів. Він дає редакторам можливості, які раніше були неможливі в масштабі. І з відкритим доступом (для некомерційного використання) ці можливості доступні кожному, хто бажає налаштувати інфраструктуру.
Майбутнє відео - це не тільки генерація. Це розуміння. І це майбутнє тепер з відкритим кодом.
Джерела
Ця стаття була корисною?

Damien
Розробник ШІРозробник ШІ з Ліона, який любить перетворювати складні концепції машинного навчання на прості рецепти. Коли не налагоджує моделі, ви знайдете його на велосипеді в долині Рони.
Схожі статті
Продовжуйте дослідження з цими схожими публікаціями

ByteDance Seedance 1.5 Pro: модель, яка генерує аудіо та відео разом
ByteDance випускає Seedance 1.5 Pro з нативною аудіовізуальною генерацією, кінематографічним керуванням камерою та багатомовною синхронізацією губ. Доступний безкоштовно на CapCut.

Kling 2.6: Клонування голосу та контроль руху змiнюють створення AI-вiдео
Останнє оновлення Kuaishou представляє одночасну генерацiю аудiо та вiдео, навчання власних голосiв та точний захват руху, що може змiнити пiдхiд креаторiв до продукцiї AI-вiдео.

MiniMax Hailuo 02: Бюджетна модель генерування відео з Китаю конкурує з гігантами
Hailuo 02 від MiniMax генерує відео конкурентної якості за мізерну частку вартості, з 10 відео за ціну одного кліпу Veo 3. Ось що робить цього китайського претендента вартим уваги.