Meta Pixel
DamienDamien
7 min read
1322 слів

ByteDance Vidi2: ШІ, що розуміє відео як редактор

ByteDance щойно відкрив вихідний код Vidi2, моделі з 12 мільярдами параметрів, яка розуміє відеовміст настільки добре, що автоматично редагує години матеріалу в відшліфовані кліпи. Вона вже живить TikTok Smart Split.

ByteDance Vidi2: ШІ, що розуміє відео як редактор

Поки всі одержимі генерацією відео, ByteDance тихо вирішив іншу проблему: навчив ШІ розуміти відео як досвідчений редактор. Vidi2 може переглядати години необробленого матеріалу й витягувати саме те, що важливо.

Проблема, про яку ніхто не говорить

У нас зараз є неймовірні ШІ-генератори відео. Runway Gen-4.5 очолює рейтинги якості. Kling O1 генерує синхронізоване аудіо. Але ось брудний секрет відеовиробництва: більшість часу йде на редагування, а не на створення.

Відеооператор весіль знімає 8 годин матеріалу для 5-хвилинного ролика найкращих моментів. Творець контенту записує 45 хвилин, щоб зробити 60-секундний TikTok. Корпоративна команда має 200 годин навчальних відео, похованих у SharePoint.

💡

Генерація відео потрапляє в заголовки. Розуміння відео виконує фактичну роботу.

Vidi2 вирішує цю прогалину. Це не черговий генератор. Це ШІ, який дивиться відео, розуміє, що відбувається, і допомагає вам працювати з цим контентом у масштабі.

Що насправді робить Vidi2

ByteDance описує Vidi2 як "Велику мультимодальну модель для розуміння та створення відео". Модель з 12 мільярдами параметрів чудово справляється з:

🔍

Просторово-часове позиціонування

Знайдіть будь-який об'єкт у відео та відстежуйте його в часі. Не просто "є кіт о 0:32", а "кіт входить о 0:32, переміщується на диван о 0:45 і залишає кадр о 1:12".

✂️

Інтелектуальне редагування

Аналізуйте матеріал і пропонуйте монтажні склейки на основі змісту. Знаходьте найкращі моменти, визначайте межі сцен, розумійте темп.

📝

Аналіз контенту

Описуйте, що відбувається у відео, з достатніми деталями, щоб бути корисним. Не "дві людини розмовляють", а "сегмент інтерв'ю, гість пояснює функції продукту, момент високого залучення о 3:45".

🎯

Відстеження об'єктів

Відстежуйте об'єкти як безперервні "труби" через відео, навіть коли вони виходять і повертаються в кадр. Це дозволяє точний вибір для ефектів, видалення або акценту.

Технічна інновація: просторово-часове позиціонування

Попередні відео-ШІ працювали в двох вимірах: простір (що є в цьому кадрі) або час (коли щось відбувається). Vidi2 поєднує обидва в те, що ByteDance називає "просторово-часовим позиціонуванням" (STG).

Традиційний підхід:

  • Просторовий: "Автомобіль знаходиться за координатами пікселів (450, 320)"
  • Часовий: "Автомобіль з'являється в часовій мітці 0:15"
  • Результат: роз'єднана інформація, що вимагає ручної кореляції

Vidi2 STG:

  • Комбінований: "Червоний автомобіль знаходиться в (450, 320) о 0:15, переміщується до (890, 340) о 0:18, виїжджає праворуч о 0:22"
  • Результат: повна траєкторія об'єкта через простір і час

Це важливо, тому що реальні завдання редагування потребують обох вимірів. "Видалити штангу мікрофона" потрібно знати, де вона з'являється (просторово) і як довго (часово). Vidi2 обробляє це як один запит.

Бенчмарки: перемога над гігантами

12B
Параметрів
#1
Розуміння відео
Відкритий
Джерело

Ось де стає цікаво. На бенчмарку ByteDance VUE-STG для просторово-часового позиціонування Vidi2 перевершує як Gemini 2.0 Flash, так і GPT-4o, незважаючи на меншу кількість параметрів, ніж у обох.

💡

Застереження: ці бенчмарки були створені ByteDance. Незалежна перевірка на сторонніх бенчмарках посилила б ці твердження. При цьому підхід спеціалізованої архітектури є обґрунтованим.

Результати бенчмарку показують, що розуміння відео більше виграє від спеціалізованого дизайну, ніж від чистого масштабу. Модель, побудована для відео з нуля, може перевершити більші моделі загального призначення, які розглядають відео як розширення розуміння зображень.

Вже у виробництві: TikTok Smart Split

Це не паперова розробка. Vidi2 живить функцію TikTok "Smart Split", яка:

  • Автоматично витягує найкращі моменти з довгих відео
  • Генерує субтитри, синхронізовані з мовленням
  • Реконструює макет для різних співвідношень сторін
  • Визначає оптимальні точки склейки на основі змісту

Мільйони творців використовують Smart Split щодня. Модель доведена в масштабі, не теоретично.

Відкритий код: запустіть самі

ByteDance випустив Vidi2 на GitHub під ліцензією CC BY-NC 4.0. Це означає безкоштовно для досліджень, освіти та особистих проектів, але комерційне використання потребує окремого ліцензування. Наслідки:

Для розробників:

  • Будуйте власні конвеєри аналізу відео
  • Інтегруйте розуміння в існуючі інструменти
  • Тонко налаштовуйте для конкретних доменів
  • Ніяких витрат на API у масштабі

Для підприємств:

  • Обробляйте конфіденційний матеріал локально
  • Будуйте власні робочі процеси редагування
  • Уникайте прив'язки до постачальника
  • Налаштовуйте під внутрішні типи контенту

Випуск з відкритим кодом відповідає патерну, який ми бачили з LTX Video та іншими китайськими ШІ-лабораторіями: випуск потужних моделей відкрито, тоді як західні конкуренти тримають свої закритими.

Практичні застосування

Дозвольте мені пройтися по деяких реальних робочих процесах, які дозволяє Vidi2:

Переробка контенту

Вхід: 2-годинний запис подкасту Вихід: 10 коротких кліпів найкращих моментів, кожен з належними вступом/завершенням

Модель визначає цікаві моменти, знаходить природні точки склейки і витягує кліпи, які працюють як окремий контент.

Управління навчальними відео

Вхід: 500 годин корпоративного навчального матеріалу Запит: "Знайти всі сегменти, що пояснюють новий робочий процес CRM"

Замість ручного перегляду або покладання на ненадійні метадані, Vidi2 фактично дивиться і розуміє вміст.

Спортивні хайлайти

Вхід: повний запис матчу Вихід: ролик найкращих моментів з усіма голами, спірними моментами та святкуваннями

Модель розуміє спортивний контекст достатньо добре, щоб визначити значущі моменти, а не просто рух.

Перегляд спостереження

Вхід: 24 години матеріалу з камер спостереження Запит: "Знайти всі випадки входу людей через бічні двері після 18:00"

Просторово-часове позиціонування означає точні відповіді з точними часовими мітками та локаціями.

Як це порівнюється з моделями генерації

Розуміння відео (Vidi2)
  • Працює з існуючим матеріалом
  • Економить час редагування, а не генерації
  • Масштабується до величезних відеобібліотек
  • Не потрібні творчі запити
  • Практично для підприємств негайно
Генерація відео (Runway, Sora)
  • Створює новий контент з нічого
  • Інструмент творчого вираження
  • Застосування в маркетингу та рекламі
  • Швидко зростаюча якість
  • Захоплююче, але інший випадок використання

Це не конкуруючі технології. Вони вирішують різні проблеми. Повний робочий процес ШІ-відео потребує обох: генерації для створення нового контенту, розуміння для роботи з існуючим контентом.

Загальна картина

⚠️

Розуміння відео - це місце, де ШІ переходить від "вражаючого демо" до "щоденного інструменту". Генерація привертає увагу. Розуміння виконує роботу.

Подумайте, що це дозволяє:

  • Кожне підприємство має відеоконтент, заблокований в архівах
  • Кожен творець витрачає більше часу на редагування, ніж на зйомку
  • Кожна платформа потребує кращої модерації контенту та виявлення
  • Кожен дослідник має матеріал, який не може ефективно проаналізувати

Vidi2 вирішує все це. Випуск з відкритим кодом означає, що ці можливості тепер доступні кожному з достатніми обчисленнями.

Початок роботи

Модель доступна на GitHub з документацією та демо. Вимоги:

  • NVIDIA GPU з принаймні 24GB VRAM для повної моделі
  • Доступні квантизовані версії для менших GPU
  • Python 3.10+ з PyTorch 2.0+

Швидкий старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Документація в основному англійською, незважаючи на те, що ByteDance - китайська компанія, що відображає глобальну цільову аудиторію.

Що це означає для індустрії

Ландшафт ШІ-відео тепер має дві окремі траси:

ТрасаЛідериФокусЦінність
ГенераціяRunway, Sora, Veo, KlingСтворити нове відеоТворче вираження
РозумінняVidi2, (інші з'являються)Аналізувати існуюче відеоПродуктивність

Обидва дозріватимуть. Обидва інтегруватимуться. Повний стек ШІ-відео 2026 року генеруватиме, редагуватиме та розумітиме безшовно.

Наразі Vidi2 представляє найбільш здатний варіант з відкритим кодом для розуміння відео. Якщо у вас є матеріал для аналізу, редагування для автоматизації або контент для організації, це модель для дослідження.

Моя думка

Я витратив роки на створення конвеєрів обробки відео. До і після з моделями як Vidi2 різко відрізняються. Завдання, що вимагали власних стеків комп'ютерного зору, ручної анотації та крихких евристик, тепер можна вирішити за допомогою запиту.

💡

Найкращі інструменти ШІ не замінюють людське судження. Вони усувають нудну роботу, що заважає людям застосовувати судження в масштабі.

Vidi2 не замінює редакторів. Він дає редакторам можливості, які раніше були неможливі в масштабі. І з відкритим доступом (для некомерційного використання) ці можливості доступні кожному, хто бажає налаштувати інфраструктуру.

Майбутнє відео - це не тільки генерація. Це розуміння. І це майбутнє тепер з відкритим кодом.


Джерела

Ця стаття була корисною?

Damien

Damien

Розробник ШІ

Розробник ШІ з Ліона, який любить перетворювати складні концепції машинного навчання на прості рецепти. Коли не налагоджує моделі, ви знайдете його на велосипеді в долині Рони.

Схожі статті

Продовжуйте дослідження з цими схожими публікаціями

Сподобалась ця стаття?

Дізнавайтеся більше та слідкуйте за нашими останніми матеріалами.

ByteDance Vidi2: ШІ, що розуміє відео як редактор