Meta Pixel
DamienDamien
7 min read
1301 слов

ByteDance Vidi2: ИИ, который понимает видео как редактор

ByteDance опубликовала в открытом доступе Vidi2 - модель с 12 миллиардами параметров, которая достаточно хорошо понимает видеоконтент, чтобы автоматически монтировать часы материала в готовые клипы. Уже используется в TikTok Smart Split.

ByteDance Vidi2: ИИ, который понимает видео как редактор

Пока все помешаны на генерации видео, ByteDance незаметно решила другую проблему: научить ИИ понимать видео как опытный монтажер. Vidi2 может просмотреть часы сырого материала и извлечь именно то, что нужно.

Проблема, о которой никто не говорит

Сейчас есть невероятные ИИ-генераторы видео. Runway Gen-4.5 возглавляет рейтинги качества. Kling O1 генерирует синхронизированный звук. Но вот грязный секрет видеопроизводства: большая часть времени уходит на монтаж, а не на создание.

Свадебный видеооператор снимает 8 часов материала для 5-минутного ролика с лучшими моментами. Контент-мейкер записывает 45 минут, чтобы сделать 60-секундный TikTok. Корпоративная команда имеет 200 часов обучающих материалов, зарытых в SharePoint.

💡

Генерация видео получает заголовки. Понимание видео делает реальную работу.

Vidi2 закрывает этот пробел. Это не очередной генератор. Это ИИ, который смотрит видео, понимает, что происходит, и помогает работать с этим контентом в масштабе.

Что реально делает Vidi2

ByteDance описывает Vidi2 как "большую мультимодальную модель для понимания и создания видео". Модель с 12 миллиардами параметров преуспевает в:

🔍

Пространственно-временная привязка

Найти любой объект в видео и отследить его во времени. Не просто "кошка в кадре в 0:32", а "кошка входит в 0:32, перемещается на диван в 0:45 и выходит из кадра в 1:12".

✂️

Интеллектуальный монтаж

Анализировать материал и предлагать монтажные склейки на основе содержания. Находить лучшие моменты, определять границы сцен, понимать темпоритм.

📝

Анализ контента

Описывать происходящее в видео с достаточной детализацией, чтобы быть полезным. Не "два человека разговаривают", а "сегмент интервью, гость объясняет характеристики продукта, момент высокой вовлечённости в 3:45".

🎯

Отслеживание объектов

Отслеживать объекты как непрерывные "трубы" через видео, даже когда они выходят из кадра и возвращаются. Это позволяет точно выделять объекты для эффектов, удаления или акцентирования.

Техническая инновация: пространственно-временная привязка

Предыдущий видео-ИИ работал в двух измерениях: пространство (что в этом кадре) или время (когда что-то происходит). Vidi2 объединяет оба в то, что ByteDance называет "пространственно-временной привязкой" (STG).

Традиционный подход:

  • Пространственно: "Машина находится в пиксельных координатах (450, 320)"
  • Временно: "Машина появляется в таймкоде 0:15"
  • Результат: Разрозненная информация, требующая ручной корреляции

Vidi2 STG:

  • Комбинированно: "Красная машина находится в (450, 320) в 0:15, перемещается в (890, 340) в 0:18, выезжает вправо в 0:22"
  • Результат: Полная траектория объекта в пространстве и времени

Это важно, потому что реальные задачи монтажа требуют обоих измерений. "Убрать микрофон-удочку" нужно знать, где он появляется (пространственно) и как долго (временно). Vidi2 обрабатывает это как единый запрос.

Бенчмарки: обгоняя гигантов

12B
Параметры
#1
Понимание видео
Open
Source

Вот где становится интересно. На бенчмарке VUE-STG от ByteDance для пространственно-временной привязки Vidi2 превосходит и Gemini 2.0 Flash, и GPT-4o, несмотря на меньшее количество параметров.

💡

Нюанс: эти бенчмарки созданы самой ByteDance. Независимая проверка на сторонних бенчмарках усилила бы эти утверждения. Тем не менее, подход со специализированной архитектурой разумен.

Результаты бенчмарков показывают, что понимание видео выигрывает больше от специализированного дизайна, чем от простого масштаба. Модель, построенная для видео с нуля, может превзойти более крупные универсальные модели, которые рассматривают видео как расширение понимания изображений.

Уже в продакшене: TikTok Smart Split

Это не вапорвар. Vidi2 работает в функции TikTok "Smart Split", которая:

  • Автоматически извлекает интересные моменты из длинных видео
  • Генерирует субтитры, синхронизированные с речью
  • Перестраивает компоновку для разных соотношений сторон
  • Определяет оптимальные точки склейки на основе контента

Миллионы создателей используют Smart Split ежедневно. Модель проверена в масштабе, а не теоретически.

Открытый исходный код: запустите сами

ByteDance выпустила Vidi2 на GitHub под лицензией CC BY-NC 4.0. Это означает бесплатно для исследований, образования и личных проектов, но коммерческое использование требует отдельной лицензии. Последствия:

Для разработчиков:

  • Создавать кастомные пайплайны анализа видео
  • Интегрировать понимание в существующие инструменты
  • Дообучать для специфических доменов
  • Без затрат на API в масштабе

Для компаний:

  • Обрабатывать чувствительный материал локально
  • Создавать проприетарные монтажные воркфлоу
  • Избегать vendor lock-in
  • Кастомизировать под внутренние типы контента

Открытый релиз следует паттерну, который мы видели с LTX Video и другими китайскими ИИ-лабораториями: выпуск мощных моделей в открытый доступ, пока западные конкуренты держат свои проприетарными.

Практические применения

Разберу реальные воркфлоу, которые делает возможными Vidi2:

Перепрофилирование контента

Вход: 2-часовая запись подкаста Выход: 10 коротких клипов лучших моментов, каждый с правильными вступлением/заключением

Модель определяет вовлекающие моменты, находит естественные точки склейки и извлекает клипы, которые работают как самостоятельный контент.

Управление обучающими видео

Вход: 500 часов корпоративных обучающих материалов Запрос: "Найди все сегменты, объясняющие новый воркфлоу CRM"

Вместо ручного просмотра или опоры на ненадёжные метаданные, Vidi2 реально смотрит и понимает контент.

Спортивные хайлайты

Вход: Запись полного матча Выход: Подборка лучших моментов со всеми голами, острыми моментами и празднованиями

Модель достаточно хорошо понимает спортивный контекст, чтобы определять значимые моменты, а не просто движение.

Просмотр видеонаблюдения

Вход: 24 часа записи с камер безопасности Запрос: "Найди все случаи, когда люди входили через боковую дверь после 18:00"

Пространственно-временная привязка означает точные ответы с конкретными таймкодами и локациями.

Сравнение с генеративными моделями

Понимание видео (Vidi2)
  • Работает с существующим материалом
  • Экономит время монтажа, не время генерации
  • Масштабируется на огромные видеобиблиотеки
  • Не требует креативного промптинга
  • Практично для бизнеса немедленно
Генерация видео (Runway, Sora)
  • Создаёт новый контент с нуля
  • Инструмент творческого выражения
  • Применения в маркетинге и рекламе
  • Качество быстро растёт
  • Интересный, но другой случай использования

Это не конкурирующие технологии. Они решают разные проблемы. Полноценный ИИ-воркфлоу для видео нужен обеими: генерация для создания нового контента, понимание для работы с существующим.

Общая картина

⚠️

Понимание видео - это то, где ИИ переходит от "впечатляющего демо" к "ежедневному инструменту". Генерация получает внимание. Понимание делает работу.

Подумайте, что это даёт:

  • Каждая компания имеет видеоконтент, запертый в архивах
  • Каждый создатель тратит больше времени на монтаж, чем на съёмку
  • Каждая платформа нуждается в лучшей модерации и обнаружении контента
  • Каждый исследователь имеет материал, который не может эффективно проанализировать

Vidi2 решает всё это. Открытый релиз означает, что эти возможности теперь доступны любому с достаточной вычислительной мощностью.

Начало работы

Модель доступна на GitHub с документацией и демо. Требования:

  • GPU NVIDIA с минимум 24GB VRAM для полной модели
  • Квантованные версии доступны для меньших GPU
  • Python 3.10+ с PyTorch 2.0+

Быстрый старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Документация в основном на английском, несмотря на то что ByteDance - китайская компания, что отражает глобальную целевую аудиторию.

Что это значит для индустрии

Ландшафт ИИ-видео теперь имеет два отдельных трека:

ТрекЛидерыФокусЦенность
ГенерацияRunway, Sora, Veo, KlingСоздать новое видеоТворческое выражение
ПониманиеVidi2, (другие появляются)Анализировать существующее видеоПродуктивность

Оба будут развиваться. Оба будут интегрироваться. Полный ИИ-стек для видео 2026 года будет генерировать, монтировать и понимать бесшовно.

На данный момент Vidi2 представляет самую мощную опенсорсную опцию для понимания видео. Если у вас есть материал для анализа, монтаж для автоматизации или контент для организации - это модель для изучения.

Моё мнение

Я провёл годы, создавая пайплайны обработки видео. Разница "до и после" с моделями вроде Vidi2 поразительна. Задачи, требовавшие кастомных стеков компьютерного зрения, ручной аннотации и хрупкой эвристики, теперь можно решить промптом.

💡

Лучшие ИИ-инструменты не заменяют человеческое суждение. Они убирают рутинную работу, которая мешает людям применять суждение в масштабе.

Vidi2 не заменяет монтажёров. Он даёт монтажёрам возможности, которые раньше были невозможны в масштабе. И с открытым доступом (для некоммерческого использования) эти возможности доступны любому, кто готов настроить инфраструктуру.

Будущее видео - это не только генерация. Это понимание. И это будущее уже в открытом доступе.


Источники

Была ли эта статья полезной?

Damien

Damien

Разработчик ИИ

Разработчик ИИ из Лиона, который любит превращать сложные концепции ML в простые рецепты. Когда не занимается отладкой моделей, его можно найти катающимся на велосипеде по долине Роны.

Похожие статьи

Продолжите изучение с этими статьями

Понравилась статья?

Откройте для себя больше идей и будьте в курсе наших последних публикаций.

ByteDance Vidi2: ИИ, который понимает видео как редактор