Meta Pixel
DamienDamien
7 min read
1399 думи

ByteDance Vidi2: ИИ, който разбира видео като редактор

ByteDance току-що пусна отворен код на Vidi2 - модел с 12 милиарда параметъра, който разбира видео съдържанието толкова добре, че автоматично редактира часове материал в изчистени клипове. Вече захранва TikTok Smart Split.

ByteDance Vidi2: ИИ, който разбира видео като редактор

Докато всички се обсебват с видео генериране, ByteDance тихо реши друг проблем: да накара ИИ да разбира видео като опитен редактор. Vidi2 може да гледа часове суров материал и да извлече точно това, което има значение.

Проблемът, за който никой не говори

Имаме невероятни ИИ видео генератори сега. Runway Gen-4.5 е начело по качество. Kling O1 генерира синхронизиран звук. Но ето мръсната тайна на видео продукцията: повечето време отива за редактиране, не за създаване.

Сватбен видеограф снима 8 часа за 5-минутен сбор от най-доброто. Създател на съдържание записва 45 минути, за да направи 60-секунден TikTok. Екип в компания има 200 часа обучителен материал, заровен в SharePoint.

💡

Видео генерирането взима заглавията. Разбирането на видео свършва действителната работа.

Vidi2 запълва тази празнина. Не е поредният генератор. Това е ИИ, който гледа видео, разбира какво се случва и ти помага да работиш с това съдържание в мащаб.

Какво всъщност прави Vidi2

ByteDance описва Vidi2 като "голям мултимодален модел за разбиране и създаване на видео." Моделът с 12 милиарда параметъра се откроява в:

🔍

Пространствено-времево определяне

Намери всеки обект във видео и го проследи във времето. Не просто "има котка на 0:32", а "котката влиза на 0:32, движи се към дивана на 0:45 и напуска кадъра на 1:12."

✂️

Интелигентно редактиране

Анализирай материала и предложи разрези според съдържанието. Намери най-добрите моменти, определи границите на сцени, разбери темпото.

📝

Анализ на съдържание

Опиши какво се случва във видеото с достатъчно детайли, за да е полезно. Не "двама души говорят", а "интервю сегмент, гост обяснява характеристиките на продукта, момент с висока ангажираност на 3:45."

🎯

Проследяване на обекти

Проследявай обекти като непрекъснати "тръби" през видеото, дори когато излизат и влизат отново в кадъра. Това дава прецизно избиране за ефекти, премахване или акцент.

Техническата иновация: пространствено-времево определяне

Предишните видео ИИ работеха в два измерения: пространство (какво е в този кадър) или време (кога се случва нещо). Vidi2 комбинира и двете в това, което ByteDance нарича "пространствено-времево определяне" (STG).

Традиционен подход:

  • Пространствен: "Колата е на пикселни координати (450, 320)"
  • Временен: "Кола се появява на таймстамп 0:15"
  • Резултат: Разединена информация, изискваща ръчна корелация

Vidi2 STG:

  • Комбиниран: "Червената кола е на (450, 320) на 0:15, движи се до (890, 340) на 0:18, излиза вдясно на 0:22"
  • Резултат: Пълна траектория на обекта през пространство и време

Това има значение, защото реалните задачи за редактиране изискват и двата измерения. "Премахни микрофона" трябва да знае къде се появява (пространствено) и колко дълго (временно). Vidi2 се справя с това като единна заявка.

Тестове: надминаване на гигантите

12B
Параметри
#1
Разбиране на видео
Отворен
Код

Тук става интересно. На теста VUE-STG на ByteDance за пространствено-времево определяне, Vidi2 изпреварва и Gemini 2.0 Flash, и GPT-4o, въпреки че има по-малко параметри от двата.

💡

Предупреждение: тези тестове са създадени от ByteDance. Независима проверка на тестове от трета страна би укрепила тези твърдения. Въпреки това, подходът със специализирана архитектура е основателен.

Резултатите от тестовете показват, че разбирането на видео се възползва повече от специализиран дизайн, отколкото от голям мащаб. Модел, построен за видео от основите, може да надмине по-големи общи модели, които третират видеото като разширение на разбирането на изображения.

Вече в продукция: TikTok Smart Split

Това не е празна дума. Vidi2 захранва функцията "Smart Split" на TikTok, която:

  • Автоматично извлича акценти от дълги видеа
  • Генерира субтитри, синхронизирани с речта
  • Реконструира оформлението за различни съотношения на страни
  • Определя оптимални точки за рязане според съдържанието

Милиони създатели използват Smart Split ежедневно. Моделът е доказан в мащаб, не теоретичен.

Отворен код: пусни го сам

ByteDance пусна Vidi2 в GitHub под лиценз CC BY-NC 4.0. Това означава безплатно за изследвания, образование и лични проекти, но търговската употреба изисква отделен лиценз. Последиците:

За разработчици:

  • Изгради персонализирани конвейери за видео анализ
  • Интегрирай разбиране в съществуващи инструменти
  • Фина настройка за специфични области
  • Без API разходи в мащаб

За компании:

  • Обработвай чувствителен материал локално
  • Изгради собствени работни процеси за редактиране
  • Избегни зависимост от доставчици
  • Персонализирай за вътрешни типове съдържание

Пускането с отворен код следва шаблон, който видяхме с LTX Video и други китайски ИИ лаборатории: пускане на мощни модели открито, докато западните конкуренти пазят своите частни.

Практически приложения

Нека разгледам някои реални работни процеси, които Vidi2 дава:

Препакетиране на съдържание

Вход: 2-часов запис на подкаст Изход: 10 кратки клипа от най-добрите моменти, всеки с правилно начало/край

Моделът определя ангажиращи моменти, намира естествени точки за рязане и извлича клипове, които работят като самостоятелно съдържание.

Управление на обучителни видеа

Вход: 500 часа корпоративен обучителен материал Заявка: "Намери всички сегменти, обясняващи новия CRM работен процес"

Вместо ръчно превъртане или разчитане на ненадеждни метаданни, Vidi2 наистина гледа и разбира съдържанието.

Как се сравнява с моделите за генериране

Разбиране на видео (Vidi2)
  • Работи със съществуващ материал
  • Спестява време за редактиране, не за генериране
  • Мащабира се до масивни видео библиотеки
  • Не изисква творчески подсказки
  • Практично за компании веднага
Видео генериране (Runway, Sora)
  • Създава ново съдържание от нищото
  • Инструмент за творческо изразяване
  • Приложения за маркетинг и реклама
  • Качеството расте бързо
  • Вълнуващо, но различен случай на употреба

Това не са конкуриращи се технологии. Те решават различни проблеми. Пълен ИИ видео работен процес се нуждае и от двете: генериране за създаване на ново съдържание, разбиране за работа със съществуващо съдържание.

Спортни акценти

Вход: Запис на цял мач Изход: Сбор с всички голове, близки моменти и празненства

Моделът разбира спортния контекст достатъчно добре, за да определи значими моменти, не просто движение.

Преглед на наблюдение

Вход: 24 часа записи от охрана Заявка: "Намери всички случаи на хора, влизащи през страничната врата след 18:00"

Пространствено-временото определяне означава прецизни отговори с точни таймстампове и локации.

По-голямата картина

⚠️

Разбирането на видео е където ИИ преминава от "впечатляващо демо" към "ежедневен инструмент." Генерирането привлича внимание. Разбирането свършва работата.

Помисли какво това дава:

  • Всяка компания има видео съдържание, заключено в архиви
  • Всеки създател прекарва повече време в редактиране, отколкото в снимане
  • Всяка платформа се нуждае от по-добра модерация и откриване на съдържание
  • Всеки изследовател има материал, който не може ефективно да анализира

Vidi2 решава всичко това. Пускането с отворен код означава, че тези възможности вече са достъпни за всеки с достатъчно изчислителна мощ.

Започване

Моделът е наличен в GitHub с документация и демота. Изисквания:

  • NVIDIA GPU с поне 24GB VRAM за пълния модел
  • Квантовани версии налични за по-малки GPU
  • Python 3.10+ с PyTorch 2.0+

Бърз старт:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Документацията е основно на английски, въпреки че ByteDance е китайска компания, отразявайки глобалната целева аудитория.

Какво означава това за индустрията

Пейзажът на ИИ видео сега има две различни направления:

НаправлениеЛидериФокусСтойност
ГенериранеRunway, Sora, Veo, KlingСъздаване на ново видеоТворческо изразяване
РазбиранеVidi2, (други възникващи)Анализ на съществуващо видеоПродуктивност

И двете ще узреят. И двете ще се интегрират. Пълният ИИ видео стек от 2026 ще генерира, редактира и разбира безпроблемно.

Засега Vidi2 представлява най-способният отворен вариант за разбиране на видео. Ако имаш материал за анализ, редактиране за автоматизиране или съдържание за организиране, това е моделът за изследване.

Моето мнение

Прекарах години в изграждане на конвейери за видео обработка. Разликата преди и след с модели като Vidi2 е рязка. Задачи, които изискваха персонализирани стекове за компютърно зрение, ръчна анотация и чупливи евристики, сега могат да се решат с подсказка.

💡

Най-добрите ИИ инструменти не заместват човешката преценка. Те премахват досадната работа, която пречи на хората да прилагат преценка в мащаб.

Vidi2 не заменя редакторите. Дава на редакторите възможности, които преди бяха невъзможни в мащаб. И с отворен достъп (за некомерсиална употреба), тези възможности са на разположение на всеки, готов да настрои инфраструктурата.

Бъдещето на видеото не е само генериране. То е разбиране. И това бъдеще сега е отворен код.


Източници

Беше ли полезна тази статия?

Damien

Damien

Разработчик на изкуствен интелект

Разработчик на изкуствен интелект от Лион, който обича да превръща сложни ML концепции в прости рецепти. Когато не отстранява грешки в модели, ще го намерите да кара колело в долината на Рона.

Свързани статии

Продължете да изследвате със свързаните публикации

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

ByteDance Vidi2: ИИ, който разбира видео като редактор