ByteDance Vidi2: ИИ, който разбира видео като редактор
ByteDance току-що пусна отворен код на Vidi2 - модел с 12 милиарда параметъра, който разбира видео съдържанието толкова добре, че автоматично редактира часове материал в изчистени клипове. Вече захранва TikTok Smart Split.

Докато всички се обсебват с видео генериране, ByteDance тихо реши друг проблем: да накара ИИ да разбира видео като опитен редактор. Vidi2 може да гледа часове суров материал и да извлече точно това, което има значение.
Проблемът, за който никой не говори
Имаме невероятни ИИ видео генератори сега. Runway Gen-4.5 е начело по качество. Kling O1 генерира синхронизиран звук. Но ето мръсната тайна на видео продукцията: повечето време отива за редактиране, не за създаване.
Сватбен видеограф снима 8 часа за 5-минутен сбор от най-доброто. Създател на съдържание записва 45 минути, за да направи 60-секунден TikTok. Екип в компания има 200 часа обучителен материал, заровен в SharePoint.
Видео генерирането взима заглавията. Разбирането на видео свършва действителната работа.
Vidi2 запълва тази празнина. Не е поредният генератор. Това е ИИ, който гледа видео, разбира какво се случва и ти помага да работиш с това съдържание в мащаб.
Какво всъщност прави Vidi2
ByteDance описва Vidi2 като "голям мултимодален модел за разбиране и създаване на видео." Моделът с 12 милиарда параметъра се откроява в:
Пространствено-времево определяне
Намери всеки обект във видео и го проследи във времето. Не просто "има котка на 0:32", а "котката влиза на 0:32, движи се към дивана на 0:45 и напуска кадъра на 1:12."
Интелигентно редактиране
Анализирай материала и предложи разрези според съдържанието. Намери най-добрите моменти, определи границите на сцени, разбери темпото.
Анализ на съдържание
Опиши какво се случва във видеото с достатъчно детайли, за да е полезно. Не "двама души говорят", а "интервю сегмент, гост обяснява характеристиките на продукта, момент с висока ангажираност на 3:45."
Проследяване на обекти
Проследявай обекти като непрекъснати "тръби" през видеото, дори когато излизат и влизат отново в кадъра. Това дава прецизно избиране за ефекти, премахване или акцент.
Техническата иновация: пространствено-времево определяне
Предишните видео ИИ работеха в два измерения: пространство (какво е в този кадър) или време (кога се случва нещо). Vidi2 комбинира и двете в това, което ByteDance нарича "пространствено-времево определяне" (STG).
Традиционен подход:
- Пространствен: "Колата е на пикселни координати (450, 320)"
- Временен: "Кола се появява на таймстамп 0:15"
- Резултат: Разединена информация, изискваща ръчна корелация
Vidi2 STG:
- Комбиниран: "Червената кола е на (450, 320) на 0:15, движи се до (890, 340) на 0:18, излиза вдясно на 0:22"
- Резултат: Пълна траектория на обекта през пространство и време
Това има значение, защото реалните задачи за редактиране изискват и двата измерения. "Премахни микрофона" трябва да знае къде се появява (пространствено) и колко дълго (временно). Vidi2 се справя с това като единна заявка.
Тестове: надминаване на гигантите
Тук става интересно. На теста VUE-STG на ByteDance за пространствено-времево определяне, Vidi2 изпреварва и Gemini 2.0 Flash, и GPT-4o, въпреки че има по-малко параметри от двата.
Предупреждение: тези тестове са създадени от ByteDance. Независима проверка на тестове от трета страна би укрепила тези твърдения. Въпреки това, подходът със специализирана архитектура е основателен.
Резултатите от тестовете показват, че разбирането на видео се възползва повече от специализиран дизайн, отколкото от голям мащаб. Модел, построен за видео от основите, може да надмине по-големи общи модели, които третират видеото като разширение на разбирането на изображения.
Вече в продукция: TikTok Smart Split
Това не е празна дума. Vidi2 захранва функцията "Smart Split" на TikTok, която:
- ✓Автоматично извлича акценти от дълги видеа
- ✓Генерира субтитри, синхронизирани с речта
- ✓Реконструира оформлението за различни съотношения на страни
- ✓Определя оптимални точки за рязане според съдържанието
Милиони създатели използват Smart Split ежедневно. Моделът е доказан в мащаб, не теоретичен.
Отворен код: пусни го сам
ByteDance пусна Vidi2 в GitHub под лиценз CC BY-NC 4.0. Това означава безплатно за изследвания, образование и лични проекти, но търговската употреба изисква отделен лиценз. Последиците:
За разработчици:
- Изгради персонализирани конвейери за видео анализ
- Интегрирай разбиране в съществуващи инструменти
- Фина настройка за специфични области
- Без API разходи в мащаб
За компании:
- Обработвай чувствителен материал локално
- Изгради собствени работни процеси за редактиране
- Избегни зависимост от доставчици
- Персонализирай за вътрешни типове съдържание
Пускането с отворен код следва шаблон, който видяхме с LTX Video и други китайски ИИ лаборатории: пускане на мощни модели открито, докато западните конкуренти пазят своите частни.
Практически приложения
Нека разгледам някои реални работни процеси, които Vidi2 дава:
Препакетиране на съдържание
Вход: 2-часов запис на подкаст Изход: 10 кратки клипа от най-добрите моменти, всеки с правилно начало/край
Моделът определя ангажиращи моменти, намира естествени точки за рязане и извлича клипове, които работят като самостоятелно съдържание.
Управление на обучителни видеа
Вход: 500 часа корпоративен обучителен материал Заявка: "Намери всички сегменти, обясняващи новия CRM работен процес"
Вместо ръчно превъртане или разчитане на ненадеждни метаданни, Vidi2 наистина гледа и разбира съдържанието.
Как се сравнява с моделите за генериране
- Работи със съществуващ материал
- Спестява време за редактиране, не за генериране
- Мащабира се до масивни видео библиотеки
- Не изисква творчески подсказки
- Практично за компании веднага
- Създава ново съдържание от нищото
- Инструмент за творческо изразяване
- Приложения за маркетинг и реклама
- Качеството расте бързо
- Вълнуващо, но различен случай на употреба
Това не са конкуриращи се технологии. Те решават различни проблеми. Пълен ИИ видео работен процес се нуждае и от двете: генериране за създаване на ново съдържание, разбиране за работа със съществуващо съдържание.
Спортни акценти
Вход: Запис на цял мач Изход: Сбор с всички голове, близки моменти и празненства
Моделът разбира спортния контекст достатъчно добре, за да определи значими моменти, не просто движение.
Преглед на наблюдение
Вход: 24 часа записи от охрана Заявка: "Намери всички случаи на хора, влизащи през страничната врата след 18:00"
Пространствено-временото определяне означава прецизни отговори с точни таймстампове и локации.
По-голямата картина
Разбирането на видео е където ИИ преминава от "впечатляващо демо" към "ежедневен инструмент." Генерирането привлича внимание. Разбирането свършва работата.
Помисли какво това дава:
- Всяка компания има видео съдържание, заключено в архиви
- Всеки създател прекарва повече време в редактиране, отколкото в снимане
- Всяка платформа се нуждае от по-добра модерация и откриване на съдържание
- Всеки изследовател има материал, който не може ефективно да анализира
Vidi2 решава всичко това. Пускането с отворен код означава, че тези възможности вече са достъпни за всеки с достатъчно изчислителна мощ.
Започване
Моделът е наличен в GitHub с документация и демота. Изисквания:
- NVIDIA GPU с поне 24GB VRAM за пълния модел
- Квантовани версии налични за по-малки GPU
- Python 3.10+ с PyTorch 2.0+
Бърз старт:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Документацията е основно на английски, въпреки че ByteDance е китайска компания, отразявайки глобалната целева аудитория.
Какво означава това за индустрията
Пейзажът на ИИ видео сега има две различни направления:
| Направление | Лидери | Фокус | Стойност |
|---|---|---|---|
| Генериране | Runway, Sora, Veo, Kling | Създаване на ново видео | Творческо изразяване |
| Разбиране | Vidi2, (други възникващи) | Анализ на съществуващо видео | Продуктивност |
И двете ще узреят. И двете ще се интегрират. Пълният ИИ видео стек от 2026 ще генерира, редактира и разбира безпроблемно.
Засега Vidi2 представлява най-способният отворен вариант за разбиране на видео. Ако имаш материал за анализ, редактиране за автоматизиране или съдържание за организиране, това е моделът за изследване.
Моето мнение
Прекарах години в изграждане на конвейери за видео обработка. Разликата преди и след с модели като Vidi2 е рязка. Задачи, които изискваха персонализирани стекове за компютърно зрение, ръчна анотация и чупливи евристики, сега могат да се решат с подсказка.
Най-добрите ИИ инструменти не заместват човешката преценка. Те премахват досадната работа, която пречи на хората да прилагат преценка в мащаб.
Vidi2 не заменя редакторите. Дава на редакторите възможности, които преди бяха невъзможни в мащаб. И с отворен достъп (за некомерсиална употреба), тези възможности са на разположение на всеки, готов да настрои инфраструктурата.
Бъдещето на видеото не е само генериране. То е разбиране. И това бъдеще сега е отворен код.
Източници
Беше ли полезна тази статия?

Damien
Разработчик на изкуствен интелектРазработчик на изкуствен интелект от Лион, който обича да превръща сложни ML концепции в прости рецепти. Когато не отстранява грешки в модели, ще го намерите да кара колело в долината на Рона.
Свързани статии
Продължете да изследвате със свързаните публикации

Kandinsky 5.0: Руският отговор с отворен код на генерирането на видео с AI
Kandinsky 5.0 предлага генериране на 10-секундно видео на потребителски GPU с Apache 2.0 лиценз. Разглеждаме как NABLA attention и flow matching правят това възможно.

ByteDance Seedance 1.5 Pro: моделът, който генерира аудио и видео заедно
ByteDance пуска Seedance 1.5 Pro с нативна аудио-визуална генерация, кинематографски камерни контроли и многоезична синхронизация на устните. Достъпен безплатно в CapCut.

Революцията в AI видеото с отворен код: Могат ли потребителските GPU да се конкурират с технологичните гиганти?
ByteDance и Tencent току-що пуснаха видео модели с отворен код, които работят на потребителски хардуер. Това променя всичко за независимите създатели.