ByteDance Vidi2: AI, která rozumí videu jako střihač

Zatímco všichni jsou posedlí generováním videa, ByteDance tiše vyřešil jiný problém: naučit AI rozumět videu jako zkušený střihač. Vidi2 dokáže sledovat hodiny surového materiálu a vytáhnout přesně to, na čem záleží.

Problém, o kterém nikdo nemluví

Máme nyní neuvěřitelné AI generátory videa. Runway Gen-4.5 vévodí žebříčkům kvality. Kling O1 generuje synchronizovaný zvuk. Ale tady je špinavé tajemství videoprodukce: většina času jde do střihu, ne do tvorby.

Svatební kameraman natočí 8 hodin materiálu pro 5minutový sestřih nejlepších momentů. Tvůrce obsahu nahraje 45 minut, aby vytvořil 60sekundový TikTok. Podnikový tým má 200 hodin školicích videí pohřbených na SharePointu.

💡

Generování videa dostává titulky. Porozumění videu dělá skutečnou práci.

Vidi2 řeší tuto mezeru. Není to další generátor. Je to AI, která sleduje video, chápe, co se děje, a pomáhá vám s tím obsahem pracovat ve velkém měřítku.

Co Vidi2 skutečně dělá

ByteDance popisuje Vidi2 jako "Large Multimodal Model pro porozumění videu a tvorbu." Model s 12 miliardami parametrů vyniká v:

🔍

Prostorově-časové zakotvení

Najděte jakýkoli objekt ve videu a sledujte ho v čase. Ne jen "tady je kočka v 0:32", ale "kočka vstoupí v 0:32, přesune se k pohovce v 0:45 a opustí záběr v 1:12."

✂️

Inteligentní střih

Analyzujte záběry a navrhněte střihy podle obsahu. Najděte nejlepší momenty, identifikujte hranice scén, pochopte rytmus.

📝

Analýza obsahu

Popište, co se ve videu děje, s dostatečným detailem, aby to bylo užitečné. Ne "dva lidé mluví", ale "rozhovor, host vysvětluje funkce produktu, moment vysokého zapojení v 3:45."

🎯

Sledování objektů

Sledujte objekty jako spojité "trubky" videem, i když opustí záběr a vrátí se zpět. To umožňuje přesný výběr pro efekty, odstranění nebo zdůraznění.

Technická inovace: Prostorově-časové zakotvení

Předchozí video AI fungovaly ve dvou dimenzích: prostor (co je v tomto snímku) nebo čas (kdy se něco stane). Vidi2 kombinuje obojí do toho, čemu ByteDance říká "Spatio-Temporal Grounding" (STG).

Tradiční přístup:

Prostorový: "Auto je na pixelových souřadnicích (450, 320)"
Časový: "Auto se objeví v čase 0:15"
Výsledek: Nepropojené informace vyžadující ruční korelaci

Vidi2 STG:

Kombinované: "Červené auto je na (450, 320) v 0:15, přesune se na (890, 340) v 0:18, opustí záběr vpravo v 0:22"
Výsledek: Kompletní trajektorie objektu prostorem a časem

To je důležité, protože skutečné střihové úlohy vyžadují obě dimenze. "Odstraň tyč s mikrofonem" potřebuje vědět, kde se objevuje (prostorově) a jak dlouho (časově). Vidi2 to zvládá jako jediný dotaz.

Benchmarky: Poráží giganty

12B

Parametrů

Porozumění videu

Open

Source

Tady to začíná být zajímavé. V ByteDance benchmarku VUE-STG pro prostorově-časové zakotvení Vidi2 překonává Gemini 2.0 Flash i GPT-4o, přestože má méně parametrů než oba.

💡

Výhrada: tyto benchmarky vytvořil ByteDance. Nezávislé ověření na benchmarcích třetích stran by tato tvrzení posílilo. To řečeno, přístup specializované architektury je správný.

Výsledky benchmarků naznačují, že porozumění videu těží ze specializovaného designu více než z čisté velikosti. Model postavený pro video od začátku může překonat větší univerzální modely, které zacházejí s videem jako s rozšířením porozumění obrázkům.

Již v produkci: TikTok Smart Split

Tohle není vaporware. Vidi2 pohání funkci TikTok "Smart Split", která:

✓Automaticky extrahuje nejlepší momenty z dlouhých videí
✓Generuje titulky synchronizované s řečí
✓Rekonstruuje rozložení pro různé poměry stran
✓Identifikuje optimální body střihu podle obsahu

Miliony tvůrců používají Smart Split denně. Model je ověřený ve velkém měřítku, ne teoretický.

Open Source: Spusťte si ho sami

ByteDance uvolnil Vidi2 na GitHubu pod licencí CC BY-NC 4.0. To znamená zdarma pro výzkum, vzdělávání a osobní projekty, ale komerční použití vyžaduje samostatnou licenci. Důsledky:

Pro vývojáře:

Vytvářejte vlastní video analytické pipeline
Integrujte porozumění do existujících nástrojů
Dolaďte pro konkrétní domény
Žádné náklady API ve velkém měřítku

Pro podniky:

Zpracovávejte citlivý materiál lokálně
Vytvářejte proprietární střihové workflow
Vyhněte se vendor lock-in
Přizpůsobte pro interní typy obsahu

Open-source vydání následuje vzorec, který jsme viděli s LTX Video a dalšími čínskými AI laboratořemi: uvolňování výkonných modelů volně, zatímco západní konkurenti drží své proprietární.

Praktické aplikace

Projdu si některé skutečné workflow, které Vidi2 umožňuje:

Přepracování obsahu

Vstup: 2hodinová nahrávka podcastu Výstup: 10 krátkých klipů nejlepších momentů, každý s řádným intro/outro střihem

Model identifikuje poutavé momenty, najde přirozené body střihu a extrahuje klipy, které fungují jako samostatný obsah.

Správa školicích videí

Vstup: 500 hodin firemního školicího materiálu Dotaz: "Najdi všechny segmenty vysvětlující nový CRM workflow"

Místo manuálního procházení nebo spoléhání na nespolehlivá metadata Vidi2 skutečně sleduje a chápe obsah.

Sportovní nejlepší momenty

Vstup: Záznam celého zápasu Výstup: Sestřih s všemi gólovými momenty, těsnými situacemi a oslavami

Model rozumí sportovnímu kontextu dostatečně dobře na to, aby identifikoval smysluplné momenty, ne jen pohyb.

Kontrola dohledu

Vstup: 24 hodin záznamu z bezpečnostních kamer Dotaz: "Najdi všechny případy lidí vcházejících bočním vchodem po 18:00"

Prostorově-časové zakotvení znamená přesné odpovědi s přesnými časovými značkami a lokacemi.

Jak se srovnává s generativními modely

✓Porozumění videu (Vidi2)

Pracuje s existujícím materiálem
Šetří čas střihu, ne generování
Škáluje na masivní video knihovny
Nevyžaduje kreativní prompty
Praktické pro podniky okamžitě

✓Generování videa (Runway, Sora)

Vytváří nový obsah z ničeho
Nástroj kreativního vyjádření
Aplikace v marketingu a reklamě
Rychle rostoucí kvalita
Vzrušující, ale jiný případ použití

Nejsou to konkurenční technologie. Řeší různé problémy. Kompletní AI video workflow potřebuje obojí: generování pro vytváření nového obsahu, porozumění pro práci s existujícím obsahem.

Větší obrázek

⚠️

Porozumění videu je místo, kde se AI posouvá z "působivé demo" na "denní nástroj." Generování získává pozornost. Porozumění dělá práci.

Uvažte, co to umožňuje:

Každý podnik má video obsah uvězněný v archivech
Každý tvůrce tráví více času střihem než natáčením
Každá platforma potřebuje lepší moderování obsahu a objevování
Každý výzkumník má materiál, který nemůže efektivně analyzovat

Vidi2 se zabývá všemi těmito. Open-source vydání znamená, že tyto schopnosti jsou nyní přístupné komukoli s dostatečným výpočetním výkonem.

Začínáme

Model je dostupný na GitHubu s dokumentací a demy. Požadavky:

NVIDIA GPU s alespoň 24GB VRAM pro plný model
Kvantizované verze dostupné pro menší GPU
Python 3.10+ s PyTorch 2.0+

Rychlý start:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentace je primárně v angličtině, přestože ByteDance je čínská společnost, což odráží globální cílové publikum.

Co to znamená pro odvětví

Krajina AI videa má nyní dvě odlišné koleje:

Kolej	Lídři	Zaměření	Hodnota
Generování	Runway, Sora, Veo, Kling	Vytváření nového videa	Kreativní vyjádření
Porozumění	Vidi2, (další se objevují)	Analýza existujícího videa	Produktivita

Obě budou dozrávat. Obě se budou integrovat. Kompletní AI video stack roku 2026 bude generovat, stříhat a rozumět bezproblémově.

Prozatím Vidi2 představuje nejschopnější open-source možnost pro porozumění videu. Pokud máte materiál k analýze, střih k automatizaci nebo obsah k organizaci, toto je model k prozkoumání.

Můj názor

Strávil jsem roky budováním pipeline pro zpracování videa. Před a po s modely jako Vidi2 je výrazné. Úkoly, které vyžadovaly vlastní stacky počítačového vidění, manuální anotaci a křehké heuristiky, lze nyní vyřešit promptem.

💡

Nejlepší AI nástroje nenahrazují lidský úsudek. Odstraňují nudnou práci, která brání lidem aplikovat úsudek ve velkém měřítku.

Vidi2 nenahrazuje střihače. Dává střihačům schopnosti, které byly dříve nemožné ve velkém měřítku. A s otevřeným přístupem (pro nekomerční použití) jsou tyto schopnosti dostupné komukoli, kdo je ochoten nastavit infrastrukturu.

Budoucnost videa není jen generování. Je to porozumění. A tato budoucnost je nyní open source.

Zdroje

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)