ByteDance Vidi2: AI, která rozumí videu jako střihač
ByteDance právě uvolnil Vidi2, model s 12 miliardami parametrů, který rozumí obsahu videa natolik, aby automaticky upravil hodiny záznamu na kvalitní klipy. Již nyní pohání TikTok Smart Split.

Zatímco všichni jsou posedlí generováním videa, ByteDance tiše vyřešil jiný problém: naučit AI rozumět videu jako zkušený střihač. Vidi2 dokáže sledovat hodiny surového materiálu a vytáhnout přesně to, na čem záleží.
Problém, o kterém nikdo nemluví
Máme nyní neuvěřitelné AI generátory videa. Runway Gen-4.5 vévodí žebříčkům kvality. Kling O1 generuje synchronizovaný zvuk. Ale tady je špinavé tajemství videoprodukce: většina času jde do střihu, ne do tvorby.
Svatební kameraman natočí 8 hodin materiálu pro 5minutový sestřih nejlepších momentů. Tvůrce obsahu nahraje 45 minut, aby vytvořil 60sekundový TikTok. Podnikový tým má 200 hodin školicích videí pohřbených na SharePointu.
Generování videa dostává titulky. Porozumění videu dělá skutečnou práci.
Vidi2 řeší tuto mezeru. Není to další generátor. Je to AI, která sleduje video, chápe, co se děje, a pomáhá vám s tím obsahem pracovat ve velkém měřítku.
Co Vidi2 skutečně dělá
ByteDance popisuje Vidi2 jako "Large Multimodal Model pro porozumění videu a tvorbu." Model s 12 miliardami parametrů vyniká v:
Prostorově-časové zakotvení
Najděte jakýkoli objekt ve videu a sledujte ho v čase. Ne jen "tady je kočka v 0:32", ale "kočka vstoupí v 0:32, přesune se k pohovce v 0:45 a opustí záběr v 1:12."
Inteligentní střih
Analyzujte záběry a navrhněte střihy podle obsahu. Najděte nejlepší momenty, identifikujte hranice scén, pochopte rytmus.
Analýza obsahu
Popište, co se ve videu děje, s dostatečným detailem, aby to bylo užitečné. Ne "dva lidé mluví", ale "rozhovor, host vysvětluje funkce produktu, moment vysokého zapojení v 3:45."
Sledování objektů
Sledujte objekty jako spojité "trubky" videem, i když opustí záběr a vrátí se zpět. To umožňuje přesný výběr pro efekty, odstranění nebo zdůraznění.
Technická inovace: Prostorově-časové zakotvení
Předchozí video AI fungovaly ve dvou dimenzích: prostor (co je v tomto snímku) nebo čas (kdy se něco stane). Vidi2 kombinuje obojí do toho, čemu ByteDance říká "Spatio-Temporal Grounding" (STG).
Tradiční přístup:
- Prostorový: "Auto je na pixelových souřadnicích (450, 320)"
- Časový: "Auto se objeví v čase 0:15"
- Výsledek: Nepropojené informace vyžadující ruční korelaci
Vidi2 STG:
- Kombinované: "Červené auto je na (450, 320) v 0:15, přesune se na (890, 340) v 0:18, opustí záběr vpravo v 0:22"
- Výsledek: Kompletní trajektorie objektu prostorem a časem
To je důležité, protože skutečné střihové úlohy vyžadují obě dimenze. "Odstraň tyč s mikrofonem" potřebuje vědět, kde se objevuje (prostorově) a jak dlouho (časově). Vidi2 to zvládá jako jediný dotaz.
Benchmarky: Poráží giganty
Tady to začíná být zajímavé. V ByteDance benchmarku VUE-STG pro prostorově-časové zakotvení Vidi2 překonává Gemini 2.0 Flash i GPT-4o, přestože má méně parametrů než oba.
Výhrada: tyto benchmarky vytvořil ByteDance. Nezávislé ověření na benchmarcích třetích stran by tato tvrzení posílilo. To řečeno, přístup specializované architektury je správný.
Výsledky benchmarků naznačují, že porozumění videu těží ze specializovaného designu více než z čisté velikosti. Model postavený pro video od začátku může překonat větší univerzální modely, které zacházejí s videem jako s rozšířením porozumění obrázkům.
Již v produkci: TikTok Smart Split
Tohle není vaporware. Vidi2 pohání funkci TikTok "Smart Split", která:
- ✓Automaticky extrahuje nejlepší momenty z dlouhých videí
- ✓Generuje titulky synchronizované s řečí
- ✓Rekonstruuje rozložení pro různé poměry stran
- ✓Identifikuje optimální body střihu podle obsahu
Miliony tvůrců používají Smart Split denně. Model je ověřený ve velkém měřítku, ne teoretický.
Open Source: Spusťte si ho sami
ByteDance uvolnil Vidi2 na GitHubu pod licencí CC BY-NC 4.0. To znamená zdarma pro výzkum, vzdělávání a osobní projekty, ale komerční použití vyžaduje samostatnou licenci. Důsledky:
Pro vývojáře:
- Vytvářejte vlastní video analytické pipeline
- Integrujte porozumění do existujících nástrojů
- Dolaďte pro konkrétní domény
- Žádné náklady API ve velkém měřítku
Pro podniky:
- Zpracovávejte citlivý materiál lokálně
- Vytvářejte proprietární střihové workflow
- Vyhněte se vendor lock-in
- Přizpůsobte pro interní typy obsahu
Open-source vydání následuje vzorec, který jsme viděli s LTX Video a dalšími čínskými AI laboratořemi: uvolňování výkonných modelů volně, zatímco západní konkurenti drží své proprietární.
Praktické aplikace
Projdu si některé skutečné workflow, které Vidi2 umožňuje:
Přepracování obsahu
Vstup: 2hodinová nahrávka podcastu Výstup: 10 krátkých klipů nejlepších momentů, každý s řádným intro/outro střihem
Model identifikuje poutavé momenty, najde přirozené body střihu a extrahuje klipy, které fungují jako samostatný obsah.
Správa školicích videí
Vstup: 500 hodin firemního školicího materiálu Dotaz: "Najdi všechny segmenty vysvětlující nový CRM workflow"
Místo manuálního procházení nebo spoléhání na nespolehlivá metadata Vidi2 skutečně sleduje a chápe obsah.
Sportovní nejlepší momenty
Vstup: Záznam celého zápasu Výstup: Sestřih s všemi gólovými momenty, těsnými situacemi a oslavami
Model rozumí sportovnímu kontextu dostatečně dobře na to, aby identifikoval smysluplné momenty, ne jen pohyb.
Kontrola dohledu
Vstup: 24 hodin záznamu z bezpečnostních kamer Dotaz: "Najdi všechny případy lidí vcházejících bočním vchodem po 18:00"
Prostorově-časové zakotvení znamená přesné odpovědi s přesnými časovými značkami a lokacemi.
Jak se srovnává s generativními modely
- Pracuje s existujícím materiálem
- Šetří čas střihu, ne generování
- Škáluje na masivní video knihovny
- Nevyžaduje kreativní prompty
- Praktické pro podniky okamžitě
- Vytváří nový obsah z ničeho
- Nástroj kreativního vyjádření
- Aplikace v marketingu a reklamě
- Rychle rostoucí kvalita
- Vzrušující, ale jiný případ použití
Nejsou to konkurenční technologie. Řeší různé problémy. Kompletní AI video workflow potřebuje obojí: generování pro vytváření nového obsahu, porozumění pro práci s existujícím obsahem.
Větší obrázek
Porozumění videu je místo, kde se AI posouvá z "působivé demo" na "denní nástroj." Generování získává pozornost. Porozumění dělá práci.
Uvažte, co to umožňuje:
- Každý podnik má video obsah uvězněný v archivech
- Každý tvůrce tráví více času střihem než natáčením
- Každá platforma potřebuje lepší moderování obsahu a objevování
- Každý výzkumník má materiál, který nemůže efektivně analyzovat
Vidi2 se zabývá všemi těmito. Open-source vydání znamená, že tyto schopnosti jsou nyní přístupné komukoli s dostatečným výpočetním výkonem.
Začínáme
Model je dostupný na GitHubu s dokumentací a demy. Požadavky:
- NVIDIA GPU s alespoň 24GB VRAM pro plný model
- Kvantizované verze dostupné pro menší GPU
- Python 3.10+ s PyTorch 2.0+
Rychlý start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentace je primárně v angličtině, přestože ByteDance je čínská společnost, což odráží globální cílové publikum.
Co to znamená pro odvětví
Krajina AI videa má nyní dvě odlišné koleje:
| Kolej | Lídři | Zaměření | Hodnota |
|---|---|---|---|
| Generování | Runway, Sora, Veo, Kling | Vytváření nového videa | Kreativní vyjádření |
| Porozumění | Vidi2, (další se objevují) | Analýza existujícího videa | Produktivita |
Obě budou dozrávat. Obě se budou integrovat. Kompletní AI video stack roku 2026 bude generovat, stříhat a rozumět bezproblémově.
Prozatím Vidi2 představuje nejschopnější open-source možnost pro porozumění videu. Pokud máte materiál k analýze, střih k automatizaci nebo obsah k organizaci, toto je model k prozkoumání.
Můj názor
Strávil jsem roky budováním pipeline pro zpracování videa. Před a po s modely jako Vidi2 je výrazné. Úkoly, které vyžadovaly vlastní stacky počítačového vidění, manuální anotaci a křehké heuristiky, lze nyní vyřešit promptem.
Nejlepší AI nástroje nenahrazují lidský úsudek. Odstraňují nudnou práci, která brání lidem aplikovat úsudek ve velkém měřítku.
Vidi2 nenahrazuje střihače. Dává střihačům schopnosti, které byly dříve nemožné ve velkém měřítku. A s otevřeným přístupem (pro nekomerční použití) jsou tyto schopnosti dostupné komukoli, kdo je ochoten nastavit infrastrukturu.
Budoucnost videa není jen generování. Je to porozumění. A tato budoucnost je nyní open source.
Zdroje
Byl tento článek užitečný?

Damien
AI vývojářAI vývojář z Lyonu, který rád přeměňuje složité ML koncepty na jednoduché recepty. Když právě neladí modely, najdete ho na kole v údolí Rhôny.
Související články
Pokračujte ve zkoumání s těmito souvisejícími příspěvky

ByteDance Seedance 1.5 Pro: Model, který generuje zvuk a video současně
ByteDance vydává Seedance 1.5 Pro s nativní audiovizuální generací, kinematografickým ovládáním kamery a vícejazyčnou synchronizací rtů. Dostupné zdarma v CapCut.

Kling 2.6: Klonování Hlasu a Ovládání Pohybu Mění Tvorbu AI Videa
Nejnovější aktualizace od Kuaishou přináší současné generování audia a videa, trénink vlastního hlasu a přesné snímání pohybu. To může zásadně změnit způsob, jakým tvůrci přistupují k produkci AI videa.

Pika 2.5: Dostupné AI video skrz rychlost, cenu a nástroje
Pika Labs vydává verzi 2.5 s rychlejší generací, vylepšenou fyzikou a nástroji jako Pikaframes a Pikaffects pro práci s videem.