Meta Pixel
DamienDamien
7 min read
1320 slová

ByteDance Vidi2: AI, ktorá rozumie videu ako editor

ByteDance práve sprístupnila Vidi2, model s 12 miliardami parametrov, ktorý rozumie video obsahu dostatočne dobre na automatické zostrihanie hodín záznamu do vyleštených klipov. Už teraz poháňa TikTok Smart Split.

ByteDance Vidi2: AI, ktorá rozumie videu ako editor

Zatiaľ čo sa všetci sú posadnutí generovaním videa, ByteDance pokojne vyriešila iný problém: naučiť AI rozumieť videu ako skúsený editor. Vidi2 dokáže sledovať hodiny surového materiálu a vytiahnuť presne to, čo záleží.

Problém, o ktorom nikto nehovorí

Teraz máme neuveriteľné AI generátory videa. Runway Gen-4.5 vedie rebríčky kvality. Kling O1 generuje synchronizované audio. Ale tu je špinavé tajomstvo video produkcie: väčšina času ide na strih, nie na tvorbu.

Svadobný kameraman nakrúti 8 hodín materiálu pre 5-minútové video s najlepšími momentmi. Tvorca obsahu nahrá 45 minút, aby urobil 60-sekundový TikTok. Firemný tým má 200 hodín školiacich záznamov zakopané v SharePointe.

💡

Generovanie videa dostáva titulky. Rozumenie videu robí skutočnú prácu.

Vidi2 rieši túto medzeru. Nie je to ďalší generátor. Je to AI, ktorá sleduje video, chápe, co sa deje, a pomáha vám pracovať s týmto obsahom vo veľkom.

Čo Vidi2 reálne robí

ByteDance opisuje Vidi2 ako "veľký multimodálny model pre rozumenie a tvorbu videa". Model s 12 miliardami parametrov vyniká v:

🔍

Priestorovo-časové ukotvenie

Nájsť akýkoľvek objekt vo videu a sledovať ho v čase. Nie len "mačka je v 0:32", ale "mačka vchádza v 0:32, presúva sa na gauč v 0:45 a opúšťa záber v 1:12".

✂️

Inteligentný strih

Analyzovať materiál a navrhovať strihy založené na obsahu. Nájsť najlepšie momenty, identifikovať hranice scén, rozumieť tempu.

📝

Analýza obsahu

Popísať, čo sa vo videu deje s dostatočnou detailnosťou, aby to bolo užitočné. Nie "dvaja ľudia rozprávajú", ale "segment rozhovoru, hosť vysvetľuje vlastnosti produktu, moment vysokého zapojenia v 3:45".

🎯

Sledovanie objektov

Sledovať objekty ako kontinuálne "rúry" cez video, aj keď opustia a vrátia sa do záberu. To umožňuje presnú selekciu pre efekty, odstránenie alebo zdôraznenie.

Technická inovácia: priestorovo-časové ukotvenie

Predošlá video AI pracovala v dvoch dimenziách: priestor (čo je v tomto zábere) alebo čas (kedy sa niečo deje). Vidi2 kombinuje oboje do toho, čo ByteDance volá "priestorovo-časové ukotvenie" (STG).

Tradičný prístup:

  • Priestorovo: "Auto je v pixelových súradniciach (450, 320)"
  • Časovo: "Auto sa objaví v časovej značke 0:15"
  • Výsledok: Odpojené informácie vyžadujúce manuálnu koreláciu

Vidi2 STG:

  • Kombinovane: "Červené auto je v (450, 320) v 0:15, presúva sa do (890, 340) v 0:18, vychádza vpravo v 0:22"
  • Výsledok: Kompletná trajektória objektu v priestore a čase

Toto je dôležité, pretože skutočné úlohy strihu vyžadujú obe dimenzie. "Odstrániť boom mikrofón" potrebuje vedieť, kde sa objaví (priestorovo) a ako dlho (časovo). Vidi2 to zvládne ako jediný dopyt.

Benchmarky: porážanie gigantov

12B
Parametre
#1
Rozumenie videu
Open
Source

Tu to začína byť zajímavé. Na benchmarku VUE-STG od ByteDance pre priestorovo-časové ukotvenie Vidi2 prekonáva Gemini 2.0 Flash aj GPT-4o, napriek tomu, že má menej parametrov ako obidva.

💡

Poznámka: tieto benchmarky vytvorila ByteDance. Nezávislé overenie na benchmarkoch tretích strán by tieto tvrdenia posilnilo. To povedané, prístup špecializovanej architektúry je rozumný.

Výsledky benchmarkov naznačujú, že rozumenie videu profituje viac zo špecializovaného dizajnu než z čistej veľkosti. Model vytvorený pre video od základu môže prekonať väčšie všeobecné modely, ktoré berú video ako rozšírenie rozumenia obrazu.

Už v produkcii: TikTok Smart Split

Toto nie je vaporware. Vidi2 poháňa funkciu TikTok "Smart Split", ktorá:

  • Automaticky extrahuje zaujímavé momenty z dlhých videí
  • Generuje titulky synchronizované s rečou
  • Rekonštruuje rozloženie pre rôzne pomerky strán
  • Identifikuje optimálne body strihu založené na obsahu

Milióny tvorcov používajú Smart Split denne. Model je overený vo veľkom, nie teoreticky.

Open Source: spustite si to sami

ByteDance vydala Vidi2 na GitHube pod licenciou CC BY-NC 4.0. To znamená zadarmo pre výskum, vzdelávanie a osobné projekty, ale komerčné použitie vyžaduje samostatnú licenciu. Dôsledky:

Pre vývojárov:

  • Vytvárať vlastné pipeline na analýzu videa
  • Integrovať rozumenie do existujúcich nástrojov
  • Doladiť pre špecifické domény
  • Žiadne náklady na API vo veľkom

Pre firmy:

  • Spracovávať citlivý materiál lokálne
  • Vytvárať proprietárne workflow strihu
  • Vyhnúť sa vendor lock-in
  • Prispôsobiť pre interné typy obsahu

Open source vydanie nasleduje vzor, ktorý sme videli s LTX Video a inými čínskymi AI labami: vydávanie výkonných modelov otvorene, zatiaľ čo západní konkurenti držia svoje proprietárne.

Praktické aplikácie

Prejdem cez niektoré reálne workflow, ktoré Vidi2 umožňuje:

Prepracovanie obsahu

Vstup: 2-hodinová nahrávka podcastu Výstup: 10 krátkych klipov najlepších momentov, každý s vhodnými úvodmi/závermi

Model identifikuje pútavé momenty, nájde prirodzené body strihu a extrahuje klipy, ktoré fungujú ako samostatný obsah.

Správa školiacich videí

Vstup: 500 hodín firemných školiacich záznamov Dotaz: "Nájdi všetky segmenty vysvetľujúce nový CRM workflow"

Namiesto manuálneho prehľadávania alebo spoliehania sa na nespoľahlivé metadáta, Vidi2 skutočne sleduje a chápe obsah.

Športové zostrihy

Vstup: Záznam celého zápasu Výstup: Video najlepších momentov so všetkými gólovými momentmi, tesných situácií a osláv

Model dostatočne dobre chápe športový kontext, aby identifikoval významné momenty, nie len pohyb.

Preskúmanie záznamu z kamier

Vstup: 24 hodín bezpečnostného záznamu Dotaz: "Nájdi všetky prípady, keď ľudia vchádzali bočnými dverami po 18:00"

Priestorovo-časové ukotvenie znamená presné odpovede s exaktnými časovými značkami a lokáciami.

Ako sa porovnáva s generatívnymi modelmi

Rozumenie videu (Vidi2)
  • Pracuje s existujúcim materiálom
  • Šetrí čas strihu, nie čas generovania
  • Škáluje na masívne video knižnice
  • Nevyžaduje kreatívne promptovanie
  • Praktické pre firmy okamžite
Generovanie videa (Runway, Sora)
  • Vytvára nový obsah z ničoho
  • Nástroj kreatívneho vyjadrenia
  • Aplikácie v marketingu a reklame
  • Rýchlo rastúca kvalita
  • Zaujímavý, ale iný prípad použitia

Toto nie sú konkurenčné technológie. Riešia rôzne problémy. Kompletné AI video workflow potrebuje oboje: generovanie na vytváranie nového obsahu, rozumenie na prácu s existujúcim obsahom.

Širší obraz

⚠️

Rozumenie videu je miesto, kde AI prechádza od "pôsobivej dema" na "každodenný nástroj". Generovanie dostáva pozornosť. Rozumenie robí prácu.

Zvážte, čo to umožňuje:

  • Každá firma má video obsah uzamknutý v archívoch
  • Každý tvorca trávi viac času strihom než nakrúcaním
  • Každá platforma potrebuje lepšiu moderáciu a objavovanie obsahu
  • Každý výskumník má záznamy, ktoré nemôže efektívne analyzovať

Vidi2 rieši všetko toto. Open source vydanie znamená, že tieto schopnosti sú teraz prístupné komukoľvek s dostatočným výpočtovým výkonom.

Začíname

Model je dostupný na GitHube s dokumentáciou a demo. Požiadavky:

  • NVIDIA GPU s aspoň 24GB VRAM pre plný model
  • Kvantizované verzie dostupné pre menšie GPU
  • Python 3.10+ s PyTorch 2.0+

Rýchly štart:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentácia je primárne v angličtine napriek tomu, že ByteDance je čínska firma, čo odráža globálnu cieľovú skupinu.

Čo to znamená pre priemysel

Krajina AI videa má teraz dve odlišné koľaje:

KoľajLídriZameranieHodnota
GenerovanieRunway, Sora, Veo, KlingVytvoriť nové videoKreatívne vyjadrenie
RozumenieVidi2, (iní sa objavujú)Analyzovať existujúce videoProduktivita

Obe dozrejú. Obe sa integrujú. Kompletný AI video stack roku 2026 bude generovať, strihať a rozumieť plynule.

Zatiaľ Vidi2 predstavuje najschopnejšiu open source možnosť pre rozumenie videu. Ak máte materiál na analýzu, strih na automatizáciu alebo obsah na organizovanie, toto je model na preskúmanie.

Môj názor

Strávil som roky vytváraním pipeline na spracovanie videa. Rozdiel pred a po s modelmi ako Vidi2 je výrazný. Úlohy, ktoré vyžadovali vlastné stacky počítačového videnia, manuálne anotácie a krehké heuristiky, môžu byť teraz vyriešené promptom.

💡

Najlepšie AI nástroje nenahrádzajú ľudský úsudok. Odstraňujú nudnú prácu, ktorá bráni ľuďom aplikovať úsudok vo veľkom.

Vidi2 nenahradza editorov. Dáva editorom schopnosti, ktoré boli predtým nemožné vo veľkom. A s otvoreným prístupom (pre nekomerčné použitie) sú tieto schopnosti dostupné komukoľvek ochotnému nastaviť infraštruktúru.

Budúcnosť videa nie je len generovanie. Je to rozumenie. A táto budúcnosť je už open source.


Zdroje

Bol tento článok užitočný?

Damien

Damien

AI vývojár

AI vývojár z Lyonu, ktorý rád premieňa zložité ML koncepty na jednoduché recepty. Keď práve neladí modely, nájdete ho ako cyklista v údolí Rhôny.

Súvisiace články

Pokračujte v objavovaní s týmito súvisiacimi príspevkami

Páčil sa vám tento článok?

Objavte ďalšie postrehy a sledujte náš najnovší obsah.

ByteDance Vidi2: AI, ktorá rozumie videu ako editor