ByteDance Vidi2: AI koji razume video kao profesionalni editor

Dok svi opsesivno pričaju o generisanju videa, ByteDance je tiho rešio drugačiji problem: napraviti AI koji razume video kao iskusan editor. Vidi2 može da gleda sate sirovog snimka i izvuče tačno ono što je bitno.

Problem o kome niko ne govori

Imamo neverovatne AI generatore videa danas. Runway Gen-4.5 vodi lestvice kvaliteta. Kling O1 generiše sinhronizovani zvuk. Ali evo prljave tajne video produkcije: većina vremena ide na editovanje, ne na kreiranje.

Snimatelj venčanja snima 8 sati materijala za 5-minutni sažetak najboljih trenutaka. Kreator sadržaja snima 45 minuta da napravi 60-sekundni TikTok. Preduzeće ima 200 sati edukativnih snimaka zakopanih u SharePointu.

💡

Generisanje videa dobija naslove. Razumevanje videa obavlja stvarni posao.

Vidi2 rešava ovaj jaz. Ovo nije još jedan generator. Ovo je AI koji gleda video, razume šta se dešava, i pomaže vam da radite sa tim sadržajem u većem obimu.

Šta Vidi2 zapravo radi

ByteDance opisuje Vidi2 kao "veliki multimodalni model za razumevanje i kreiranje videa". Model sa 12 milijardi parametara odlično:

🔍

Prostorno-vremensko pozicioniranje

Pronalazi bilo koji objekat u videu i prati ga kroz vreme. Ne samo "tu je mačka na 0:32" već "mačka ulazi na 0:32, kreće se ka sofi na 0:45, i napušta kadar na 1:12."

✂️

Inteligentno editovanje

Analizira snimak i predlaže rezove na osnovu sadržaja. Pronalazi najbolje momente, identifikuje granice scena, razume tempo.

📝

Analiza sadržaja

Opisuje šta se dešava u videu sa dovoljno detalja da bude korisno. Ne "dvoje ljudi priča" već "segment intervjua, gost objašnjava funkcije proizvoda, visoka angažovanost na 3:45."

🎯

Praćenje objekata

Prati objekte kao kontinuirane "cevi" kroz video, čak i kada napuste i ponovo uđu u kadar. Ovo omogućava preciznu selekciju za efekte, uklanjanje, ili naglašavanje.

Tehnička inovacija: prostorno-vremensko pozicioniranje

Prethodni video AI je radio u dve dimenzije: prostor (šta je u ovom kadru) ili vreme (kada se nešto dešava). Vidi2 kombinuje obe u ono što ByteDance naziva "prostorno-vremensko pozicioniranje" (STG).

Tradicionalni pristup:

Prostorno: "Auto je na piksel koordinatama (450, 320)"
Vremensko: "Auto se pojavljuje na vremenskoj oznaci 0:15"
Rezultat: Nepovezane informacije koje zahtevaju ručnu korelaciju

Vidi2 STG:

Kombinovano: "Crveni auto je na (450, 320) na 0:15, kreće se do (890, 340) na 0:18, izlazi desno na 0:22"
Rezultat: Kompletna trajektorija objekta kroz prostor i vreme

Ovo je bitno jer pravi zadaci editovanja zahtevaju obe dimenzije. "Ukloni mikrofon" mora da zna gde se pojavljuje (prostorno) i koliko dugo (vremensko). Vidi2 ovo obrađuje kao jedan upit.

Merenja: nadmašivanje giganta

12B

Parametara

Razumevanje videa

Otvoreni

Izvorni kod

Ovde postaje zanimljivo. Na ByteDance-ovom VUE-STG merilu za prostorno-vremensko pozicioniranje, Vidi2 nadmašuje i Gemini 2.0 Flash i GPT-4o, uprkos tome što ima manje parametara od oba.

💡

Upozorenje: ova merila je kreirao ByteDance. Nezavisna verifikacija na merenjima treće strane bi ojačala ove tvrdnje. Ipak, pristup specijalizovane arhitekture je smislen.

Rezultati merenja pokazuju da razumevanje videa ima više koristi od specijalizovanog dizajna nego od sirove veličine. Model napravljen za video od osnova može nadmašiti veće opštenamenske modele koji tretiraju video kao proširenje razumevanja slika.

Već u produkciji: TikTok Smart Split

Ovo nije vaporware. Vidi2 pokreće TikTok-ovu funkciju "Smart Split", koja:

✓Automatski izvlači najbitnije trenutke iz dugih videa
✓Generiše titlove sinhronizovane sa govorom
✓Rekonstruiše raspored za različite odnose širine i visine
✓Identifikuje optimalne tačke rezova na osnovu sadržaja

Milioni kreatora koriste Smart Split svakodnevno. Model je dokazan u obimu, nije teoretski.

Otvoreni izvorni kod: pokrenite ga sami

ByteDance je objavio Vidi2 na GitHubu pod CC BY-NC 4.0 licencom. To znači besplatno za istraživanje, edukaciju i lične projekte, ali komercijalna upotreba zahteva posebno licenciranje. Implikacije:

Za developere:

Napravite prilagođene pipeline-e za analizu videa
Integrirajte razumevanja u postojeća orodja
Fino podešavanje za specifične domene
Bez API troškova u obimu

Za preduzeća:

Obrađujte osetljive snimke lokalno
Napravite vlasnički radni tok editovanja
Izbegnite zaključavanje kod dobavljača
Prilagodite za interne tipove sadržaja

Objava otvorenog izvornog koda prati obrazac koji smo videli sa LTX Video i drugim kineskim AI laboratorijama: objavljivanje moćnih modela javno dok zapadni konkurenti drže svoje vlasničkim.

Praktične aplikacije

Hajde da prođemo kroz neke prave radne tokove koje Vidi2 omogućava:

Preoblikovanje sadržaja

Ulaz: 2-satni snimak podcasta Izlaz: 10 kratkih klipova najboljih momenata, svaki sa odgovarajućim uvodnim/završnim rezovima

Model identifikuje zanimljive momente, pronalazi prirodne tačke rezova, i izvlači klipove koji funkcionišu kao samostalan sadržaj.

Upravljanje edukativnim videima

Ulaz: 500 sati korporativnih edukativnih snimaka Upit: "Pronađi sve segmente koji objašnjavaju novi CRM radni tok"

Umesto ručnog pregledanja ili oslanjanja na nepouzdane metapodatke, Vidi2 zapravo gleda i razume sadržaj.

Sportski sažeci

Ulaz: Snimak celog meča Izlaz: Sažetak sa svim golovima, bliskim situacijama, i proslavama

Model razume sportski kontekst dovoljno dobro da identifikuje značajne momente, ne samo pokret.

Pregled nadzornih snimaka

Ulaz: 24 sata bezbednosnog snimka Upit: "Pronađi sve slučajeve ljudi koji ulaze kroz bočna vrata posle 18h"

Prostorno-vremensko pozicioniranje znači precizne odgovore sa tačnim vremenskim oznakama i lokacijama.

Kako se poredi sa generativnim modelima

✓Razumevanje videa (Vidi2)

Radi sa postojećim snimkom
Štedi vreme editovanja, ne vreme generisanja
Skalira se na masivne video biblioteke
Ne zahteva kreativno promptovanje
Praktično za preduzeća odmah

✓Generisanje videa (Runway, Sora)

Kreira novi sadržaj iz ničega
Alat za kreativno izražavanje
Marketing i reklamne aplikacije
Kvalitet brzo raste
Uzbudljivo ali drugačiji slučaj upotrebe

Ovo nisu konkurentne tehnologije. Rešavaju različite probleme. Kompletan AI video radni tok treba obe: generisanje za kreiranje novog sadržaja, razumevanje za rad sa postojećim sadržajem.

Šira slika

⚠️

Razumevanje videa je tamo gde AI prelazi iz "impresivnog dema" u "svakodnevni alat". Generisanje dobija pažnju. Razumevanje obavlja posao.

Razmotrite šta ovo omogućava:

Svako preduzeće ima video sadržaj zarobljen u arhivama
Svaki kreator troši više vremena editujući nego snimajući
Svaka platforma treba bolju moderaciju sadržaja i otkrivanje
Svaki istraživač ima snimke koje ne može efikasno analizirati

Vidi2 se bavi svim ovim. Objava otvorenog izvornog koda znači da su ove mogućnosti sada dostupne svakome sa dovoljnom računskom snagom.

Početak

Model je dostupan na GitHubu sa dokumentacijom i demo-ima. Zahtevi:

NVIDIA GPU sa najmanje 24GB VRAM za puni model
Kvantizovane verzije dostupne za manje GPU-jeve
Python 3.10+ sa PyTorch 2.0+

Brzi start:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentacija je uglavnom na engleskom uprkos tome što je ByteDance kineska kompanija, što odražava globalnu ciljnu publiku.

Šta ovo znači za industriju

AI video pejzaž sada ima dve različite linije:

Linija	Vodeći	Fokus	Vrednost
Generisanje	Runway, Sora, Veo, Kling	Kreiranje novog videa	Kreativno izražavanje
Razumevanje	Vidi2, (drugi se pojavljuju)	Analiza postojećeg videa	Produktivnost

Obe će sazreti. Obe će se integrisati. Kompletan AI video stek 2026. će generisati, editovati, i razumeti besprekorno.

Za sada, Vidi2 predstavlja najsposobniju open-source opciju za razumevanje videa. Ako imate snimke za analizu, editovanje za automatizaciju, ili sadržaj za organizaciju, ovo je model za istraživanje.

Moje mišljenje

Godine sam gradio pipeline-e za obradu videa. Pre i posle sa modelima kao što je Vidi2 je velika razlika. Zadaci koji su zahtevali prilagođene computer vision stack-ove, ručno označavanje, i krhke heuristike sada mogu da se reše promptom.

💡

Najbolji AI alati ne zamenjuju ljudsku prosudbu. Oni uklanjaju dosadan posao koji sprečava ljude da primene prosudbu u obimu.

Vidi2 ne zamenjuje editore. Daje editorima mogućnosti koje su ranije bile nemoguće u obimu. I sa otvorenim pristupom (za nekomercijalnu upotrebu), ove mogućnosti su dostupne svakome ko je spreman da postavi infrastrukturu.

Budućnost videa nije samo generisanje. To je razumevanje. I ta budućnost je sada otvoreni izvorni kod.

Izvori

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)