ByteDance Vidi2: AI koji razume video kao profesionalni editor
ByteDance je otvorio izvorni kod za Vidi2, model sa 12 milijardi parametara koji razume video sadržaj dovoljno dobro da automatski edituje sate snimaka u uglačane klipove. Već pokreće TikTok Smart Split.

Dok svi opsesivno pričaju o generisanju videa, ByteDance je tiho rešio drugačiji problem: napraviti AI koji razume video kao iskusan editor. Vidi2 može da gleda sate sirovog snimka i izvuče tačno ono što je bitno.
Problem o kome niko ne govori
Imamo neverovatne AI generatore videa danas. Runway Gen-4.5 vodi lestvice kvaliteta. Kling O1 generiše sinhronizovani zvuk. Ali evo prljave tajne video produkcije: većina vremena ide na editovanje, ne na kreiranje.
Snimatelj venčanja snima 8 sati materijala za 5-minutni sažetak najboljih trenutaka. Kreator sadržaja snima 45 minuta da napravi 60-sekundni TikTok. Preduzeće ima 200 sati edukativnih snimaka zakopanih u SharePointu.
Generisanje videa dobija naslove. Razumevanje videa obavlja stvarni posao.
Vidi2 rešava ovaj jaz. Ovo nije još jedan generator. Ovo je AI koji gleda video, razume šta se dešava, i pomaže vam da radite sa tim sadržajem u većem obimu.
Šta Vidi2 zapravo radi
ByteDance opisuje Vidi2 kao "veliki multimodalni model za razumevanje i kreiranje videa". Model sa 12 milijardi parametara odlično:
Prostorno-vremensko pozicioniranje
Pronalazi bilo koji objekat u videu i prati ga kroz vreme. Ne samo "tu je mačka na 0:32" već "mačka ulazi na 0:32, kreće se ka sofi na 0:45, i napušta kadar na 1:12."
Inteligentno editovanje
Analizira snimak i predlaže rezove na osnovu sadržaja. Pronalazi najbolje momente, identifikuje granice scena, razume tempo.
Analiza sadržaja
Opisuje šta se dešava u videu sa dovoljno detalja da bude korisno. Ne "dvoje ljudi priča" već "segment intervjua, gost objašnjava funkcije proizvoda, visoka angažovanost na 3:45."
Praćenje objekata
Prati objekte kao kontinuirane "cevi" kroz video, čak i kada napuste i ponovo uđu u kadar. Ovo omogućava preciznu selekciju za efekte, uklanjanje, ili naglašavanje.
Tehnička inovacija: prostorno-vremensko pozicioniranje
Prethodni video AI je radio u dve dimenzije: prostor (šta je u ovom kadru) ili vreme (kada se nešto dešava). Vidi2 kombinuje obe u ono što ByteDance naziva "prostorno-vremensko pozicioniranje" (STG).
Tradicionalni pristup:
- Prostorno: "Auto je na piksel koordinatama (450, 320)"
- Vremensko: "Auto se pojavljuje na vremenskoj oznaci 0:15"
- Rezultat: Nepovezane informacije koje zahtevaju ručnu korelaciju
Vidi2 STG:
- Kombinovano: "Crveni auto je na (450, 320) na 0:15, kreće se do (890, 340) na 0:18, izlazi desno na 0:22"
- Rezultat: Kompletna trajektorija objekta kroz prostor i vreme
Ovo je bitno jer pravi zadaci editovanja zahtevaju obe dimenzije. "Ukloni mikrofon" mora da zna gde se pojavljuje (prostorno) i koliko dugo (vremensko). Vidi2 ovo obrađuje kao jedan upit.
Merenja: nadmašivanje giganta
Ovde postaje zanimljivo. Na ByteDance-ovom VUE-STG merilu za prostorno-vremensko pozicioniranje, Vidi2 nadmašuje i Gemini 2.0 Flash i GPT-4o, uprkos tome što ima manje parametara od oba.
Upozorenje: ova merila je kreirao ByteDance. Nezavisna verifikacija na merenjima treće strane bi ojačala ove tvrdnje. Ipak, pristup specijalizovane arhitekture je smislen.
Rezultati merenja pokazuju da razumevanje videa ima više koristi od specijalizovanog dizajna nego od sirove veličine. Model napravljen za video od osnova može nadmašiti veće opštenamenske modele koji tretiraju video kao proširenje razumevanja slika.
Već u produkciji: TikTok Smart Split
Ovo nije vaporware. Vidi2 pokreće TikTok-ovu funkciju "Smart Split", koja:
- ✓Automatski izvlači najbitnije trenutke iz dugih videa
- ✓Generiše titlove sinhronizovane sa govorom
- ✓Rekonstruiše raspored za različite odnose širine i visine
- ✓Identifikuje optimalne tačke rezova na osnovu sadržaja
Milioni kreatora koriste Smart Split svakodnevno. Model je dokazan u obimu, nije teoretski.
Otvoreni izvorni kod: pokrenite ga sami
ByteDance je objavio Vidi2 na GitHubu pod CC BY-NC 4.0 licencom. To znači besplatno za istraživanje, edukaciju i lične projekte, ali komercijalna upotreba zahteva posebno licenciranje. Implikacije:
Za developere:
- Napravite prilagođene pipeline-e za analizu videa
- Integrirajte razumevanja u postojeća orodja
- Fino podešavanje za specifične domene
- Bez API troškova u obimu
Za preduzeća:
- Obrađujte osetljive snimke lokalno
- Napravite vlasnički radni tok editovanja
- Izbegnite zaključavanje kod dobavljača
- Prilagodite za interne tipove sadržaja
Objava otvorenog izvornog koda prati obrazac koji smo videli sa LTX Video i drugim kineskim AI laboratorijama: objavljivanje moćnih modela javno dok zapadni konkurenti drže svoje vlasničkim.
Praktične aplikacije
Hajde da prođemo kroz neke prave radne tokove koje Vidi2 omogućava:
Preoblikovanje sadržaja
Ulaz: 2-satni snimak podcasta Izlaz: 10 kratkih klipova najboljih momenata, svaki sa odgovarajućim uvodnim/završnim rezovima
Model identifikuje zanimljive momente, pronalazi prirodne tačke rezova, i izvlači klipove koji funkcionišu kao samostalan sadržaj.
Upravljanje edukativnim videima
Ulaz: 500 sati korporativnih edukativnih snimaka Upit: "Pronađi sve segmente koji objašnjavaju novi CRM radni tok"
Umesto ručnog pregledanja ili oslanjanja na nepouzdane metapodatke, Vidi2 zapravo gleda i razume sadržaj.
Sportski sažeci
Ulaz: Snimak celog meča Izlaz: Sažetak sa svim golovima, bliskim situacijama, i proslavama
Model razume sportski kontekst dovoljno dobro da identifikuje značajne momente, ne samo pokret.
Pregled nadzornih snimaka
Ulaz: 24 sata bezbednosnog snimka Upit: "Pronađi sve slučajeve ljudi koji ulaze kroz bočna vrata posle 18h"
Prostorno-vremensko pozicioniranje znači precizne odgovore sa tačnim vremenskim oznakama i lokacijama.
Kako se poredi sa generativnim modelima
- Radi sa postojećim snimkom
- Štedi vreme editovanja, ne vreme generisanja
- Skalira se na masivne video biblioteke
- Ne zahteva kreativno promptovanje
- Praktično za preduzeća odmah
- Kreira novi sadržaj iz ničega
- Alat za kreativno izražavanje
- Marketing i reklamne aplikacije
- Kvalitet brzo raste
- Uzbudljivo ali drugačiji slučaj upotrebe
Ovo nisu konkurentne tehnologije. Rešavaju različite probleme. Kompletan AI video radni tok treba obe: generisanje za kreiranje novog sadržaja, razumevanje za rad sa postojećim sadržajem.
Šira slika
Razumevanje videa je tamo gde AI prelazi iz "impresivnog dema" u "svakodnevni alat". Generisanje dobija pažnju. Razumevanje obavlja posao.
Razmotrite šta ovo omogućava:
- Svako preduzeće ima video sadržaj zarobljen u arhivama
- Svaki kreator troši više vremena editujući nego snimajući
- Svaka platforma treba bolju moderaciju sadržaja i otkrivanje
- Svaki istraživač ima snimke koje ne može efikasno analizirati
Vidi2 se bavi svim ovim. Objava otvorenog izvornog koda znači da su ove mogućnosti sada dostupne svakome sa dovoljnom računskom snagom.
Početak
Model je dostupan na GitHubu sa dokumentacijom i demo-ima. Zahtevi:
- NVIDIA GPU sa najmanje 24GB VRAM za puni model
- Kvantizovane verzije dostupne za manje GPU-jeve
- Python 3.10+ sa PyTorch 2.0+
Brzi start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentacija je uglavnom na engleskom uprkos tome što je ByteDance kineska kompanija, što odražava globalnu ciljnu publiku.
Šta ovo znači za industriju
AI video pejzaž sada ima dve različite linije:
| Linija | Vodeći | Fokus | Vrednost |
|---|---|---|---|
| Generisanje | Runway, Sora, Veo, Kling | Kreiranje novog videa | Kreativno izražavanje |
| Razumevanje | Vidi2, (drugi se pojavljuju) | Analiza postojećeg videa | Produktivnost |
Obe će sazreti. Obe će se integrisati. Kompletan AI video stek 2026. će generisati, editovati, i razumeti besprekorno.
Za sada, Vidi2 predstavlja najsposobniju open-source opciju za razumevanje videa. Ako imate snimke za analizu, editovanje za automatizaciju, ili sadržaj za organizaciju, ovo je model za istraživanje.
Moje mišljenje
Godine sam gradio pipeline-e za obradu videa. Pre i posle sa modelima kao što je Vidi2 je velika razlika. Zadaci koji su zahtevali prilagođene computer vision stack-ove, ručno označavanje, i krhke heuristike sada mogu da se reše promptom.
Najbolji AI alati ne zamenjuju ljudsku prosudbu. Oni uklanjaju dosadan posao koji sprečava ljude da primene prosudbu u obimu.
Vidi2 ne zamenjuje editore. Daje editorima mogućnosti koje su ranije bile nemoguće u obimu. I sa otvorenim pristupom (za nekomercijalnu upotrebu), ove mogućnosti su dostupne svakome ko je spreman da postavi infrastrukturu.
Budućnost videa nije samo generisanje. To je razumevanje. I ta budućnost je sada otvoreni izvorni kod.
Izvori
Da li vam je ovaj članak bio od pomoći?

Damien
AI ProgramerAI programer iz Liona koji voli da pretvara složene ML koncepte u jednostavne recepte. Kada ne otklanja greške u modelima, možete ga pronaći kako vozi bicikl kroz dolinu Rone.
Povezani članci
Nastavite istraživanje sa ovim povezanim člancima

ByteDance Seedance 1.5 Pro: Model koji generiše audio i video zajedno
ByteDance izdaje Seedance 1.5 Pro sa nativnom audio-vizuelnom generacijom, kinematografskim kontrolama kamere i višejezičnom sinhronizacijom usana. Besplatno dostupno u CapCut.

YouTube Donosi Veo 3 Fast u Shorts: Besplatno AI Generisanje Videa za 2,5 Milijardi Korisnika
Google integrise svoj model Veo 3 Fast direktno u YouTube Shorts, nudeći besplatno generisanje videa iz teksta sa zvukom za kreatore širom sveta. Evo šta to znači za platformu i dostupnost AI videa.

Kling 2.6: Kloniranje glasa i kontrola pokreta menjaju kreiranje AI videa
Najnovije ažuriranje Kuaishoua donosi simultano audio-vizuelno generisanje, trening prilagođenog glasa i precizni motion capture koji mogu promeniti pristup kreatora AI video produkciji.