ByteDance Vidi2: AI koji razumije video kao profesionalni urednik
ByteDance je objavio Vidi2 kao open-source - model s 12 milijardi parametara koji razumije video sadržaj dovoljno dobro da automatski uredi sate snimljenog materijala u uglađene klipove. Već pokreće TikTok Smart Split.

Dok svi opsesivno prate generiranje videa, ByteDance je tiho riješio drugačiji problem: naučio AI da razumije video kao iskusni urednik. Vidi2 može gledati sate sirovog materijala i izvući točno ono što je bitno.
Problem o kojem nitko ne govori
Sada imamo nevjerojatne AI generatore videa. Runway Gen-4.5 vodi na ljestvicama kvalitete. Kling O1 generira sinkronizirani zvuk. Ali evo prljave tajne video produkcije: većina vremena odlazi na montažu, ne na kreiranje.
Vjenčani snimatelj snimi 8 sati materijala za 5-minutni highlight reel. Kreator sadržaja snima 45 minuta da napravi 60-sekundni TikTok. Poslovni tim ima 200 sati materijala za obuku zakopanih u SharePointu.
Generiranje videa dobiva naslove. Razumijevanje videa obavlja stvarni posao.
Vidi2 se bavi ovim razmakom. Nije još jedan generator. To je AI koji gleda video, razumije što se događa i pomaže vam raditi s tim sadržajem na velikoj skali.
Što Vidi2 zapravo radi
ByteDance opisuje Vidi2 kao "Veliki multimodalni model za razumijevanje i kreiranje videa." Model od 12 milijardi parametara izvrsno se snalazi u:
Prostorno-vremensko utemeljenje
Pronalaženje bilo kojeg objekta u videu i praćenje kroz vrijeme. Ne samo "mačka je na 0:32" već "mačka ulazi na 0:32, kreće se na kauč na 0:45 i napušta kadar na 1:12."
Inteligentna montaža
Analiza materijala i predlaganje rezova na temelju sadržaja. Pronalaženje najboljih trenutaka, identificiranje granica scena, razumijevanje ritma.
Analiza sadržaja
Opisivanje što se događa u videu s dovoljno detalja da bude korisno. Ne "dvoje ljudi razgovara" već "intervju segment, gost objašnjava značajke proizvoda, trenutak visokog angažmana na 3:45."
Praćenje objekata
Praćenje objekata kao kontinuiranih "cijevi" kroz video, čak i kada napuste i ponovno uđu u kadar. Ovo omogućava preciznu selekciju za efekte, uklanjanje ili naglašavanje.
Tehnička inovacija: Prostorno-vremensko utemeljenje
Prethodni video AI radio je u dvije dimenzije: prostor (što je u ovom kadru) ili vrijeme (kada se nešto događa). Vidi2 kombinira oboje u ono što ByteDance naziva "Prostorno-vremensko utemeljenje" (STG).
Tradicionalni pristup:
- Prostorno: "Automobil je na piksel koordinatama (450, 320)"
- Vremenski: "Automobil se pojavljuje na vremenskoj oznaci 0:15"
- Rezultat: Nepovezane informacije koje zahtijevaju ručnu korelaciju
Vidi2 STG:
- Kombinirano: "Crveni automobil je na (450, 320) na 0:15, kreće se na (890, 340) na 0:18, izlazi desno na 0:22"
- Rezultat: Potpuna putanja objekta kroz prostor i vrijeme
Ovo je važno jer stvarni zadaci montaže zahtijevaju obje dimenzije. "Ukloni mikrofon na šipci" mora znati gdje se pojavljuje (prostorno) i koliko dugo (vremenski). Vidi2 to rješava kao jedan upit.
Benchmarkovi: Pobjeđivanje divova
Ovdje postaje zanimljivo. Na ByteDance-ovom VUE-STG benchmarku za prostorno-vremensko utemeljenje, Vidi2 nadmašuje Gemini 2.0 Flash i GPT-4o, unatoč tome što ima manje parametara od oba.
Napomena: ove benchmarkove kreirao je ByteDance. Neovisna provjera na benchmarkovima treće strane ojačala bi ove tvrdnje. Ipak, pristup specijalizirane arhitekture je solidan.
Rezultati benchmarka sugeriraju da razumijevanje videa ima koristi od specijaliziranog dizajna više nego od sirove veličine. Model izgrađen za video od temelja može nadmašiti veće modele opće namjene koji video tretiraju kao proširenje razumijevanja slika.
Već u produkciji: TikTok Smart Split
Ovo nije vaporware. Vidi2 pokreće TikTok-ovu značajku "Smart Split", koja:
- ✓Automatski izvlači isječke iz dugih videozapisa
- ✓Generira titlove sinkronizirane s govorom
- ✓Rekonstruira raspored za različite omjere slike
- ✓Identificira optimalne točke reza na temelju sadržaja
Milijuni kreatora svakodnevno koriste Smart Split. Model je dokazan na velikoj skali, nije teoretski.
Open source: Pokrenite ga sami
ByteDance je objavio Vidi2 na GitHubu pod CC BY-NC 4.0 licencom. To znači besplatno za istraživanje, edukaciju i osobne projekte, ali komercijalna upotreba zahtijeva odvojeno licenciranje. Implikacije:
Za developere:
- Izgradite prilagođene pipeline-ove za analizu videa
- Integrirajte razumijevanje u postojeće alate
- Fine-tuniranje za specifične domene
- Nema API troškova na velikoj skali
Za poduzeća:
- Lokalno obrađujte osjetljiv materijal
- Izgradite vlasnički workflow za montažu
- Izbjegnite vendor lock-in
- Prilagodite za interne vrste sadržaja
Objava otvorenog koda slijedi obrazac koji smo vidjeli s LTX Video i drugim kineskim AI laboratorijima: otvoreno objavljivanje moćnih modela dok zapadni konkurenti drže svoje vlasnički.
Praktične primjene
Proći ću kroz neke stvarne workflowe koje Vidi2 omogućava:
Prenamjena sadržaja
Ulaz: 2-satna snimka podcasta Izlaz: 10 kratkih klipova najboljih trenutaka, svaki s ispravnim intro/outro rezovima
Model identificira zanimljive trenutke, pronalazi prirodne točke reza i izvlači klipove koji funkcioniraju kao samostalni sadržaj.
Upravljanje video materijalima za obuku
Ulaz: 500 sati korporativnog materijala za obuku Upit: "Pronađi sve segmente koji objašnjavaju novi CRM workflow"
Umjesto ručnog pregledavanja ili oslanjanja na nepouzdane metapodatke, Vidi2 zapravo gleda i razumije sadržaj.
Sportski isječci
Ulaz: Snimka cijele utakmice Izlaz: Highlight reel sa svim trenucima pogodaka, bliskim situacijama i slavlja
Model razumije sportski kontekst dovoljno dobro da identificira značajne trenutke, ne samo pokret.
Pregled nadzora
Ulaz: 24 sata sigurnosne snimke Upit: "Pronađi sve slučajeve ljudi koji ulaze kroz bočna vrata poslije 18h"
Prostorno-vremensko utemeljenje znači precizne odgovore s točnim vremenskim oznakama i lokacijama.
Kako se uspoređuje s generativnim modelima
- Radi s postojećim materijalima
- Štedi vrijeme montaže, ne vrijeme generiranja
- Skalira na ogromne video biblioteke
- Ne zahtijeva kreativno promptanje
- Odmah praktično za poduzeća
- Kreira novi sadržaj iz ničega
- Alat za kreativno izražavanje
- Primjene u marketingu i oglašavanju
- Kvaliteta brzo raste
- Uzbudljivo ali drugačiji slučaj upotrebe
Ovo nisu konkurentne tehnologije. Rješavaju različite probleme. Potpuni AI video workflow treba oboje: generiranje za kreiranje novog sadržaja, razumijevanje za rad s postojećim sadržajem.
Šira slika
Razumijevanje videa je gdje AI prelazi iz "impresivnog demo-a" u "svakodnevni alat." Generiranje dobiva pažnju. Razumijevanje obavlja posao.
Razmislite što ovo omogućava:
- Svako poduzeće ima video sadržaj zarobljen u arhivama
- Svaki kreator provodi više vremena u montaži nego snimanju
- Svaka platforma treba bolju moderaciju i otkrivanje sadržaja
- Svaki istraživač ima materijal koji ne može učinkovito analizirati
Vidi2 se bavi svim ovim. Objava otvorenog koda znači da su ove mogućnosti sada dostupne svakome s dovoljnom računalnom snagom.
Početak rada
Model je dostupan na GitHubu s dokumentacijom i demo verzijama. Zahtjevi:
- NVIDIA GPU s najmanje 24GB VRAM za potpuni model
- Kvantizirane verzije dostupne za manje GPU-e
- Python 3.10+ s PyTorch 2.0+
Brzi početak:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentacija je uglavnom na engleskom unatoč tome što je ByteDance kineska tvrtka, što odražava globalnu ciljanu publiku.
Što ovo znači za industriju
Krajolik AI videa sada ima dva različita pravca:
| Pravac | Lideri | Fokus | Vrijednost |
|---|---|---|---|
| Generiranje | Runway, Sora, Veo, Kling | Kreiranje novog videa | Kreativno izražavanje |
| Razumijevanje | Vidi2, (drugi se pojavljuju) | Analiza postojećeg videa | Produktivnost |
Oba će sazrijevati. Oba će se integrirati. Potpuni AI video stack 2026. će besprijekorno generirati, uređivati i razumijevati.
Za sada, Vidi2 predstavlja najsposobniju open-source opciju za razumijevanje videa. Ako imate materijal za analizu, montažu za automatizaciju ili sadržaj za organizaciju, ovo je model za istraživanje.
Moj stav
Proveo sam godine gradnjom video processing pipeline-ova. Prije i poslije s modelima poput Vidi2 je drastično. Zadaci koji su zahtijevali prilagođene computer vision stackove, ručnu anotaciju i krhke heuristike sada se mogu riješiti promptom.
Najbolji AI alati ne zamjenjuju ljudsku prosudbu. Oni uklanjaju dosadan posao koji sprječava ljude da primjenjuju prosudbu na velikoj skali.
Vidi2 ne zamjenjuje urednike. Daje urednicima mogućnosti koje su prije bile nemoguće na velikoj skali. I s otvorenim pristupom (za nekomercijalnu upotrebu), ove mogućnosti su dostupne svakome tko je spreman postaviti infrastrukturu.
Budućnost videa nije samo generiranje. To je razumijevanje. I ta budućnost je sada open source.
Izvori
Je li vam ovaj članak bio koristan?

Damien
AI ProgramerAI programer iz Lyona koji voli pretvarati složene ML koncepte u jednostavne recepte. Kada ne otklanja greške u modelima, možete ga naći kako vozi bicikl kroz dolinu Rhône.
Povezani članci
Nastavite istraživati s ovim povezanim objavama

ByteDance Seedance 1.5 Pro: Model koji generira audio i video zajedno
ByteDance objavljuje Seedance 1.5 Pro s native audio-visual generiranjem, cinema-grade kontrolama kamere i višejezičnom sinkronizacijom usana. Besplatno dostupno na CapCut-u.

YouTube Donosi Veo 3 Fast u Shorts: Besplatno AI Generiranje Videa za 2,5 Milijardi Korisnika
Google integrira svoj model Veo 3 Fast izravno u YouTube Shorts, nudeći besplatno generiranje videa iz teksta sa zvukom za kreatore diljem svijeta. Evo što to znači za platformu i dostupnost AI videa.

Kling 2.6: kloniranje glasa i kontrola pokreta redefiniraju stvaranje AI videa
Najnovije ažuriranje Kuaishoua donosi istovremeno audio-vizualno generiranje, prilagođeni trening glasa i precizno hvatanje pokreta koji bi mogli promijeniti pristup kreatora produkciji AI videa.