ByteDance Vidi2: AI koji razumije video kao profesionalni urednik

Dok svi opsesivno prate generiranje videa, ByteDance je tiho riješio drugačiji problem: naučio AI da razumije video kao iskusni urednik. Vidi2 može gledati sate sirovog materijala i izvući točno ono što je bitno.

Problem o kojem nitko ne govori

Sada imamo nevjerojatne AI generatore videa. Runway Gen-4.5 vodi na ljestvicama kvalitete. Kling O1 generira sinkronizirani zvuk. Ali evo prljave tajne video produkcije: većina vremena odlazi na montažu, ne na kreiranje.

Vjenčani snimatelj snimi 8 sati materijala za 5-minutni highlight reel. Kreator sadržaja snima 45 minuta da napravi 60-sekundni TikTok. Poslovni tim ima 200 sati materijala za obuku zakopanih u SharePointu.

💡

Generiranje videa dobiva naslove. Razumijevanje videa obavlja stvarni posao.

Vidi2 se bavi ovim razmakom. Nije još jedan generator. To je AI koji gleda video, razumije što se događa i pomaže vam raditi s tim sadržajem na velikoj skali.

Što Vidi2 zapravo radi

ByteDance opisuje Vidi2 kao "Veliki multimodalni model za razumijevanje i kreiranje videa." Model od 12 milijardi parametara izvrsno se snalazi u:

🔍

Prostorno-vremensko utemeljenje

Pronalaženje bilo kojeg objekta u videu i praćenje kroz vrijeme. Ne samo "mačka je na 0:32" već "mačka ulazi na 0:32, kreće se na kauč na 0:45 i napušta kadar na 1:12."

✂️

Inteligentna montaža

Analiza materijala i predlaganje rezova na temelju sadržaja. Pronalaženje najboljih trenutaka, identificiranje granica scena, razumijevanje ritma.

📝

Analiza sadržaja

Opisivanje što se događa u videu s dovoljno detalja da bude korisno. Ne "dvoje ljudi razgovara" već "intervju segment, gost objašnjava značajke proizvoda, trenutak visokog angažmana na 3:45."

🎯

Praćenje objekata

Praćenje objekata kao kontinuiranih "cijevi" kroz video, čak i kada napuste i ponovno uđu u kadar. Ovo omogućava preciznu selekciju za efekte, uklanjanje ili naglašavanje.

Tehnička inovacija: Prostorno-vremensko utemeljenje

Prethodni video AI radio je u dvije dimenzije: prostor (što je u ovom kadru) ili vrijeme (kada se nešto događa). Vidi2 kombinira oboje u ono što ByteDance naziva "Prostorno-vremensko utemeljenje" (STG).

Tradicionalni pristup:

Prostorno: "Automobil je na piksel koordinatama (450, 320)"
Vremenski: "Automobil se pojavljuje na vremenskoj oznaci 0:15"
Rezultat: Nepovezane informacije koje zahtijevaju ručnu korelaciju

Vidi2 STG:

Kombinirano: "Crveni automobil je na (450, 320) na 0:15, kreće se na (890, 340) na 0:18, izlazi desno na 0:22"
Rezultat: Potpuna putanja objekta kroz prostor i vrijeme

Ovo je važno jer stvarni zadaci montaže zahtijevaju obje dimenzije. "Ukloni mikrofon na šipci" mora znati gdje se pojavljuje (prostorno) i koliko dugo (vremenski). Vidi2 to rješava kao jedan upit.

Benchmarkovi: Pobjeđivanje divova

12B

Parameters

Video Understanding

Open

Source

Ovdje postaje zanimljivo. Na ByteDance-ovom VUE-STG benchmarku za prostorno-vremensko utemeljenje, Vidi2 nadmašuje Gemini 2.0 Flash i GPT-4o, unatoč tome što ima manje parametara od oba.

💡

Napomena: ove benchmarkove kreirao je ByteDance. Neovisna provjera na benchmarkovima treće strane ojačala bi ove tvrdnje. Ipak, pristup specijalizirane arhitekture je solidan.

Rezultati benchmarka sugeriraju da razumijevanje videa ima koristi od specijaliziranog dizajna više nego od sirove veličine. Model izgrađen za video od temelja može nadmašiti veće modele opće namjene koji video tretiraju kao proširenje razumijevanja slika.

Već u produkciji: TikTok Smart Split

Ovo nije vaporware. Vidi2 pokreće TikTok-ovu značajku "Smart Split", koja:

✓Automatski izvlači isječke iz dugih videozapisa
✓Generira titlove sinkronizirane s govorom
✓Rekonstruira raspored za različite omjere slike
✓Identificira optimalne točke reza na temelju sadržaja

Milijuni kreatora svakodnevno koriste Smart Split. Model je dokazan na velikoj skali, nije teoretski.

Open source: Pokrenite ga sami

ByteDance je objavio Vidi2 na GitHubu pod CC BY-NC 4.0 licencom. To znači besplatno za istraživanje, edukaciju i osobne projekte, ali komercijalna upotreba zahtijeva odvojeno licenciranje. Implikacije:

Za developere:

Izgradite prilagođene pipeline-ove za analizu videa
Integrirajte razumijevanje u postojeće alate
Fine-tuniranje za specifične domene
Nema API troškova na velikoj skali

Za poduzeća:

Lokalno obrađujte osjetljiv materijal
Izgradite vlasnički workflow za montažu
Izbjegnite vendor lock-in
Prilagodite za interne vrste sadržaja

Objava otvorenog koda slijedi obrazac koji smo vidjeli s LTX Video i drugim kineskim AI laboratorijima: otvoreno objavljivanje moćnih modela dok zapadni konkurenti drže svoje vlasnički.

Praktične primjene

Proći ću kroz neke stvarne workflowe koje Vidi2 omogućava:

Prenamjena sadržaja

Ulaz: 2-satna snimka podcasta Izlaz: 10 kratkih klipova najboljih trenutaka, svaki s ispravnim intro/outro rezovima

Model identificira zanimljive trenutke, pronalazi prirodne točke reza i izvlači klipove koji funkcioniraju kao samostalni sadržaj.

Upravljanje video materijalima za obuku

Ulaz: 500 sati korporativnog materijala za obuku Upit: "Pronađi sve segmente koji objašnjavaju novi CRM workflow"

Umjesto ručnog pregledavanja ili oslanjanja na nepouzdane metapodatke, Vidi2 zapravo gleda i razumije sadržaj.

Sportski isječci

Ulaz: Snimka cijele utakmice Izlaz: Highlight reel sa svim trenucima pogodaka, bliskim situacijama i slavlja

Model razumije sportski kontekst dovoljno dobro da identificira značajne trenutke, ne samo pokret.

Pregled nadzora

Ulaz: 24 sata sigurnosne snimke Upit: "Pronađi sve slučajeve ljudi koji ulaze kroz bočna vrata poslije 18h"

Prostorno-vremensko utemeljenje znači precizne odgovore s točnim vremenskim oznakama i lokacijama.

Kako se uspoređuje s generativnim modelima

✓Razumijevanje videa (Vidi2)

Radi s postojećim materijalima
Štedi vrijeme montaže, ne vrijeme generiranja
Skalira na ogromne video biblioteke
Ne zahtijeva kreativno promptanje
Odmah praktično za poduzeća

✓Generiranje videa (Runway, Sora)

Kreira novi sadržaj iz ničega
Alat za kreativno izražavanje
Primjene u marketingu i oglašavanju
Kvaliteta brzo raste
Uzbudljivo ali drugačiji slučaj upotrebe

Ovo nisu konkurentne tehnologije. Rješavaju različite probleme. Potpuni AI video workflow treba oboje: generiranje za kreiranje novog sadržaja, razumijevanje za rad s postojećim sadržajem.

Šira slika

⚠️

Razumijevanje videa je gdje AI prelazi iz "impresivnog demo-a" u "svakodnevni alat." Generiranje dobiva pažnju. Razumijevanje obavlja posao.

Razmislite što ovo omogućava:

Svako poduzeće ima video sadržaj zarobljen u arhivama
Svaki kreator provodi više vremena u montaži nego snimanju
Svaka platforma treba bolju moderaciju i otkrivanje sadržaja
Svaki istraživač ima materijal koji ne može učinkovito analizirati

Vidi2 se bavi svim ovim. Objava otvorenog koda znači da su ove mogućnosti sada dostupne svakome s dovoljnom računalnom snagom.

Početak rada

Model je dostupan na GitHubu s dokumentacijom i demo verzijama. Zahtjevi:

NVIDIA GPU s najmanje 24GB VRAM za potpuni model
Kvantizirane verzije dostupne za manje GPU-e
Python 3.10+ s PyTorch 2.0+

Brzi početak:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentacija je uglavnom na engleskom unatoč tome što je ByteDance kineska tvrtka, što odražava globalnu ciljanu publiku.

Što ovo znači za industriju

Krajolik AI videa sada ima dva različita pravca:

Pravac	Lideri	Fokus	Vrijednost
Generiranje	Runway, Sora, Veo, Kling	Kreiranje novog videa	Kreativno izražavanje
Razumijevanje	Vidi2, (drugi se pojavljuju)	Analiza postojećeg videa	Produktivnost

Oba će sazrijevati. Oba će se integrirati. Potpuni AI video stack 2026. će besprijekorno generirati, uređivati i razumijevati.

Za sada, Vidi2 predstavlja najsposobniju open-source opciju za razumijevanje videa. Ako imate materijal za analizu, montažu za automatizaciju ili sadržaj za organizaciju, ovo je model za istraživanje.

Moj stav

Proveo sam godine gradnjom video processing pipeline-ova. Prije i poslije s modelima poput Vidi2 je drastično. Zadaci koji su zahtijevali prilagođene computer vision stackove, ručnu anotaciju i krhke heuristike sada se mogu riješiti promptom.

💡

Najbolji AI alati ne zamjenjuju ljudsku prosudbu. Oni uklanjaju dosadan posao koji sprječava ljude da primjenjuju prosudbu na velikoj skali.

Vidi2 ne zamjenjuje urednike. Daje urednicima mogućnosti koje su prije bile nemoguće na velikoj skali. I s otvorenim pristupom (za nekomercijalnu upotrebu), ove mogućnosti su dostupne svakome tko je spreman postaviti infrastrukturu.

Budućnost videa nije samo generiranje. To je razumijevanje. I ta budućnost je sada open source.

Izvori

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)