ByteDance Vidi2: AI, ki razume video kot profesionalni urednik

Medtem ko vsi obsedeno govorijo o generiranju videa, je ByteDance tiho rešil drugačen problem: narediti AI, ki razume video kot izkušen urednik. Vidi2 lahko gleda ure surovega posnetka in izvleče točno tisto, kar je pomembno.

Problem, o katerem nihče ne govori

Danes imamo neverjetne AI generatorje videa. Runway Gen-4.5 vodi lestvice kakovosti. Kling O1 generira sinhronizirani zvok. Toda tu je umazana skrivnost video produkcije: večina časa gre v urejanje, ne v ustvarjanje.

Poročni snemalec posname 8 ur posnetkov za 5-minutni povzetek najboljših trenutkov. Ustvarjalec vsebine posname 45 minut, da naredi 60-sekundni TikTok. Podjetje ima 200 ur učnih posnetkov zakopanih v SharePointu.

💡

Generiranje videa dobi naslove. Razumevanje videa opravlja dejansko delo.

Vidi2 naslavlja to vrzel. To ni še en generator. To je AI, ki gleda video, razume, kaj se dogaja, in vam pomaga delati s to vsebino v večjem obsegu.

Kaj Vidi2 dejansko dela

ByteDance opisuje Vidi2 kot "velik multimodalni model za razumevanje in ustvarjanje videa". Model z 12 milijardami parametrov odlično:

🔍

Prostorsko-časovno umeščanje

Najde katerikoli objekt v videu in ga sledi skozi čas. Ne samo "mačka je pri 0:32", ampak "mačka vstopi pri 0:32, se premakne na kavč pri 0:45 in zapusti pogled pri 1:12."

✂️

Inteligentno urejanje

Analizira posnetek in predlaga rezove na podlagi vsebine. Najde najboljše trenutke, prepozna meje scen, razume tempo.

📝

Analiza vsebine

Opiše, kaj se dogaja v videu, z dovolj podrobnostmi, da je uporabno. Ne "dva človeka se pogovarjata", ampak "segment intervjuja, gost razlaga funkcije produkta, visoka vključenost pri 3:45."

🎯

Sledenje objektom

Sledi objektom kot neprekinjenim "cevem" skozi video, tudi ko zapustijo in ponovno vstopijo v pogled. To omogoča natančno izbiro za efekte, odstranitev ali poudarek.

Tehnična inovacija: prostorsko-časovno umeščanje

Prejšnji video AI je deloval v dveh dimenzijah: prostor (kaj je v tem kadru) ali čas (kdaj se kaj zgodi). Vidi2 združi obe v tisto, kar ByteDance imenuje "prostorsko-časovno umeščanje" (STG).

Tradicionalni pristop:

Prostorsko: "Avto je na pikselskih koordinatah (450, 320)"
Časovno: "Avto se pojavi ob časovni oznaki 0:15"
Rezultat: Nepovezane informacije, ki zahtevajo ročno korelacijo

Vidi2 STG:

Kombinirano: "Rdeči avto je na (450, 320) pri 0:15, se premakne na (890, 340) pri 0:18, zapusti desno pri 0:22"
Rezultat: Popolna trajektorija objekta skozi prostor in čas

To je pomembno, ker resnične naloge urejanja zahtevajo obe dimenziji. "Odstrani mikrofon na palici" mora vedeti, kje se pojavi (prostorsko) in kako dolgo (časovno). Vidi2 to obdela kot eno samo poizvedbo.

Meritve: preseganje velikanov

12B

Parametrov

Razumevanje videa

Odprta

Izvorna koda

Tu postane zanimivo. Na ByteDance-ovem merilu VUE-STG za prostorsko-časovno umeščanje Vidi2 preseže tako Gemini 2.0 Flash kot GPT-4o, kljub temu da ima manj parametrov od obeh.

💡

Opozorilo: ta merila je ustvaril ByteDance. Neodvisna preverjanja na merlih tretjih stran bi okrepila te trditve. Kljub temu je pristop specializirane arhitekture smiseln.

Rezultati meritev kažejo, da razumevanje videa koristi bolj od specializirane zasnove kot od surove velikosti. Model, zgrajen za video od temeljev, lahko preseže večje splošnonamensko modele, ki obravnavajo video kot razširitev razumevanja slik.

Že v produkciji: TikTok Smart Split

To ni vaporware. Vidi2 poganja TikTokovo funkcijo "Smart Split", ki:

✓Samodejno izvleče najboljše trenutke iz dolgih videov
✓Generira podnapise, sinhronizirane z govorom
✓Rekonstruira postavitev za različna razmerja stranic
✓Prepozna optimalne točke rezov na podlagi vsebine

Milijoni ustvarjalcev dnevno uporabljajo Smart Split. Model je dokazan v obsegu, ne teoretičen.

Odprta izvorna koda: zaženite ga sami

ByteDance je izdal Vidi2 na GitHubu pod licenco CC BY-NC 4.0. To pomeni brezplačno za raziskave, izobraževanje in osebne projekte, vendar komercialna uporaba zahteva ločeno licenciranje. Posledice:

Za razvijalce:

Zgradite pipeline-e za analizo videa po meri
Integrirajte razumevanje v obstoječa orodja
Fino prilagodite za specifične domene
Brez stroškov API v obsegu

Za podjetja:

Obdelujte občutljive posnetke lokalno
Zgradite lastne delovne tokove urejanja
Izognite se vezanosti na ponudnika
Prilagodite za notranje tipe vsebine

Izdaja odprte izvorne kode sledi vzorcu, ki smo ga videli z LTX Video in drugimi kitajskimi AI laboratoriji: izdaja močnih modelov javno, medtem ko zahodni konkurenti ohranjajo svoje lastniške.

Praktične aplikacije

Oglejmo si nekaj resničnih delovnih tokov, ki jih Vidi2 omogoča:

Preoblikovanje vsebine

Vhod: 2-urni posnetek podcasta Izhod: 10 kratkih klipov najboljših trenutkov, vsak z ustreznimi rezovi uvoda/zaključka

Model prepozna zanimive trenutke, najde naravne točke rezov in izvleče klipe, ki delujejo kot samostojna vsebina.

Upravljanje učnih videov

Vhod: 500 ur podjetniških učnih posnetkov Poizvedba: "Najdi vse segmente, ki razlagajo novi CRM delovni tok"

Namesto ročnega pregledovanja ali zanašanja na nezanesljive metapodatke Vidi2 dejansko gleda in razume vsebino.

Športni povzetki

Vhod: Posnetek celotne tekme Izhod: Povzetek s trenutki zadetkov, tesnimi situacijami in praznovanji

Model razume športni kontekst dovolj dobro, da prepozna pomembne trenutke, ne samo gibanje.

Pregled nadzornih posnetkov

Vhod: 24 ur varnostnega posnetka Poizvedba: "Najdi vse primere ljudi, ki vstopajo skozi stranska vrata po 18. uri"

Prostorsko-časovno umeščanje pomeni natančne odgovore z natančnimi časovnimi oznakami in lokacijami.

Kako se primerja z generacijskimi modeli

✓Razumevanje videa (Vidi2)

Dela z obstoječim posnetkom
Prihrani čas urejanja, ne čas generiranja
Se skalira na ogromne video knjižnice
Ne zahteva ustvarjalnega pozivanja
Praktično za podjetja takoj

✓Generiranje videa (Runway, Sora)

Ustvarja novo vsebino iz nič
Orodje za ustvarjalno izražanje
Aplikacije za marketing in oglaševanje
Kakovost hitro raste
Vznemirljivo, a drugačen primer uporabe

To niso konkurenčne tehnologije. Rešujejo različne probleme. Popoln AI video delovni tok potrebuje oboje: generiranje za ustvarjanje nove vsebine, razumevanje za delo z obstoječo vsebino.

Širša slika

⚠️

Razumevanje videa je tam, kjer AI preide iz "impresivnega dema" v "dnevno orodje". Generiranje dobi pozornost. Razumevanje opravi delo.

Razmislite, kaj to omogoča:

Vsako podjetje ima video vsebino ujeto v arhivih
Vsak ustvarjalec porabi več časa za urejanje kot za snemanje
Vsaka platforma potrebuje boljšo moderacijo vsebine in odkrivanje
Vsak raziskovalec ima posnetke, ki jih ne more učinkovito analizirati

Vidi2 naslavlja vse to. Izdaja odprte izvorne kode pomeni, da so te zmožnosti zdaj dostopne vsakomur z dovolj računske moči.

Začetek

Model je na voljo na GitHubu z dokumentacijo in demi. Zahteve:

NVIDIA GPU z vsaj 24GB VRAM za polni model
Kvantizirane različice na voljo za manjše GPU-je
Python 3.10+ s PyTorch 2.0+

Hiter začetek:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentacija je predvsem v angleščini, kljub temu da je ByteDance kitajsko podjetje, kar odraža globalno ciljno občinstvo.

Kaj to pomeni za industrijo

AI video področje ima zdaj dve ločeni smeri:

Smer	Vodilni	Fokus	Vrednost
Generiranje	Runway, Sora, Veo, Kling	Ustvarjanje novega videa	Ustvarjalno izražanje
Razumevanje	Vidi2, (drugi se pojavljajo)	Analiza obstoječega videa	Produktivnost

Obe bosta zoreli. Obe se bosta integrirani. Popolni AI video sklad leta 2026 bo generiral, urejal in razumel brezšivno.

Za zdaj Vidi2 predstavlja najbolj zmogljivo odprtokodno možnost za razumevanje videa. Če imate posnetke za analizo, urejanje za avtomatizacijo ali vsebino za organizacijo, je to model za raziskovanje.

Moje mnenje

Leta sem gradil pipeline-e za obdelavo videa. Pred in po modelih kot je Vidi2 je velika razlika. Naloge, ki so zahtevale sklope računalniškega vida po meri, ročno anotacijo in krhke hevristike, je zdaj mogoče rešiti s pozivom.

💡

Najboljša AI orodja ne nadomestijo človeške presoje. Odstranijo zamudno delo, ki preprečuje ljudem uporabo presoje v obsegu.

Vidi2 ne nadomešča urednike. Daje urednikom zmožnosti, ki so bile prej nemogoče v obsegu. In z odprtim dostopom (za nekomercialno uporabo) so te zmožnosti na voljo vsakomur, ki je pripravljen postaviti infrastrukturo.

Prihodnost videa ni samo generiranje. To je razumevanje. In ta prihodnost je zdaj odprta izvorna koda.

Viri

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)