ByteDance Vidi2: AI, ki razume video kot profesionalni urednik
ByteDance je odprl izvorno kodo za Vidi2, model z 12 milijardami parametrov, ki razume video vsebino dovolj dobro, da samodejno uredi ure posnetkov v izboljšane klipe. Že poganja TikTok Smart Split.

Medtem ko vsi obsedeno govorijo o generiranju videa, je ByteDance tiho rešil drugačen problem: narediti AI, ki razume video kot izkušen urednik. Vidi2 lahko gleda ure surovega posnetka in izvleče točno tisto, kar je pomembno.
Problem, o katerem nihče ne govori
Danes imamo neverjetne AI generatorje videa. Runway Gen-4.5 vodi lestvice kakovosti. Kling O1 generira sinhronizirani zvok. Toda tu je umazana skrivnost video produkcije: večina časa gre v urejanje, ne v ustvarjanje.
Poročni snemalec posname 8 ur posnetkov za 5-minutni povzetek najboljših trenutkov. Ustvarjalec vsebine posname 45 minut, da naredi 60-sekundni TikTok. Podjetje ima 200 ur učnih posnetkov zakopanih v SharePointu.
Generiranje videa dobi naslove. Razumevanje videa opravlja dejansko delo.
Vidi2 naslavlja to vrzel. To ni še en generator. To je AI, ki gleda video, razume, kaj se dogaja, in vam pomaga delati s to vsebino v večjem obsegu.
Kaj Vidi2 dejansko dela
ByteDance opisuje Vidi2 kot "velik multimodalni model za razumevanje in ustvarjanje videa". Model z 12 milijardami parametrov odlično:
Prostorsko-časovno umeščanje
Najde katerikoli objekt v videu in ga sledi skozi čas. Ne samo "mačka je pri 0:32", ampak "mačka vstopi pri 0:32, se premakne na kavč pri 0:45 in zapusti pogled pri 1:12."
Inteligentno urejanje
Analizira posnetek in predlaga rezove na podlagi vsebine. Najde najboljše trenutke, prepozna meje scen, razume tempo.
Analiza vsebine
Opiše, kaj se dogaja v videu, z dovolj podrobnostmi, da je uporabno. Ne "dva človeka se pogovarjata", ampak "segment intervjuja, gost razlaga funkcije produkta, visoka vključenost pri 3:45."
Sledenje objektom
Sledi objektom kot neprekinjenim "cevem" skozi video, tudi ko zapustijo in ponovno vstopijo v pogled. To omogoča natančno izbiro za efekte, odstranitev ali poudarek.
Tehnična inovacija: prostorsko-časovno umeščanje
Prejšnji video AI je deloval v dveh dimenzijah: prostor (kaj je v tem kadru) ali čas (kdaj se kaj zgodi). Vidi2 združi obe v tisto, kar ByteDance imenuje "prostorsko-časovno umeščanje" (STG).
Tradicionalni pristop:
- Prostorsko: "Avto je na pikselskih koordinatah (450, 320)"
- Časovno: "Avto se pojavi ob časovni oznaki 0:15"
- Rezultat: Nepovezane informacije, ki zahtevajo ročno korelacijo
Vidi2 STG:
- Kombinirano: "Rdeči avto je na (450, 320) pri 0:15, se premakne na (890, 340) pri 0:18, zapusti desno pri 0:22"
- Rezultat: Popolna trajektorija objekta skozi prostor in čas
To je pomembno, ker resnične naloge urejanja zahtevajo obe dimenziji. "Odstrani mikrofon na palici" mora vedeti, kje se pojavi (prostorsko) in kako dolgo (časovno). Vidi2 to obdela kot eno samo poizvedbo.
Meritve: preseganje velikanov
Tu postane zanimivo. Na ByteDance-ovem merilu VUE-STG za prostorsko-časovno umeščanje Vidi2 preseže tako Gemini 2.0 Flash kot GPT-4o, kljub temu da ima manj parametrov od obeh.
Opozorilo: ta merila je ustvaril ByteDance. Neodvisna preverjanja na merlih tretjih stran bi okrepila te trditve. Kljub temu je pristop specializirane arhitekture smiseln.
Rezultati meritev kažejo, da razumevanje videa koristi bolj od specializirane zasnove kot od surove velikosti. Model, zgrajen za video od temeljev, lahko preseže večje splošnonamensko modele, ki obravnavajo video kot razširitev razumevanja slik.
Že v produkciji: TikTok Smart Split
To ni vaporware. Vidi2 poganja TikTokovo funkcijo "Smart Split", ki:
- ✓Samodejno izvleče najboljše trenutke iz dolgih videov
- ✓Generira podnapise, sinhronizirane z govorom
- ✓Rekonstruira postavitev za različna razmerja stranic
- ✓Prepozna optimalne točke rezov na podlagi vsebine
Milijoni ustvarjalcev dnevno uporabljajo Smart Split. Model je dokazan v obsegu, ne teoretičen.
Odprta izvorna koda: zaženite ga sami
ByteDance je izdal Vidi2 na GitHubu pod licenco CC BY-NC 4.0. To pomeni brezplačno za raziskave, izobraževanje in osebne projekte, vendar komercialna uporaba zahteva ločeno licenciranje. Posledice:
Za razvijalce:
- Zgradite pipeline-e za analizo videa po meri
- Integrirajte razumevanje v obstoječa orodja
- Fino prilagodite za specifične domene
- Brez stroškov API v obsegu
Za podjetja:
- Obdelujte občutljive posnetke lokalno
- Zgradite lastne delovne tokove urejanja
- Izognite se vezanosti na ponudnika
- Prilagodite za notranje tipe vsebine
Izdaja odprte izvorne kode sledi vzorcu, ki smo ga videli z LTX Video in drugimi kitajskimi AI laboratoriji: izdaja močnih modelov javno, medtem ko zahodni konkurenti ohranjajo svoje lastniške.
Praktične aplikacije
Oglejmo si nekaj resničnih delovnih tokov, ki jih Vidi2 omogoča:
Preoblikovanje vsebine
Vhod: 2-urni posnetek podcasta Izhod: 10 kratkih klipov najboljših trenutkov, vsak z ustreznimi rezovi uvoda/zaključka
Model prepozna zanimive trenutke, najde naravne točke rezov in izvleče klipe, ki delujejo kot samostojna vsebina.
Upravljanje učnih videov
Vhod: 500 ur podjetniških učnih posnetkov Poizvedba: "Najdi vse segmente, ki razlagajo novi CRM delovni tok"
Namesto ročnega pregledovanja ali zanašanja na nezanesljive metapodatke Vidi2 dejansko gleda in razume vsebino.
Športni povzetki
Vhod: Posnetek celotne tekme Izhod: Povzetek s trenutki zadetkov, tesnimi situacijami in praznovanji
Model razume športni kontekst dovolj dobro, da prepozna pomembne trenutke, ne samo gibanje.
Pregled nadzornih posnetkov
Vhod: 24 ur varnostnega posnetka Poizvedba: "Najdi vse primere ljudi, ki vstopajo skozi stranska vrata po 18. uri"
Prostorsko-časovno umeščanje pomeni natančne odgovore z natančnimi časovnimi oznakami in lokacijami.
Kako se primerja z generacijskimi modeli
- Dela z obstoječim posnetkom
- Prihrani čas urejanja, ne čas generiranja
- Se skalira na ogromne video knjižnice
- Ne zahteva ustvarjalnega pozivanja
- Praktično za podjetja takoj
- Ustvarja novo vsebino iz nič
- Orodje za ustvarjalno izražanje
- Aplikacije za marketing in oglaševanje
- Kakovost hitro raste
- Vznemirljivo, a drugačen primer uporabe
To niso konkurenčne tehnologije. Rešujejo različne probleme. Popoln AI video delovni tok potrebuje oboje: generiranje za ustvarjanje nove vsebine, razumevanje za delo z obstoječo vsebino.
Širša slika
Razumevanje videa je tam, kjer AI preide iz "impresivnega dema" v "dnevno orodje". Generiranje dobi pozornost. Razumevanje opravi delo.
Razmislite, kaj to omogoča:
- Vsako podjetje ima video vsebino ujeto v arhivih
- Vsak ustvarjalec porabi več časa za urejanje kot za snemanje
- Vsaka platforma potrebuje boljšo moderacijo vsebine in odkrivanje
- Vsak raziskovalec ima posnetke, ki jih ne more učinkovito analizirati
Vidi2 naslavlja vse to. Izdaja odprte izvorne kode pomeni, da so te zmožnosti zdaj dostopne vsakomur z dovolj računske moči.
Začetek
Model je na voljo na GitHubu z dokumentacijo in demi. Zahteve:
- NVIDIA GPU z vsaj 24GB VRAM za polni model
- Kvantizirane različice na voljo za manjše GPU-je
- Python 3.10+ s PyTorch 2.0+
Hiter začetek:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentacija je predvsem v angleščini, kljub temu da je ByteDance kitajsko podjetje, kar odraža globalno ciljno občinstvo.
Kaj to pomeni za industrijo
AI video področje ima zdaj dve ločeni smeri:
| Smer | Vodilni | Fokus | Vrednost |
|---|---|---|---|
| Generiranje | Runway, Sora, Veo, Kling | Ustvarjanje novega videa | Ustvarjalno izražanje |
| Razumevanje | Vidi2, (drugi se pojavljajo) | Analiza obstoječega videa | Produktivnost |
Obe bosta zoreli. Obe se bosta integrirani. Popolni AI video sklad leta 2026 bo generiral, urejal in razumel brezšivno.
Za zdaj Vidi2 predstavlja najbolj zmogljivo odprtokodno možnost za razumevanje videa. Če imate posnetke za analizo, urejanje za avtomatizacijo ali vsebino za organizacijo, je to model za raziskovanje.
Moje mnenje
Leta sem gradil pipeline-e za obdelavo videa. Pred in po modelih kot je Vidi2 je velika razlika. Naloge, ki so zahtevale sklope računalniškega vida po meri, ročno anotacijo in krhke hevristike, je zdaj mogoče rešiti s pozivom.
Najboljša AI orodja ne nadomestijo človeške presoje. Odstranijo zamudno delo, ki preprečuje ljudem uporabo presoje v obsegu.
Vidi2 ne nadomešča urednike. Daje urednikom zmožnosti, ki so bile prej nemogoče v obsegu. In z odprtim dostopom (za nekomercialno uporabo) so te zmožnosti na voljo vsakomur, ki je pripravljen postaviti infrastrukturo.
Prihodnost videa ni samo generiranje. To je razumevanje. In ta prihodnost je zdaj odprta izvorna koda.
Viri
Vam je bil ta članek v pomoč?

Damien
Razvijalec UIRazvijalec UI iz Lyona, ki rad pretvarja zapletene koncepte strojnega učenja v preproste recepte. Ko ne odpravljuje napak v modelih, ga najdete na kolesarjenju po dolini Rhône.
Sorodni članki
Nadaljujte raziskovanje s temi sorodnimi objavami

ByteDance Seedance 1.5 Pro: Model, ki ustvarja zvok in video skupaj
ByteDance izdaja Seedance 1.5 Pro z nativnim avdio-vizualnim generiranjem, kinematografskimi kontrolami kamere in večjezično sinhronizacijo ustnic. Brezplačno dostopno v CapCut.

YouTube Prinaša Veo 3 Fast v Shorts: Brezplačno Ustvarjanje AI Videa za 2,5 Milijarde Uporabnikov
Google integrira svoj model Veo 3 Fast neposredno v YouTube Shorts, s čimer ponuja brezplačno ustvarjanje videa iz besedila z zvokom za ustvarjalce po vsem svetu. Tukaj je, kaj to pomeni za platformo in dostopnost AI videa.

Kling 2.6: Kloniranje glasu in nadzor gibanja spremenita ustvarjanje AI videov
Najnovejša posodobitev Kuaishouja prinašа sočasno generiranje zvoka in slike, trening glasov po meri ter natančno zaznavanje gibanja, kar lahko spremeni pristop ustvarjalcev k produkciji AI videov.