ByteDance Vidi2: AI, mis mõistab videot nagu toimetaja

Samal ajal kui kõik on vaimustuses video genereerimisest, lahendas ByteDance vaikselt erineva probleemi: panna AI mõistma videot nagu kogenud toimetaja. Vidi2 suudab vaadata tundide kaupa toormaterjali ja eraldada täpselt selle, mis on oluline.

Probleem, millest keegi ei räägi

Meil on nüüd uskumatud AI video generaatorid. Runway Gen-4.5 juhtib kvaliteedi edetabeleid. Kling O1 genereerib sünkroniseeritud heli. Kuid siin on video tootmise määrdunud saladus: enamik ajast kulub monteerimisele, mitte loomisele.

Pulmade videograaf filmib 8 tundi materjali 5-minutilise kokkuvõtte jaoks. Sisu looja salvestab 45 minutit, et teha 60-sekundiline TikTok. Ettevõtte meeskond on matnud SharePointi 200 tundi koolitusvideoid.

💡

Video genereerimine saab pealkirjad. Video mõistmine teeb tegeliku töö.

Vidi2 käsitleb seda lünka. See pole veel üks generaator. See on AI, mis vaatab videot, mõistab, mis toimub, ja aitab sul selle sisuga mastaapselt töötada.

Mida Vidi2 tegelikult teeb

ByteDance kirjeldab Vidi2-d kui "suurt multimodaalset mudelit video mõistmiseks ja loomiseks". 12 miljardi parameetriga mudel on tugev:

🔍

Ruumiline-ajaline ankurdamine

Leia mistahes objekt videos ja jälgi seda läbi aja. Mitte lihtsalt "kass on ajamärgil 0:32", vaid "kass siseneb ajamärgil 0:32, liigub diivanile 0:45 ja lahkub kaadrist 1:12".

✂️

Intelligentne montaaž

Analüüsi materjali ja soovita lõikeid sisu põhjal. Leia parimad hetked, tuvasta stseeni piire, mõista tempot.

📝

Sisu analüüs

Kirjelda, mis videos toimub, piisava detailiga, et olla kasulik. Mitte "kaks inimest räägivad", vaid "intervjuu segment, külaline selgitab toote funktsioone, kõrge kaasatuse hetk 3:45".

🎯

Objektide jälgimine

Jälgi objekte pideva "toruna" läbi video, isegi kui need lahkuvad kaadrist ja naasevad tagasi. See võimaldab täpset valikut efektide, eemaldamise või rõhutamise jaoks.

Tehniline innovatsioon: ruumiline-ajaline ankurdamine

Varasem video AI töötas kahes mõõtmes: ruum (mis on selles kaadris) või aeg (millal midagi juhtub). Vidi2 ühendab mõlemad sellesse, mida ByteDance nimetab "ruumiliseks-ajaliseks ankurdamiseks" (STG).

Traditsiooniline lähenemine:

Ruumiline: "Auto on pikslikoordinaatides (450, 320)"
Ajaline: "Auto ilmub ajamärgil 0:15"
Tulemus: ühendamata teave, mis vajab käsitsi korrelatsiooni

Vidi2 STG:

Ühendatud: "Punane auto on (450, 320) ajamärgil 0:15, liigub (890, 340) ajamärgile 0:18, lahkub paremale 0:22"
Tulemus: objekti täielik trajektoor läbi ruumi ja aja

See on oluline, kuna tegelikud montaaži ülesanded nõuavad mõlemat mõõdet. "Eemalda buum-mikrofon" peab teadma, kus see ilmub (ruumiline) ja kui kaua (ajaline). Vidi2 käsitleb seda ühe päringuna.

Võrdlused: hiiglaste võitmine

12B

Parameetrid

Video mõistmine

Avatud

Lähtekood

Siin muutub asi huvitavaks. ByteDance'i VUE-STG võrdlusel ruumilise-ajalise ankurdamise osas ületab Vidi2 nii Gemini 2.0 Flash kui GPT-4o, hoolimata sellest, et tal on mõlemast vähem parameetreid.

💡

Märkus: need võrdlused loodi ByteDance'i poolt. Sõltumatu kontrollimine kolmandate osapoolte võrdlustel tugevdaks neid väiteid. Samas on spetsialiseeritud arhitektuuri lähenemine põhimõtteliselt õige.

Võrdlustulemused viitavad, et video mõistmine saab rohkem kasu spetsialiseeritud disainist kui toorjõust. Videole algusest peale ehitatud mudel võib ületada suuremaid üldotstarbelisi mudeleid, mis käsitlevad videot kui pildi mõistmise laiendust.

Juba tootmises: TikTok Smart Split

See pole vaporware. Vidi2 toetab TikToki "Smart Split" funktsiooni, mis:

✓Eraldab automaatselt tipphetked pikkadest videodest
✓Genereerib kõnega sünkroniseeritud subtiitrid
✓Rekonstrueerib paigutust erinevateks kuvasuheteks
✓Tuvastab optimaalsed lõikepunktid sisu põhjal

Miljonid loojad kasutavad Smart Spliti igapäevaselt. Mudel on mastaabis tõestatud, mitte teoreetiline.

Avatud lähtekood: käivita ise

ByteDance avaldas Vidi2 GitHubis CC BY-NC 4.0 litsentsi all. See tähendab tasuta kasutamist teadusuuringutes, hariduses ja isiklikes projektides, kuid kommertskasutus nõuab eraldi litsentsimist. Tagajärjed:

Arendajatele:

Ehitage kohandatud video analüüsi torustikke
Integreerige mõistmine olemasolevatesse tööriistadesse
Kohandage konkreetsetele valdkondadele
API kulusid pole mastaabis

Ettevõtetele:

Töödelge tundlikku materjali kohalikult
Ehitage proprietaarseid montaaži töövoogusid
Vältida tarnija lukustust
Kohandage sisemiste sisu tüüpide jaoks

Avatud lähtekoodiga väljalase järgib mustrit, mida oleme näinud LTX Video ja teiste Hiina AI laboritega: võimsate mudelite avaldamine avatult, samal ajal kui lääne konkurendid hoiavad oma mudelid proprietaarsetena.

Praktilised rakendused

Lubage mul tutvustada mõningaid tegelikke töövoogusid, mida Vidi2 võimaldab:

Sisu taaskasutamine

Sisend: 2-tunnine podcasti salvestus Väljund: 10 lühikest klippi parimatest hetkedest, igaüks korraliku intro/outro lõikega

Mudel tuvastab kaasahaaravad hetked, leiab loomulikud lõikepunktid ja eraldab klipid, mis töötavad iseseisva sisuna.

Koolitusvideote haldamine

Sisend: 500 tundi ettevõtte koolituse materjali Päring: "Leia kõik segmendid, mis selgitavad uut CRM töövoogu"

Käsitsi kerimise või ebausaldusväärsetele metaandmetele lootmise asemel Vidi2 tegelikult vaatab ja mõistab sisu.

Spordi tipphetked

Sisend: täismängu salvestus Väljund: kokkuvõte kõigi väravate, pingsate hetkedega ja tähistamistega

Mudel mõistab spordi konteksti piisavalt hästi, et tuvastada tähenduslikke hetki, mitte ainult liikumist.

Turvakaamerate ülevaatus

Sisend: 24 tundi turvakaamerate materjali Päring: "Leia kõik juhud, kus inimesed sissenesid külguksest pärast kella 18"

Ruumiline-ajaline ankurdamine tähendab täpseid vastuseid täpsete ajamärkide ja asukohtadega.

Kuidas see võrdlub genereerimise mudelitega

✓Video mõistmine (Vidi2)

Töötab olemasoleva materjaliga
Säästab monteerimise aega, mitte genereerimise aega
Skaleerub massiivsetele video teekidele
Ei nõua loomingulist promptimist
Praktiline ettevõtetele kohe

✓Video genereerimine (Runway, Sora)

Loob uut sisu nullist
Loomingulise väljenduse tööriist
Turundus- ja reklaamirakendused
Kvaliteet kasvab kiiresti
Põnev, kuid erinev kasutusala

Need pole konkureerivad tehnoloogiad. Need lahendavad erinevaid probleeme. Täielik AI video töövoog vajab mõlemat: genereerimist uue sisu loomiseks, mõistmist olemasoleva sisuga töötamiseks.

Suurem pilt

⚠️

Video mõistmine on koht, kus AI liigub "muljetavaldavast demost" "igapäevaseks tööriistaks". Genereerimine saab tähelepanu. Mõistmine teeb töö ära.

Kaaluge, mida see võimaldab:

Igal ettevõttel on arhiividesse mattunud video sisu
Iga looja veedab rohkem aega monteerimisega kui filmimisega
Iga platvorm vajab paremat sisu modereerimist ja leidmist
Igal teadlasel on materjal, mida nad ei saa tõhusalt analüüsida

Vidi2 käsitleb kõiki neid. Avatud lähtekoodiga väljalase tähendab, et need võimalused on nüüd kättesaadavad kõigile, kellel on piisav arvutusvõimsus.

Alustamine

Mudel on saadaval GitHubis koos dokumentatsiooni ja demotega. Nõuded:

NVIDIA GPU vähemalt 24GB VRAM-iga täismudeli jaoks
Kvantiseeritud versioonid saadaval väiksemate GPU-de jaoks
Python 3.10+ koos PyTorch 2.0+

Kiire algus:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentatsioon on peamiselt inglise keeles, kuigi ByteDance on Hiina ettevõte, peegeldades globaalset sihtgruppi.

Mida see tähendab tööstusele

AI video maastikul on nüüd kaks erinevat rada:

Rada	Liidrid	Fookus	Väärtus
Genereerimine	Runway, Sora, Veo, Kling	Looge uut videot	Loomeväljendus
Mõistmine	Vidi2, (teised tekkimas)	Analüüsige olemasolevat videot	Produktiivsus

Mõlemad küpsevad. Mõlemad integreeritakse. 2026. aasta täielik AI video stack genereerib, monteerib ja mõistab sujuvalt.

Praegu esindab Vidi2 kõige võimekamaid avatud lähtekoodiga võimalusi video mõistmiseks. Kui teil on materjali analüüsida, montaaži automatiseerida või sisu korraldada, on see mudel uurimiseks.

Minu arvamus

Olen veetnud aastaid video töötlemise torustike ehitamisega. Enne ja pärast mudelite nagu Vidi2 tulekut on ilmne. Ülesanded, mis nõudsid kohandatud arvutinägemise virnu, käsitsi märgistamist ja hapraid heuristikaid, saab nüüd lahendada promptiga.

💡

Parimad AI tööriistad ei asenda inimese otsustusvõimet. Need eemaldavad igava töö, mis takistab inimestel otsustusvõimet mastaabis rakendada.

Vidi2 ei asenda toimetajaid. See annab toimetajatele võimalused, mis varem olid mastaabis võimatud. Ja avatud juurdepääsuga (mittekommertslikuks kasutuseks) on need võimalused kättesaadavad kõigile, kes on valmis infrastruktuuri seadistama.

Video tulevik ei ole ainult genereerimine. See on mõistmine. Ja see tulevik on nüüd avatud lähtekoodiga.

Allikad

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)