ByteDance Vidi2: AI, mis mõistab videot nagu toimetaja
ByteDance avalikustas just Vidi2, 12 miljardi parameetriga mudeli, mis mõistab video sisu piisavalt hästi, et automaatselt monteerida tundide kaupa materjalist viimistletud klipid. See juba töötab TikToki Smart Split funktsioonis.

Samal ajal kui kõik on vaimustuses video genereerimisest, lahendas ByteDance vaikselt erineva probleemi: panna AI mõistma videot nagu kogenud toimetaja. Vidi2 suudab vaadata tundide kaupa toormaterjali ja eraldada täpselt selle, mis on oluline.
Probleem, millest keegi ei räägi
Meil on nüüd uskumatud AI video generaatorid. Runway Gen-4.5 juhtib kvaliteedi edetabeleid. Kling O1 genereerib sünkroniseeritud heli. Kuid siin on video tootmise määrdunud saladus: enamik ajast kulub monteerimisele, mitte loomisele.
Pulmade videograaf filmib 8 tundi materjali 5-minutilise kokkuvõtte jaoks. Sisu looja salvestab 45 minutit, et teha 60-sekundiline TikTok. Ettevõtte meeskond on matnud SharePointi 200 tundi koolitusvideoid.
Video genereerimine saab pealkirjad. Video mõistmine teeb tegeliku töö.
Vidi2 käsitleb seda lünka. See pole veel üks generaator. See on AI, mis vaatab videot, mõistab, mis toimub, ja aitab sul selle sisuga mastaapselt töötada.
Mida Vidi2 tegelikult teeb
ByteDance kirjeldab Vidi2-d kui "suurt multimodaalset mudelit video mõistmiseks ja loomiseks". 12 miljardi parameetriga mudel on tugev:
Ruumiline-ajaline ankurdamine
Leia mistahes objekt videos ja jälgi seda läbi aja. Mitte lihtsalt "kass on ajamärgil 0:32", vaid "kass siseneb ajamärgil 0:32, liigub diivanile 0:45 ja lahkub kaadrist 1:12".
Intelligentne montaaž
Analüüsi materjali ja soovita lõikeid sisu põhjal. Leia parimad hetked, tuvasta stseeni piire, mõista tempot.
Sisu analüüs
Kirjelda, mis videos toimub, piisava detailiga, et olla kasulik. Mitte "kaks inimest räägivad", vaid "intervjuu segment, külaline selgitab toote funktsioone, kõrge kaasatuse hetk 3:45".
Objektide jälgimine
Jälgi objekte pideva "toruna" läbi video, isegi kui need lahkuvad kaadrist ja naasevad tagasi. See võimaldab täpset valikut efektide, eemaldamise või rõhutamise jaoks.
Tehniline innovatsioon: ruumiline-ajaline ankurdamine
Varasem video AI töötas kahes mõõtmes: ruum (mis on selles kaadris) või aeg (millal midagi juhtub). Vidi2 ühendab mõlemad sellesse, mida ByteDance nimetab "ruumiliseks-ajaliseks ankurdamiseks" (STG).
Traditsiooniline lähenemine:
- Ruumiline: "Auto on pikslikoordinaatides (450, 320)"
- Ajaline: "Auto ilmub ajamärgil 0:15"
- Tulemus: ühendamata teave, mis vajab käsitsi korrelatsiooni
Vidi2 STG:
- Ühendatud: "Punane auto on (450, 320) ajamärgil 0:15, liigub (890, 340) ajamärgile 0:18, lahkub paremale 0:22"
- Tulemus: objekti täielik trajektoor läbi ruumi ja aja
See on oluline, kuna tegelikud montaaži ülesanded nõuavad mõlemat mõõdet. "Eemalda buum-mikrofon" peab teadma, kus see ilmub (ruumiline) ja kui kaua (ajaline). Vidi2 käsitleb seda ühe päringuna.
Võrdlused: hiiglaste võitmine
Siin muutub asi huvitavaks. ByteDance'i VUE-STG võrdlusel ruumilise-ajalise ankurdamise osas ületab Vidi2 nii Gemini 2.0 Flash kui GPT-4o, hoolimata sellest, et tal on mõlemast vähem parameetreid.
Märkus: need võrdlused loodi ByteDance'i poolt. Sõltumatu kontrollimine kolmandate osapoolte võrdlustel tugevdaks neid väiteid. Samas on spetsialiseeritud arhitektuuri lähenemine põhimõtteliselt õige.
Võrdlustulemused viitavad, et video mõistmine saab rohkem kasu spetsialiseeritud disainist kui toorjõust. Videole algusest peale ehitatud mudel võib ületada suuremaid üldotstarbelisi mudeleid, mis käsitlevad videot kui pildi mõistmise laiendust.
Juba tootmises: TikTok Smart Split
See pole vaporware. Vidi2 toetab TikToki "Smart Split" funktsiooni, mis:
- ✓Eraldab automaatselt tipphetked pikkadest videodest
- ✓Genereerib kõnega sünkroniseeritud subtiitrid
- ✓Rekonstrueerib paigutust erinevateks kuvasuheteks
- ✓Tuvastab optimaalsed lõikepunktid sisu põhjal
Miljonid loojad kasutavad Smart Spliti igapäevaselt. Mudel on mastaabis tõestatud, mitte teoreetiline.
Avatud lähtekood: käivita ise
ByteDance avaldas Vidi2 GitHubis CC BY-NC 4.0 litsentsi all. See tähendab tasuta kasutamist teadusuuringutes, hariduses ja isiklikes projektides, kuid kommertskasutus nõuab eraldi litsentsimist. Tagajärjed:
Arendajatele:
- Ehitage kohandatud video analüüsi torustikke
- Integreerige mõistmine olemasolevatesse tööriistadesse
- Kohandage konkreetsetele valdkondadele
- API kulusid pole mastaabis
Ettevõtetele:
- Töödelge tundlikku materjali kohalikult
- Ehitage proprietaarseid montaaži töövoogusid
- Vältida tarnija lukustust
- Kohandage sisemiste sisu tüüpide jaoks
Avatud lähtekoodiga väljalase järgib mustrit, mida oleme näinud LTX Video ja teiste Hiina AI laboritega: võimsate mudelite avaldamine avatult, samal ajal kui lääne konkurendid hoiavad oma mudelid proprietaarsetena.
Praktilised rakendused
Lubage mul tutvustada mõningaid tegelikke töövoogusid, mida Vidi2 võimaldab:
Sisu taaskasutamine
Sisend: 2-tunnine podcasti salvestus Väljund: 10 lühikest klippi parimatest hetkedest, igaüks korraliku intro/outro lõikega
Mudel tuvastab kaasahaaravad hetked, leiab loomulikud lõikepunktid ja eraldab klipid, mis töötavad iseseisva sisuna.
Koolitusvideote haldamine
Sisend: 500 tundi ettevõtte koolituse materjali Päring: "Leia kõik segmendid, mis selgitavad uut CRM töövoogu"
Käsitsi kerimise või ebausaldusväärsetele metaandmetele lootmise asemel Vidi2 tegelikult vaatab ja mõistab sisu.
Spordi tipphetked
Sisend: täismängu salvestus Väljund: kokkuvõte kõigi väravate, pingsate hetkedega ja tähistamistega
Mudel mõistab spordi konteksti piisavalt hästi, et tuvastada tähenduslikke hetki, mitte ainult liikumist.
Turvakaamerate ülevaatus
Sisend: 24 tundi turvakaamerate materjali Päring: "Leia kõik juhud, kus inimesed sissenesid külguksest pärast kella 18"
Ruumiline-ajaline ankurdamine tähendab täpseid vastuseid täpsete ajamärkide ja asukohtadega.
Kuidas see võrdlub genereerimise mudelitega
- Töötab olemasoleva materjaliga
- Säästab monteerimise aega, mitte genereerimise aega
- Skaleerub massiivsetele video teekidele
- Ei nõua loomingulist promptimist
- Praktiline ettevõtetele kohe
- Loob uut sisu nullist
- Loomingulise väljenduse tööriist
- Turundus- ja reklaamirakendused
- Kvaliteet kasvab kiiresti
- Põnev, kuid erinev kasutusala
Need pole konkureerivad tehnoloogiad. Need lahendavad erinevaid probleeme. Täielik AI video töövoog vajab mõlemat: genereerimist uue sisu loomiseks, mõistmist olemasoleva sisuga töötamiseks.
Suurem pilt
Video mõistmine on koht, kus AI liigub "muljetavaldavast demost" "igapäevaseks tööriistaks". Genereerimine saab tähelepanu. Mõistmine teeb töö ära.
Kaaluge, mida see võimaldab:
- Igal ettevõttel on arhiividesse mattunud video sisu
- Iga looja veedab rohkem aega monteerimisega kui filmimisega
- Iga platvorm vajab paremat sisu modereerimist ja leidmist
- Igal teadlasel on materjal, mida nad ei saa tõhusalt analüüsida
Vidi2 käsitleb kõiki neid. Avatud lähtekoodiga väljalase tähendab, et need võimalused on nüüd kättesaadavad kõigile, kellel on piisav arvutusvõimsus.
Alustamine
Mudel on saadaval GitHubis koos dokumentatsiooni ja demotega. Nõuded:
- NVIDIA GPU vähemalt 24GB VRAM-iga täismudeli jaoks
- Kvantiseeritud versioonid saadaval väiksemate GPU-de jaoks
- Python 3.10+ koos PyTorch 2.0+
Kiire algus:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentatsioon on peamiselt inglise keeles, kuigi ByteDance on Hiina ettevõte, peegeldades globaalset sihtgruppi.
Mida see tähendab tööstusele
AI video maastikul on nüüd kaks erinevat rada:
| Rada | Liidrid | Fookus | Väärtus |
|---|---|---|---|
| Genereerimine | Runway, Sora, Veo, Kling | Looge uut videot | Loomeväljendus |
| Mõistmine | Vidi2, (teised tekkimas) | Analüüsige olemasolevat videot | Produktiivsus |
Mõlemad küpsevad. Mõlemad integreeritakse. 2026. aasta täielik AI video stack genereerib, monteerib ja mõistab sujuvalt.
Praegu esindab Vidi2 kõige võimekamaid avatud lähtekoodiga võimalusi video mõistmiseks. Kui teil on materjali analüüsida, montaaži automatiseerida või sisu korraldada, on see mudel uurimiseks.
Minu arvamus
Olen veetnud aastaid video töötlemise torustike ehitamisega. Enne ja pärast mudelite nagu Vidi2 tulekut on ilmne. Ülesanded, mis nõudsid kohandatud arvutinägemise virnu, käsitsi märgistamist ja hapraid heuristikaid, saab nüüd lahendada promptiga.
Parimad AI tööriistad ei asenda inimese otsustusvõimet. Need eemaldavad igava töö, mis takistab inimestel otsustusvõimet mastaabis rakendada.
Vidi2 ei asenda toimetajaid. See annab toimetajatele võimalused, mis varem olid mastaabis võimatud. Ja avatud juurdepääsuga (mittekommertslikuks kasutuseks) on need võimalused kättesaadavad kõigile, kes on valmis infrastruktuuri seadistama.
Video tulevik ei ole ainult genereerimine. See on mõistmine. Ja see tulevik on nüüd avatud lähtekoodiga.
Allikad
Kas see artikkel oli kasulik?

Damien
Tehisintellekti arendajaTehisintellekti arendaja Lyonist, kes armastab keerulisi masinõppe kontseptsioone lihtsateks retseptideks muuta. Kui ta parasjagu mudeleid ei siluta, leiab teda Rhône'i oru kaudu jalgrattaga sõitmast.
Seotud artiklid
Jätkake uurimist nende seotud postitustega

ByteDance Seedance 1.5 Pro: mudel, mis genereerib heli ja video koos
ByteDance avaldab Seedance 1.5 Pro koos natiivsete audio-visuaalse genereerimise, kinematograafiliste kaamerajuhtimiste ja mitmekeelse huulesünkrooniga. Saadaval tasuta CapCutis.

YouTube toob Veo 3 Fasti Shortsidesse: tasuta AI-videote loomine 2,5 miljardile kasutajale
Google integreerib oma Veo 3 Fast mudeli otse YouTube Shortsidesse, pakkudes loojatele üle maailma tasuta tekst-videoks genereerimist koos heliga. Mida see tähendab platvormile ja AI-video kättesaadavusele.

Kling 2.6: hääle kloonimine ja liikumise juhtimine muudavad AI-video loomist
Kuaishou uusim uuendus toob üheaegse audio-visuaalse genereerimise, kohandatud hääletreeningu ja täpse liikumise jäädvustamise, mis võivad muuta loojate lähenemist AI-video tootmisele.