ByteDance Vidi2: MI, kas saprot video kā redaktors

Kamēr visi ir apņēmušies izveidot video, ByteDance klusi atrisināja citu problēmu: likt MI saprast video kā pieredzējušam redaktoram. Vidi2 var noskatīties stundām ilgus neapstrādātus ierakstus un izvilkt tieši to, kas ir svarīgi.

Problēma, par kuru neviens nerunā

Mums tagad ir iespaidīgi MI video ģeneratori. Runway Gen-4.5 ir kvalitātes diagrammu augšgalā. Kling O1 ģenerē sinhronizētu audio. Bet šeit ir netīrais video producēšanas noslēpums: lielākā daļa laika tiek pavadīta rediģēšanā, nevis izveidē.

Kāzu videogrāfs uzņem 8 stundas materiāla 5 minūšu ainu izlasei. Satura veidotājs ieraksta 45 minūtes, lai izveidotu 60 sekunžu TikTok. Uzņēmuma komandai ir 200 stundu apmācības materiāla aprakti SharePoint.

💡

Video ģenerēšana iegūst virsrakstus. Video izpratne veic faktisko darbu.

Vidi2 risina šo plaisu. Tas nav vēl viens ģenerators. Tas ir MI, kas skatās video, saprot, kas notiek, un palīdz jums strādāt ar šo saturu lielā mērogā.

Ko Vidi2 faktiski dara

ByteDance apraksta Vidi2 kā "Lielu multimodālu modeli video izpratnei un izveidei." 12 miljardu parametru modelis izcili darbojas:

🔍

Telpisko-laika iezemēšana

Atrodiet jebkuru objektu video un izsekojiet to laika gaitā. Ne tikai "tur ir kaķis plkst. 0:32", bet "kaķis ienāk plkst. 0:32, pārvietojas uz dīvānu plkst. 0:45 un pamet kadru plkst. 1:12."

✂️

Inteliģenta rediģēšana

Analizējiet materiālu un iesakiet griezumus, pamatojoties uz saturu. Atrodiet labākos brīžus, identificējiet ainu robežas, sapratiet ritmu.

📝

Satura analīze

Aprakstiet, kas notiek video ar pietiekamām detaļām, lai būtu noderīgi. Ne "divi cilvēki runā", bet "intervijas segments, viesis paskaidro produkta funkcijas, augsta iesaistīšanās brīdis plkst. 3:45."

🎯

Objektu izsekošana

Izsekojiet objektus kā nepārtrauktus "cauruļvadus" caur video, pat ja tie pamet un atkal ienāk kadrā. Tas ļauj precīzi izvēlēties efektus, noņemšanu vai uzsvaru.

Tehniskā inovācija: telpisko-laika iezemēšana

Iepriekšējā video MI darbojās divās dimensijās: telpa (kas ir šajā kadrā) vai laiks (kad kaut kas notiek). Vidi2 apvieno abus tajā, ko ByteDance sauc par "Telpisko-laika iezemēšanu" (STG).

Tradicionālā pieeja:

Telpiskā: "Automašīna ir pikseļu koordinātēs (450, 320)"
Laika: "Automašīna parādās laika atzīmē 0:15"
Rezultāts: Atvienota informācija, kas prasa manuālu korelāciju

Vidi2 STG:

Apvienota: "Sarkanā automašīna ir (450, 320) plkst. 0:15, pārvietojas uz (890, 340) plkst. 0:18, iziet pa labi plkst. 0:22"
Rezultāts: Pilnīga objekta trajektorija caur telpu un laiku

Tas ir svarīgi, jo reālas rediģēšanas uzdevumi prasa abas dimensijas. "Noņemt bumbu mikrofonu" ir jāzina, kur tas parādās (telpiskā) un cik ilgi (laiks). Vidi2 apstrādā to kā vienu vaicājumu.

Etaloni: uzvarēt gigantus

12B

Parametri

Video izpratne

Atvērts

Avots

Šeit tas kļūst interesanti. ByteDance VUE-STG etalona telpisko-laika iezemēšanai Vidi2 pārspēj gan Gemini 2.0 Flash, gan GPT-4o, neskatoties uz to, ka tam ir mazāk parametru nekā abiem.

💡

Brīdinājums: šos etalonus izveidoja ByteDance. Neatkarīga pārbaude trešo pušu etalono stiprinātu šos apgalvojumus. Tomēr specializētās arhitektūras pieeja ir pamatota.

Etalona rezultāti liecina, ka video izpratnei ir vairāk ieguvumu no specializēta dizaina nekā no jaudas apjoma. Modelis, kas veidots video no paša sākuma, var pārspēt lielākus vispārējas nozīmes modeļus, kas uzskata video par attēla izpratnes paplašinājumu.

Jau ražošanā: TikTok Smart Split

Tas nav tukšs solījums. Vidi2 darbina TikTok funkciju "Smart Split", kas:

✓Automātiski izvelk ainas no gariem video
✓Ģenerē subtitrus, kas sinhronizēti ar runu
✓Rekonstruē izkārtojumu dažādām malu attiecībām
✓Identificē optimālus griešanas punktus, pamatojoties uz saturu

Miljoniem veidotāju katru dienu izmanto Smart Split. Modelis ir pierādīts lielā mērogā, nevis teorētisks.

Atvērtais kods: palaidiet to pats

ByteDance izlaida Vidi2 vietnē GitHub ar CC BY-NC 4.0 licenci. Tas nozīmē bezmaksas pētniecībai, izglītībai un personīgiem projektiem, bet komerciālai lietošanai nepieciešama atsevišķa licencēšana. Sekas:

Izstrādātājiem:

Veidojiet pielāgotus video analīzes cauruļvadus
Integrējiet izpratni esošajos rīkos
Precīzi noregulējiet konkrētām jomām
Nav API izmaksu lielā mērogā

Uzņēmumiem:

Apstrādājiet sensitīvu materiālu lokāli
Veidojiet īpašumtiesību rediģēšanas darbplūsmas
Izvairieties no piegādātāja bloķēšanas
Pielāgojiet iekšējo satura veidiem

Atvērtā koda izlaidums seko modelim, ko esam redzējuši ar LTX Video un citām Ķīnas MI laboratorijām: atklāti izlaižot spēcīgus modeļus, kamēr rietumu konkurenti tos saglabā īpašumtiesību.

Praktiski pielietojumi

Ļaujiet man iziet cauri dažām reālām darbplūsmām, ko Vidi2 iespējo:

Satura pārprofilēšana

Ievade: 2 stundu podkāsta ieraksts Izvade: 10 īsi klipi ar labākajiem brīžiem, katrs ar pareiziem ievada/izvada griezumiem

Modelis identificē iesaistošus brīžus, atrod dabiskus griešanas punktus un izvelk klipus, kas darbojas kā atsevišķs saturs.

Apmācības video pārvaldība

Ievade: 500 stundu korporatīvā apmācības materiāla Vaicājums: "Atrodiet visus segmentus, kas izskaidro jauno CRM darbplūsmu"

Tā vietā, lai manuāli ritinātu vai paļautos uz neuzticamiem metadatiem, Vidi2 faktiski skatās un saprot saturu.

Sporta ainas

Ievade: Pilnīgs spēles ieraksts Izvade: Ainu izlase ar visiem punktu gūšanas brīžiem, tuvu aicinājumiem un svinībām

Modelis saprot sporta kontekstu pietiekami labi, lai identificētu nozīmīgus brīžus, ne tikai kustību.

Uzraudzības pārskatīšana

Ievade: 24 stundu drošības materiāls Vaicājums: "Atrodiet visus gadījumus, kad cilvēki ienāk pa sānu durvīm pēc plkst. 18:00"

Telpisko-laika iezemēšana nozīmē precīzas atbildes ar precīzām laika atzīmēm un vietām.

Kā tas salīdzinās ar ģenerēšanas modeļiem

✓Video izpratne (Vidi2)

Strādā ar esošu materiālu
Ietaupa rediģēšanas laiku, nevis ģenerēšanas laiku
Mērogojams masīvām video bibliotēkām
Nav nepieciešama radoša norādīšana
Praktiski uzņēmumiem nekavējoties

✓Video ģenerēšana (Runway, Sora)

Izveido jaunu saturu no nekā
Radošās izteiksmes rīks
Mārketinga un reklāmas pielietojumi
Kvalitāte aug ātri
Aizraujoši, bet atšķirīgs lietojuma gadījums

Tie nav konkurējoši tehnoloģijas. Tie risina dažādas problēmas. Pilnīgai MI video darbplūsmai nepieciešami abi: ģenerēšana jauna satura izveidei, izpratne darbam ar esošu saturu.

Lielākā aina

⚠️

Video izpratne ir vieta, kur MI pāriet no "iespaidīga demo" uz "ikdienas rīku." Ģenerēšana piesaista uzmanību. Izpratne paveic darbu.

Apsveriet, ko tas iespējo:

Katram uzņēmumam ir video saturs ieslodzīts arhīvos
Katrs veidotājs pavada vairāk laika rediģēšanā nekā filmēšanā
Katrai platformai nepieciešama labāka satura moderācija un atklāšana
Katram pētniekam ir materiāls, ko viņi nevar efektīvi analizēt

Vidi2 risina visus šos. Atvērtā koda izlaidums nozīmē, ka šīs iespējas tagad ir pieejamas ikvienam ar pietiekamu skaitļošanas jaudu.

Darba sākšana

Modelis ir pieejams vietnē GitHub ar dokumentāciju un demonstrācijām. Prasības:

NVIDIA GPU ar vismaz 24GB VRAM pilnīgam modelim
Kvantētas versijas pieejamas mazākām GPU
Python 3.10+ ar PyTorch 2.0+

Ātrā sākšana:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentācija ir galvenokārt angļu valodā, neskatoties uz to, ka ByteDance ir Ķīnas uzņēmums, atspoguļojot globālo mērķauditoriju.

Ko tas nozīmē nozarei

MI video ainava tagad ir divas atšķirīgas joslas:

Josla	Vadītāji	Fokuss	Vērtība
Ģenerēšana	Runway, Sora, Veo, Kling	Izveidot jaunu video	Radoša izteiksme
Izpratne	Vidi2, (citi jaunuzņēmumi)	Analizēt esošu video	Produktivitāte

Abi nobriedīs. Abi integrēsies. Pilnīgais MI video komplekts 2026. gadā ģenerēs, rediģēs un sapratīs nevainojami.

Pagaidām Vidi2 pārstāv vispietiekamāko atvērtā koda opciju video izpratnei. Ja jums ir materiāls analīzei, rediģēšana automatizācijai vai saturs organizēšanai, šis ir modelis, ko izpētīt.

Mana doma

Es esmu pavadījis gadus, veidojot video apstrādes cauruļvadus. Pirms un pēc ar modeļiem, piemēram, Vidi2, ir krass. Uzdevumi, kas prasīja pielāgotus datora redzes komplektus, manuālu anotāciju un trauslus heiristiskos, tagad var atrisināt ar norādījumu.

💡

Labākie MI rīki neaizstāj cilvēka spriedumu. Tie noņem garlaicīgo darbu, kas liedz cilvēkiem piemērot spriedumu lielā mērogā.

Vidi2 neaizstāj redaktorus. Tas dod redaktoriem iespējas, kas iepriekš bija neiespējamas lielā mērogā. Un ar atvērtu piekļuvi (nekomerciālai lietošanai) šīs iespējas ir pieejamas ikvienam, kas ir gatavs izveidot infrastruktūru.

Video nākotne nav tikai ģenerēšana. Tā ir izpratne. Un šī nākotne tagad ir atvērtais kods.

Avoti

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)