ByteDance Vidi2: MI, kas saprot video kā redaktors
ByteDance tikko publicēja atvērtā koda Vidi2, 12 miljardu parametru modeli, kas saprot video saturu pietiekami labi, lai automātiski rediģētu stundu ilgus ierakstus par izsmalcinātiem klipiem. Tas jau darbina TikTok Smart Split.

Kamēr visi ir apņēmušies izveidot video, ByteDance klusi atrisināja citu problēmu: likt MI saprast video kā pieredzējušam redaktoram. Vidi2 var noskatīties stundām ilgus neapstrādātus ierakstus un izvilkt tieši to, kas ir svarīgi.
Problēma, par kuru neviens nerunā
Mums tagad ir iespaidīgi MI video ģeneratori. Runway Gen-4.5 ir kvalitātes diagrammu augšgalā. Kling O1 ģenerē sinhronizētu audio. Bet šeit ir netīrais video producēšanas noslēpums: lielākā daļa laika tiek pavadīta rediģēšanā, nevis izveidē.
Kāzu videogrāfs uzņem 8 stundas materiāla 5 minūšu ainu izlasei. Satura veidotājs ieraksta 45 minūtes, lai izveidotu 60 sekunžu TikTok. Uzņēmuma komandai ir 200 stundu apmācības materiāla aprakti SharePoint.
Video ģenerēšana iegūst virsrakstus. Video izpratne veic faktisko darbu.
Vidi2 risina šo plaisu. Tas nav vēl viens ģenerators. Tas ir MI, kas skatās video, saprot, kas notiek, un palīdz jums strādāt ar šo saturu lielā mērogā.
Ko Vidi2 faktiski dara
ByteDance apraksta Vidi2 kā "Lielu multimodālu modeli video izpratnei un izveidei." 12 miljardu parametru modelis izcili darbojas:
Telpisko-laika iezemēšana
Atrodiet jebkuru objektu video un izsekojiet to laika gaitā. Ne tikai "tur ir kaķis plkst. 0:32", bet "kaķis ienāk plkst. 0:32, pārvietojas uz dīvānu plkst. 0:45 un pamet kadru plkst. 1:12."
Inteliģenta rediģēšana
Analizējiet materiālu un iesakiet griezumus, pamatojoties uz saturu. Atrodiet labākos brīžus, identificējiet ainu robežas, sapratiet ritmu.
Satura analīze
Aprakstiet, kas notiek video ar pietiekamām detaļām, lai būtu noderīgi. Ne "divi cilvēki runā", bet "intervijas segments, viesis paskaidro produkta funkcijas, augsta iesaistīšanās brīdis plkst. 3:45."
Objektu izsekošana
Izsekojiet objektus kā nepārtrauktus "cauruļvadus" caur video, pat ja tie pamet un atkal ienāk kadrā. Tas ļauj precīzi izvēlēties efektus, noņemšanu vai uzsvaru.
Tehniskā inovācija: telpisko-laika iezemēšana
Iepriekšējā video MI darbojās divās dimensijās: telpa (kas ir šajā kadrā) vai laiks (kad kaut kas notiek). Vidi2 apvieno abus tajā, ko ByteDance sauc par "Telpisko-laika iezemēšanu" (STG).
Tradicionālā pieeja:
- Telpiskā: "Automašīna ir pikseļu koordinātēs (450, 320)"
- Laika: "Automašīna parādās laika atzīmē 0:15"
- Rezultāts: Atvienota informācija, kas prasa manuālu korelāciju
Vidi2 STG:
- Apvienota: "Sarkanā automašīna ir (450, 320) plkst. 0:15, pārvietojas uz (890, 340) plkst. 0:18, iziet pa labi plkst. 0:22"
- Rezultāts: Pilnīga objekta trajektorija caur telpu un laiku
Tas ir svarīgi, jo reālas rediģēšanas uzdevumi prasa abas dimensijas. "Noņemt bumbu mikrofonu" ir jāzina, kur tas parādās (telpiskā) un cik ilgi (laiks). Vidi2 apstrādā to kā vienu vaicājumu.
Etaloni: uzvarēt gigantus
Šeit tas kļūst interesanti. ByteDance VUE-STG etalona telpisko-laika iezemēšanai Vidi2 pārspēj gan Gemini 2.0 Flash, gan GPT-4o, neskatoties uz to, ka tam ir mazāk parametru nekā abiem.
Brīdinājums: šos etalonus izveidoja ByteDance. Neatkarīga pārbaude trešo pušu etalono stiprinātu šos apgalvojumus. Tomēr specializētās arhitektūras pieeja ir pamatota.
Etalona rezultāti liecina, ka video izpratnei ir vairāk ieguvumu no specializēta dizaina nekā no jaudas apjoma. Modelis, kas veidots video no paša sākuma, var pārspēt lielākus vispārējas nozīmes modeļus, kas uzskata video par attēla izpratnes paplašinājumu.
Jau ražošanā: TikTok Smart Split
Tas nav tukšs solījums. Vidi2 darbina TikTok funkciju "Smart Split", kas:
- ✓Automātiski izvelk ainas no gariem video
- ✓Ģenerē subtitrus, kas sinhronizēti ar runu
- ✓Rekonstruē izkārtojumu dažādām malu attiecībām
- ✓Identificē optimālus griešanas punktus, pamatojoties uz saturu
Miljoniem veidotāju katru dienu izmanto Smart Split. Modelis ir pierādīts lielā mērogā, nevis teorētisks.
Atvērtais kods: palaidiet to pats
ByteDance izlaida Vidi2 vietnē GitHub ar CC BY-NC 4.0 licenci. Tas nozīmē bezmaksas pētniecībai, izglītībai un personīgiem projektiem, bet komerciālai lietošanai nepieciešama atsevišķa licencēšana. Sekas:
Izstrādātājiem:
- Veidojiet pielāgotus video analīzes cauruļvadus
- Integrējiet izpratni esošajos rīkos
- Precīzi noregulējiet konkrētām jomām
- Nav API izmaksu lielā mērogā
Uzņēmumiem:
- Apstrādājiet sensitīvu materiālu lokāli
- Veidojiet īpašumtiesību rediģēšanas darbplūsmas
- Izvairieties no piegādātāja bloķēšanas
- Pielāgojiet iekšējo satura veidiem
Atvērtā koda izlaidums seko modelim, ko esam redzējuši ar LTX Video un citām Ķīnas MI laboratorijām: atklāti izlaižot spēcīgus modeļus, kamēr rietumu konkurenti tos saglabā īpašumtiesību.
Praktiski pielietojumi
Ļaujiet man iziet cauri dažām reālām darbplūsmām, ko Vidi2 iespējo:
Satura pārprofilēšana
Ievade: 2 stundu podkāsta ieraksts Izvade: 10 īsi klipi ar labākajiem brīžiem, katrs ar pareiziem ievada/izvada griezumiem
Modelis identificē iesaistošus brīžus, atrod dabiskus griešanas punktus un izvelk klipus, kas darbojas kā atsevišķs saturs.
Apmācības video pārvaldība
Ievade: 500 stundu korporatīvā apmācības materiāla Vaicājums: "Atrodiet visus segmentus, kas izskaidro jauno CRM darbplūsmu"
Tā vietā, lai manuāli ritinātu vai paļautos uz neuzticamiem metadatiem, Vidi2 faktiski skatās un saprot saturu.
Sporta ainas
Ievade: Pilnīgs spēles ieraksts Izvade: Ainu izlase ar visiem punktu gūšanas brīžiem, tuvu aicinājumiem un svinībām
Modelis saprot sporta kontekstu pietiekami labi, lai identificētu nozīmīgus brīžus, ne tikai kustību.
Uzraudzības pārskatīšana
Ievade: 24 stundu drošības materiāls Vaicājums: "Atrodiet visus gadījumus, kad cilvēki ienāk pa sānu durvīm pēc plkst. 18:00"
Telpisko-laika iezemēšana nozīmē precīzas atbildes ar precīzām laika atzīmēm un vietām.
Kā tas salīdzinās ar ģenerēšanas modeļiem
- Strādā ar esošu materiālu
- Ietaupa rediģēšanas laiku, nevis ģenerēšanas laiku
- Mērogojams masīvām video bibliotēkām
- Nav nepieciešama radoša norādīšana
- Praktiski uzņēmumiem nekavējoties
- Izveido jaunu saturu no nekā
- Radošās izteiksmes rīks
- Mārketinga un reklāmas pielietojumi
- Kvalitāte aug ātri
- Aizraujoši, bet atšķirīgs lietojuma gadījums
Tie nav konkurējoši tehnoloģijas. Tie risina dažādas problēmas. Pilnīgai MI video darbplūsmai nepieciešami abi: ģenerēšana jauna satura izveidei, izpratne darbam ar esošu saturu.
Lielākā aina
Video izpratne ir vieta, kur MI pāriet no "iespaidīga demo" uz "ikdienas rīku." Ģenerēšana piesaista uzmanību. Izpratne paveic darbu.
Apsveriet, ko tas iespējo:
- Katram uzņēmumam ir video saturs ieslodzīts arhīvos
- Katrs veidotājs pavada vairāk laika rediģēšanā nekā filmēšanā
- Katrai platformai nepieciešama labāka satura moderācija un atklāšana
- Katram pētniekam ir materiāls, ko viņi nevar efektīvi analizēt
Vidi2 risina visus šos. Atvērtā koda izlaidums nozīmē, ka šīs iespējas tagad ir pieejamas ikvienam ar pietiekamu skaitļošanas jaudu.
Darba sākšana
Modelis ir pieejams vietnē GitHub ar dokumentāciju un demonstrācijām. Prasības:
- NVIDIA GPU ar vismaz 24GB VRAM pilnīgam modelim
- Kvantētas versijas pieejamas mazākām GPU
- Python 3.10+ ar PyTorch 2.0+
Ātrā sākšana:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentācija ir galvenokārt angļu valodā, neskatoties uz to, ka ByteDance ir Ķīnas uzņēmums, atspoguļojot globālo mērķauditoriju.
Ko tas nozīmē nozarei
MI video ainava tagad ir divas atšķirīgas joslas:
| Josla | Vadītāji | Fokuss | Vērtība |
|---|---|---|---|
| Ģenerēšana | Runway, Sora, Veo, Kling | Izveidot jaunu video | Radoša izteiksme |
| Izpratne | Vidi2, (citi jaunuzņēmumi) | Analizēt esošu video | Produktivitāte |
Abi nobriedīs. Abi integrēsies. Pilnīgais MI video komplekts 2026. gadā ģenerēs, rediģēs un sapratīs nevainojami.
Pagaidām Vidi2 pārstāv vispietiekamāko atvērtā koda opciju video izpratnei. Ja jums ir materiāls analīzei, rediģēšana automatizācijai vai saturs organizēšanai, šis ir modelis, ko izpētīt.
Mana doma
Es esmu pavadījis gadus, veidojot video apstrādes cauruļvadus. Pirms un pēc ar modeļiem, piemēram, Vidi2, ir krass. Uzdevumi, kas prasīja pielāgotus datora redzes komplektus, manuālu anotāciju un trauslus heiristiskos, tagad var atrisināt ar norādījumu.
Labākie MI rīki neaizstāj cilvēka spriedumu. Tie noņem garlaicīgo darbu, kas liedz cilvēkiem piemērot spriedumu lielā mērogā.
Vidi2 neaizstāj redaktorus. Tas dod redaktoriem iespējas, kas iepriekš bija neiespējamas lielā mērogā. Un ar atvērtu piekļuvi (nekomerciālai lietošanai) šīs iespējas ir pieejamas ikvienam, kas ir gatavs izveidot infrastruktūru.
Video nākotne nav tikai ģenerēšana. Tā ir izpratne. Un šī nākotne tagad ir atvērtais kods.
Avoti
Vai šis raksts bija noderīgs?

Damien
MI IzstrādātājsMI izstrādātājs no Lionas, kurš mīl pārvērst sarežģītus mašīnmācības jēdzienus vienkāršās receptēs. Kad neatkļūdo modeļus, viņu var atrast braucot ar velosipēdu caur Ronas ieleju.
Saistītie raksti
Turpiniet izpēti ar šiem saistītajiem rakstiem

ByteDance Seedance 1.5 Pro: Modelis, kas ģenerē audio un video kopā
ByteDance izlaiž Seedance 1.5 Pro ar dabisko audio-vizuālo ģenerāciju, kinematogrāfijas līmeņa kameras vadību un daudzvalodu lūpu sinhronizāciju. Pieejams bez maksas CapCut.

YouTube Ienes Veo 3 Fast Shorts Platformā: Bezmaksas AI Video Ģenerēšana 2,5 Miljardiem Lietotāju
Google integrē savu Veo 3 Fast modeli tieši YouTube Shorts, piedāvājot bezmaksas teksta-uz-video ģenerēšanu ar audio veidotājiem visā pasaulē. Lūk, ko tas nozīmē platformai un AI video pieejamībai.

Kling 2.6: Balss klonēšana un kustības kontrole parveidē MI video veidošanu
Kuaishou jaunākais atjauninājums ievies vienlaicīgu audio-vizuālo ģenerēšanu, pielāgotu balss apmācību un precīzu kustības tveršanu, kas varētu mainīt veidu, kā veidotāji pieiet MI video ražošanai.