ByteDance Vidi2: Tekoäly, joka ymmärtää videota kuin leikkaaja
ByteDance julkaisi juuri Vidi2:n avoimen lähdekoodin mallina, 12 miljardin parametrin malli, joka ymmärtää videosisältöä riittävän hyvin muokatakseen automaattisesti tunteja materiaalia hiotuiksi klipeiksi. Se jo toimii TikTokin Smart Split -ominaisuudessa.

Kun kaikki ovat pakkomielteisiä videon generoinnista, ByteDance ratkaisi hiljaa erilaisen ongelman: saada tekoäly ymmärtämään videota kuin kokenut leikkaaja. Vidi2 voi katsoa tunteja raakamateriaalia ja poimia juuri sen, mikä on tärkeää.
Ongelma, josta kukaan ei puhu
Meillä on nyt uskomattomia tekoälyvideogeneraattoreita. Runway Gen-4.5 johtaa laatutaulukoita. Kling O1 generoi synkronoitua ääntä. Mutta tässä on videotuotannon likainen salaisuus: suurin osa ajasta kuluu leikkaamiseen, ei luomiseen.
Hääkuvaaja kuvaa 8 tuntia materiaalia 5 minuutin kohokohtavideolle. Sisällöntuottaja tallentaa 45 minuuttia tehdäkseen 60 sekunnin TikTokin. Yrityksessä on 200 tuntia koulutusvideoita hautautuneena SharePointiin.
Videon generointi saa otsikot. Videon ymmärtäminen tekee varsinaisen työn.
Vidi2 käsittelee tätä aukkoa. Se ei ole vain yksi generaattori lisää. Se on tekoäly, joka katsoo videota, ymmärtää mitä tapahtuu ja auttaa sinua työskentelemään sen sisällön kanssa mittakaavassa.
Mitä Vidi2 todella tekee
ByteDance kuvaa Vidi2:ta "suureksi multimodaaliseksi malliksi videon ymmärtämiseen ja luomiseen". 12 miljardin parametrin malli loistaa:
Spatiotemporaalinen ankkurointi
Löydä mikä tahansa objekti videolta ja seuraa sitä ajan kuluessa. Ei vain "kissa on kohdassa 0:32", vaan "kissa tulee sisään 0:32, siirtyy sohvalle 0:45 ja poistuu kuvasta 1:12".
Älykäs leikkaus
Analysoi materiaalia ja ehdota leikkauksia sisällön perusteella. Löydä parhaat hetket, tunnista kohtausrajat, ymmärrä tahtia.
Sisällön analyysi
Kuvaile mitä videolla tapahtuu riittävällä yksityiskohtaisuudella ollakseen hyödyllinen. Ei "kaksi ihmistä puhuu", vaan "haastatteluosio, vieras selittää tuotteen ominaisuuksia, korkean sitoutumisen hetki 3:45".
Objektien seuranta
Seuraa objekteja jatkuvina "putkina" videon läpi, vaikka ne poistuvat kuvasta ja palaavat. Tämä mahdollistaa tarkan valinnan tehosteita, poistamista tai painotusta varten.
Tekninen innovaatio: spatiotemporaalinen ankkurointi
Aiempi videotekoäly toimi kahdessa ulottuvuudessa: tila (mitä tässä kehyksessä on) tai aika (milloin jotain tapahtuu). Vidi2 yhdistää molemmat siihen, mitä ByteDance kutsuu "spatiotemporaaliseksi ankkuroinniksi" (STG).
Perinteinen lähestymistapa:
- Tilallinen: "Auto on pikselikoordinaateissa (450, 320)"
- Ajallinen: "Auto ilmestyy aikaleimakohtaan 0:15"
- Tulos: yhdistämätöntä tietoa, joka vaatii manuaalista korrelaatiota
Vidi2 STG:
- Yhdistetty: "Punainen auto on (450, 320) kohdassa 0:15, siirtyy (890, 340) kohtaan 0:18, poistuu oikealle 0:22"
- Tulos: täydellinen objektin liikerata tilan ja ajan läpi
Tämä on tärkeää, koska todelliset leikkaustehtävät vaativat molempia ulottuvuuksia. "Poista puomimikrofoni" tarvitsee tietää missä se ilmestyy (tilallinen) ja kuinka kauan (ajallinen). Vidi2 käsittelee tämän yhtenä kyselynä.
Vertailut: jättiläisten voittaminen
Tässä se muuttuu mielenkiintoiseksi. ByteDancen VUE-STG-vertailussa spatiotemporaaliselle ankkuroinnille Vidi2 päihittää sekä Gemini 2.0 Flashin että GPT-4o:n, vaikka sillä on vähemmän parametreja kuin molemmilla.
Varoitus: nämä vertailut luotiin ByteDancen toimesta. Riippumaton vahvistus kolmansien osapuolten vertailuissa vahvistaisi näitä väitteitä. Siitä huolimatta erikoistuneen arkkitehtuurin lähestymistapa on pätevä.
Vertailutulokset viittaavat siihen, että videon ymmärtäminen hyötyy erikoistuneesta suunnittelusta enemmän kuin raa'asta mittakaavasta. Videota varten alusta asti rakennettu malli voi päihittää suuremmat yleiskäyttöiset mallit, jotka käsittelevät videota kuvan ymmärtämisen laajennuksena.
Jo tuotannossa: TikTok Smart Split
Tämä ei ole höttöä. Vidi2 toimii TikTokin "Smart Split" -ominaisuuden taustalla, joka:
- ✓Poimii automaattisesti kohokohdat pitkistä videoista
- ✓Generoi puheeseen synkronoidut tekstitykset
- ✓Rakentaa asettelun uudelleen eri kuvasuhteisiin
- ✓Tunnistaa optimaaliset leikkauskohdat sisällön perusteella
Miljoonat sisällöntuottajat käyttävät Smart Splitiä päivittäin. Malli on todistettu mittakaavassa, ei teoreettinen.
Avoin lähdekoodi: ajettavissa itse
ByteDance julkaisi Vidi2:n GitHubissa CC BY-NC 4.0 -lisenssillä. Tämä tarkoittaa ilmaista käyttöä tutkimukseen, koulutukseen ja henkilökohtaisiin projekteihin, mutta kaupallinen käyttö vaatii erillisen lisenssin. Vaikutukset:
Kehittäjille:
- Rakenna mukautettuja videon analysointiputkia
- Integroi ymmärrys olemassa oleviin työkaluihin
- Hienosäädä tietyille aloille
- Ei API-kustannuksia mittakaavassa
Yrityksille:
- Käsittele arkaluontoista materiaalia paikallisesti
- Rakenna omia leikkaustyönkulkuja
- Vältä toimittajalukitusta
- Mukauta sisäisille sisältötyypeille
Avoimen lähdekoodin julkaisu seuraa mallia, jonka olemme nähneet LTX Videon ja muiden kiinalaisten tekoälylaboratorioiden kanssa: voimakkaiden mallien julkaiseminen avoimesti, kun länsimaiset kilpailijat pitävät omansa suljettuina.
Käytännön sovellukset
Käydään läpi joitakin todellisia työnkulkuja, jotka Vidi2 mahdollistaa:
Sisällön uudelleenkäyttö
Syöte: 2 tunnin podcast-tallenne Tuloste: 10 lyhyttä klippiä parhaista hetkistä, jokainen sopivilla intro/outro-leikkauksilla
Malli tunnistaa mukaansatempaavat hetket, löytää luonnolliset leikkauskohdat ja poimii klipit, jotka toimivat itsenäisenä sisältönä.
Koulutusvideoiden hallinta
Syöte: 500 tuntia yrityksen koulutusmateriaalia Kysely: "Löydä kaikki segmentit, jotka selittävät uuden CRM-työnkulun"
Manuaalisen selailun tai epäluotettavien metatietojen sijaan Vidi2 todella katsoo ja ymmärtää sisällön.
Urheilukohokohdat
Syöte: koko ottelun tallenne Tuloste: kohokohtavideo kaikista maalaushetkistä, läheltä piti -tilanteista ja juhlinnasta
Malli ymmärtää urheilukontekstia riittävän hyvin tunnistaakseen merkityksellisiä hetkiä, ei vain liikettä.
Valvontatallenteen tarkastelu
Syöte: 24 tuntia valvontamateriaalia Kysely: "Löydä kaikki tapaukset, joissa ihmiset tulivat sisään sivuovesta klo 18 jälkeen"
Spatiotemporaalinen ankkurointi tarkoittaa tarkkoja vastauksia tarkkoilla aikaleimalla ja sijainneilla.
Miten se vertautuu generointimalleihin
- Toimii olemassa olevan materiaalin kanssa
- Säästää leikkausaikaa, ei generointiaikaa
- Skaalautuu massiivisiin videokirjastoihin
- Ei vaadi luovaa promptaamista
- Käytännöllinen yrityksille välittömästi
- Luo uutta sisältöä tyhjästä
- Luovan ilmaisun työkalu
- Markkinointi- ja mainostussovellukset
- Laatu kasvaa nopeasti
- Jännittävä mutta erilainen käyttötapaus
Nämä eivät ole kilpailevia teknologioita. Ne ratkaisevat erilaisia ongelmia. Täydellinen tekoälyvideo työnkulku tarvitsee molemmat: generoinnin uuden sisällön luomiseen, ymmärtämisen olemassa olevan sisällön käsittelyyn.
Isompi kuva
Videon ymmärtäminen on kohta, jossa tekoäly siirtyy "vaikuttavasta demosta" "päivittäiseksi työkaluksi". Generointi saa huomiota. Ymmärtäminen tekee työn.
Harkitse mitä tämä mahdollistaa:
- Jokaisella yrityksellä on videosisältöä loukkuun arkistoihin
- Jokainen sisällöntuottaja käyttää enemmän aikaa leikkaamiseen kuin kuvaamiseen
- Jokainen alusta tarvitsee parempaa sisällön moderointia ja löytämistä
- Jokaisella tutkijalla on materiaalia, jota he eivät voi analysoida tehokkaasti
Vidi2 käsittelee kaikkia näitä. Avoimen lähdekoodin julkaisu tarkoittaa, että nämä kyvyt ovat nyt saatavilla kenelle tahansa, jolla on riittävästi laskentatehoa.
Aloittaminen
Malli on saatavilla GitHubissa dokumentaation ja demojen kera. Vaatimukset:
- NVIDIA GPU vähintään 24GB VRAM:lla täydelle mallille
- Kvantisoidut versiot saatavilla pienemmille GPU:ille
- Python 3.10+ PyTorch 2.0+ kanssa
Pika-aloitus:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentaatio on pääosin englanniksi, vaikka ByteDance on kiinalainen yritys, heijastellen maailmanlaajuista kohdeyleisöä.
Mitä tämä tarkoittaa teollisuudelle
Tekoälyvideomaisemalla on nyt kaksi erillistä uraa:
| Ura | Johtajat | Fokus | Arvo |
|---|---|---|---|
| Generointi | Runway, Sora, Veo, Kling | Luo uutta videota | Luova ilmaisu |
| Ymmärtäminen | Vidi2, (muut kehittymässä) | Analysoi olemassa olevaa videota | Tuottavuus |
Molemmat kypsyvät. Molemmat integroituvat. Vuoden 2026 täydellinen tekoälyvideo pino generoi, leikkaa ja ymmärtää saumattomasti.
Toistaiseksi Vidi2 edustaa kykenevintä avoimen lähdekoodin vaihtoehtoa videon ymmärtämiseen. Jos sinulla on materiaalia analysoitavana, leikkausta automatisoitavana tai sisältöä järjestettävänä, tämä on tutkittava malli.
Mielipiteeni
Olen viettänyt vuosia videon käsittelyputkien rakentamisessa. Ennen ja jälkeen mallien kuten Vidi2 kanssa on selvä. Tehtävät, jotka vaativat mukautettuja konenäköpinoja, manuaalista annotointia ja hauraita heuristiikkoja, voidaan nyt ratkaista promptilla.
Parhaat tekoälytyökalut eivät korvaa ihmisen harkintaa. Ne poistavat tylsän työn, joka estää ihmisiä soveltamasta harkintaa mittakaavassa.
Vidi2 ei korvaa leikkaajia. Se antaa leikkaajille kyvyt, jotka olivat aiemmin mahdottomia mittakaavassa. Ja avoimella käytöllä (ei-kaupalliseen käyttöön) nämä kyvyt ovat saatavilla kenelle tahansa, joka on valmis pystyttämään infrastruktuurin.
Videon tulevaisuus ei ole vain generointia. Se on ymmärtämistä. Ja tuo tulevaisuus on nyt avointa lähdekoodia.
Lähteet
Oliko tämä artikkeli hyödyllinen?

Damien
TekoälykehittäjäLyonista kotoisin oleva tekoälykehittäjä, joka rakastaa monimutkaisten koneoppimiskonseptien muuttamista yksinkertaisiksi resepteiksi. Kun ei virheenkorjaa malleja, hänet löytää pyöräilemästä Rhônen laaksossa.
Aiheeseen liittyviä artikkeleita
Jatka tutustumista näihin aiheeseen liittyviin julkaisuihin

ByteDance Seedance 1.5 Pro: malli, joka generoi äänen ja videon yhdessä
ByteDance julkaisee Seedance 1.5 Pron natiivilla audiovisuaalisella generoinnilla, elokuvatasoisen kameran ohjauksilla ja monikielisellä huulisynkronilla. Saatavilla ilmaiseksi CapCutissa.

YouTube Tuo Veo 3 Fastin Shortsiin: Ilmainen AI-Videogenerointi 2,5 Miljardille Kayttajalle
Google integroi Veo 3 Fast -mallinsa suoraan YouTube Shortsiin tarjoten ilmaisen tekstista videoksi -generoinnin aanella sisallontuottajille maailmanlaajuisesti. Tassa on mita se tarkoittaa alustalle ja AI-videon saatavuudelle.

Kling 2.6: Aaenkloonaus ja liikkeenhallinta muuttavat tekovideotyn tekemisen
Kuaishoun uusin paivitys tuo samanaikaisen video-audio-generoinnin, mukautetun aanikoulutuksen ja tarkan liikekaappauksen, jotka voivat muuttaa tekijoiden tapaa tyoskennella tekoalyvideoiden parissa.