ByteDance Vidi2: AI som Forstår Video som en Editor
ByteDance har nettopp gjort Vidi2 open source, en 12B parametermodell som forstår videoinnhold godt nok til å automatisk redigere timer med opptak til polerte klipp. Den driver allerede TikTok Smart Split.

Mens alle er opptatt av videogenerering, har ByteDance stille løst et annet problem: få AI til å forstå video som en erfaren editor. Vidi2 kan se timer med råopptak og trekke ut akkurat det som betyr noe.
Problemet Ingen Snakker Om
Vi har utrolige AI-videogeneratorer nå. Runway Gen-4.5 topper kvalitetslistene. Kling O1 genererer synkronisert lyd. Men her er det skitne hemmeligheten i videoproduksjon: mest tid går til redigering, ikke skapelse.
En bryllupsvideograf filmer 8 timer for en høydepunktsrull på 5 minutter. En innholdsskaper tar opp 45 minutter for å lage en 60-sekunders TikTok. Et bedriftsteam har 200 timer opplæringsopptak begravet i SharePoint.
Videogenerering får overskriftene. Videoforståelse gjør det faktiske arbeidet.
Vidi2 tar tak i dette gapet. Det er ikke enda en generator. Det er en AI som ser på video, forstår hva som skjer, og hjelper deg jobbe med innholdet i stor skala.
Hva Vidi2 Faktisk Gjør
ByteDance beskriver Vidi2 som en "Large Multimodal Model for Videoforståelse og Skapelse." Modellen med 12 milliarder parametere utmerker seg i:
Spatio-Temporal Grounding
Finn hvilket som helst objekt i en video og spor det gjennom tid. Ikke bare "det er en katt klokken 0:32" men "katten kommer inn klokken 0:32, beveger seg til sofaen klokken 0:45, og forlater bildet klokken 1:12."
Intelligent Redigering
Analyser opptak og foreslå klipp basert på innhold. Finn de beste øyeblikkene, identifiser scenegrenser, forstå pacing.
Innholdsanalyse
Beskriv hva som skjer i video med nok detalj til å være nyttig. Ikke "to personer snakker" men "intervjusegment, gjest forklarer produktfunksjoner, høyt engasjement klokken 3:45."
Objektsporing
Spor objekter som kontinuerlige "rør" gjennom video, selv når de forlater og kommer tilbake i bildet. Dette gir presis utvelgelse for effekter, fjerning, eller vektlegging.
Den Tekniske Innovasjonen: Spatio-Temporal Grounding
Tidligere video-AI jobbet i to dimensjoner: rom (hva er i denne rammen) eller tid (når skjer noe). Vidi2 kombinerer begge i det ByteDance kaller "Spatio-Temporal Grounding" (STG).
Tradisjonell Tilnærming:
- Romlig: "Bilen er ved pikselkoordinater (450, 320)"
- Tidsmessig: "En bil dukker opp ved tidsstempel 0:15"
- Resultat: Frakoblet informasjon som krever manuell korrelasjon
Vidi2 STG:
- Kombinert: "Den røde bilen er ved (450, 320) klokken 0:15, beveger seg til (890, 340) klokken 0:18, kjører ut til høyre klokken 0:22"
- Resultat: Komplett objektbane gjennom rom og tid
Dette er viktig fordi reelle redigeringsoppgaver krever begge dimensjoner. "Fjern boom-mikrofonen" må vite hvor den vises (romlig) og hvor lenge (tidsmessig). Vidi2 håndterer dette som én spørring.
Benchmarks: Slår Gigantene
Her blir det interessant. På ByteDance sin VUE-STG benchmark for spatio-temporal grounding presterer Vidi2 bedre enn både Gemini 2.0 Flash og GPT-4o, til tross for å ha færre parametere enn begge.
Et forbehold: disse benchmarkene ble laget av ByteDance. Uavhengig verifisering på tredjepartsbenchmarks ville styrket disse påstandene. Det sagt, den spesialiserte arkitekturtilnærmingen er solid.
Benchmarkresultatene antyder at videoforståelse nyter godt av spesialisert design mer enn ren skala. En modell bygget for video fra grunnen av kan prestere bedre enn større generelle modeller som behandler video som en forlengelse av bildeforståelse.
Allerede i Produksjon: TikTok Smart Split
Dette er ikke vaporware. Vidi2 driver TikToks "Smart Split"-funksjon, som:
- ✓Automatisk trekker ut høydepunkter fra lange videoer
- ✓Genererer undertekster synkronisert til tale
- ✓Rekonstruerer layout for forskjellige bildeformater
- ✓Identifiserer optimale snittpunkter basert på innhold
Millioner av skapere bruker Smart Split daglig. Modellen er bevist i stor skala, ikke teoretisk.
Open Source: Kjør Den Selv
ByteDance ga ut Vidi2 på GitHub under en CC BY-NC 4.0 lisens. Det betyr gratis for forskning, utdanning og personlige prosjekter, men kommersiell bruk krever separat lisensiering. Implikasjonene:
For Utviklere:
- Bygg tilpassede videoanalyse-pipelines
- Integrer forståelse i eksisterende verktøy
- Finjuster for spesifikke domener
- Ingen API-kostnader i stor skala
For Bedrifter:
- Prosesser sensitivt opptak lokalt
- Bygg proprietære redigeringsflyter
- Unngå vendor lock-in
- Tilpass for interne innholdstyper
Open source-utgivelsen følger et mønster vi har sett med LTX Video og andre kinesiske AI-laboratorier: å gi ut kraftige modeller åpent mens vestlige konkurrenter holder sine proprietære.
Praktiske Bruksområder
La meg gå gjennom noen reelle arbeidsflyter Vidi2 gjør mulig:
Innholdsgjenbruk
Inndata: 2 timers podcast-opptak Utdata: 10 korte klipp av de beste øyeblikkene, hver med passende intro/outro-klipp
Modellen identifiserer engasjerende øyeblikk, finner naturlige snittpunkt, og trekker ut klipp som fungerer som frittstående innhold.
Opplæringsvideobehandling
Inndata: 500 timer bedriftsopplæringsopptak Spørring: "Finn alle segmenter som forklarer den nye CRM-arbeidsflyten"
I stedet for manuell gjennomgang eller å stole på upålitelig metadata, ser Vidi2 faktisk på og forstår innholdet.
Sportshøydepunkter
Inndata: Fullstendig kampopptak Utdata: Høydepunktsrull med alle scoringsøyeblikk, nære situasjoner og feiringer
Modellen forstår sportskontekst godt nok til å identifisere meningsfulle øyeblikk, ikke bare bevegelse.
Overvåkingsgjennomgang
Inndata: 24 timer sikkerhetsopptak Spørring: "Finn alle tilfeller av personer som kommer inn gjennom sidedøren etter kl. 18"
Spatio-temporal grounding betyr presise svar med eksakte tidsstempler og lokasjoner.
Hvordan Det Sammenlignes med Genereringsmodeller
- Jobber med eksisterende opptak
- Sparer redigeringstid, ikke genereringstid
- Skalerer til massive videobiblioteker
- Ingen kreativ prompting nødvendig
- Praktisk for bedrifter umiddelbart
- Skaper nytt innhold fra ingenting
- Kreativt uttrykkelsesverktøy
- Markedsførings- og reklamebruk
- Kvalitet vokser raskt
- Spennende men annerledes bruksområde
Dette er ikke konkurrerende teknologier. De løser forskjellige problemer. En komplett AI-videoarbeidsflyt trenger begge: generering for å skape nytt innhold, forståelse for å jobbe med eksisterende innhold.
Det Større Bildet
Videoforståelse er hvor AI flytter seg fra "imponerende demo" til "daglig verktøy." Generering får oppmerksomhet. Forståelse får jobben gjort.
Vurder hva dette muliggjør:
- Hver bedrift har videoinnhold fanget i arkiver
- Hver skaper bruker mer tid på redigering enn filming
- Hver plattform trenger bedre innholdsmoderering og oppdagelse
- Hver forsker har opptak de ikke kan analysere effektivt
Vidi2 adresserer alt dette. Open source-utgivelsen betyr at disse mulighetene nå er tilgjengelige for alle med tilstrekkelig datakraft.
Komme i Gang
Modellen er tilgjengelig på GitHub med dokumentasjon og demoer. Krav:
- NVIDIA GPU med minst 24GB VRAM for full modell
- Kvantiserte versjoner tilgjengelig for mindre GPU-er
- Python 3.10+ med PyTorch 2.0+
Hurtig Start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentasjonen er primært på engelsk til tross for at ByteDance er et kinesisk selskap, noe som gjenspeiler det globale målpublikummet.
Hva Dette Betyr for Bransjen
AI-videolandskapet har nå to distinkte spor:
| Spor | Ledere | Fokus | Verdi |
|---|---|---|---|
| Generering | Runway, Sora, Veo, Kling | Skape ny video | Kreativt uttrykk |
| Forståelse | Vidi2, (andre på vei) | Analysere eksisterende video | Produktivitet |
Begge vil modnes. Begge vil integreres. Den komplette AI-videostakken i 2026 vil generere, redigere og forstå sømløst.
For nå representerer Vidi2 det mest kapable open source-alternativet for videoforståelse. Hvis du har opptak å analysere, redigering å automatisere, eller innhold å organisere, er dette modellen å utforske.
Min Vurdering
Jeg har brukt år på å bygge videoprosesserings-pipelines. Før og etter med modeller som Vidi2 er markant. Oppgaver som krevde tilpassede computer vision-stakker, manuell annotasjon og skjøre heuristikker kan nå løses med en prompt.
De beste AI-verktøyene erstatter ikke menneskelig dømmekraft. De fjerner det kjedelige arbeidet som hindrer mennesker i å bruke dømmekraft i stor skala.
Vidi2 erstatter ikke editorer. Det gir editorer muligheter som tidligere var umulige i stor skala. Og med åpen tilgang (for ikke-kommersiell bruk) er disse mulighetene tilgjengelige for alle som er villige til å sette opp infrastrukturen.
Fremtiden for video er ikke bare generering. Det er forståelse. Og den fremtiden er nå open source.
Kilder
Var denne artikkelen nyttig?

Damien
KI-utviklerKI-utvikler fra Lyon som elsker å gjøre komplekse ML-konsepter om til enkle oppskrifter. Når han ikke feilsøker modeller, finner du ham på sykkel gjennom Rhône-dalen.
Relaterte artikler
Fortsett å utforske med disse relaterte innleggene

ByteDance Seedance 1.5 Pro: Modellen Som Genererer Lyd og Video Sammen
ByteDance lanserer Seedance 1.5 Pro med innebygd audiovisuell generering, kinokvalitet kamerakontroll og flerspråklig leppesynkronisering. Tilgjengelig gratis på CapCut.

YouTube Bringer Veo 3 Fast til Shorts: Gratis AI-Videogenerering for 2,5 Milliarder Brukere
Google integrerer sin Veo 3 Fast-modell direkte i YouTube Shorts og tilbyr gratis tekst-til-video-generering med lyd for skapere verden over. Her er hva det betyr for plattformen og AI-video tilgjengelighet.

Kling 2.6: Stemmekloning og bevegelseskontroll gir AI-video en ny retning
Kuaishous siste oppdatering introduserer samtidig lyd-visuell generering, tilpasset stemmetrening og presis bevegelsesopptak som kan endre hvordan skapere jobber med AI-video.