ByteDance Vidi2: AI der forstår video som en professionel redigerer
ByteDance har netop open-sourcet Vidi2, en model med 12 milliarder parametre, der forstår videoindhold godt nok til automatisk at redigere timevis af optagelser til polerede klip. Den driver allerede TikTok Smart Split.

Mens alle er besat af videogenerering, har ByteDance stille løst et andet problem: at få AI til at forstå video som en erfaren redigerer. Vidi2 kan se timevis af rå optagelser og udtrække præcis det, der betyder noget.
Problemet ingen taler om
Vi har utrolige AI-videogeneratorer nu. Runway Gen-4.5 topper kvalitetslisterne. Kling O1 genererer synkroniseret lyd. Men her er den beskidte hemmelighed ved videoproduktion: det meste tid går med redigering, ikke skabelse.
En bryllupsvideograf optager 8 timers optagelser til et 5-minutters højdepunktsklip. En content creator optager 45 minutter for at lave en 60-sekunders TikTok. Et virksomhedsteam har 200 timers træningsoptagelser begravet i SharePoint.
Videogenerering får overskrifterne. Videoforståelse gør det faktiske arbejde.
Vidi2 tackles dette gap. Det er ikke endnu en generator. Det er en AI, der ser video, forstår hvad der sker, og hjælper dig med at arbejde med det indhold i stor skala.
Hvad Vidi2 faktisk gør
ByteDance beskriver Vidi2 som en "Large Multimodal Model til videoforståelse og skabelse." Den 12-milliarder parameter model excellerer ved:
Rumlig-temporal forankring
Find ethvert objekt i en video og spor det gennem tiden. Ikke bare "der er en kat ved 0:32", men "katten kommer ind ved 0:32, bevæger sig til sofaen ved 0:45, og forlader billedet ved 1:12."
Intelligent redigering
Analyser optagelser og foreslå klip baseret på indhold. Find de bedste øjeblikke, identificer scenegrænser, forstå tempo.
Indholdsanalyse
Beskriv hvad der sker i video med nok detalje til at være nyttigt. Ikke "to personer taler", men "interviewsegment, gæst forklarer produktfunktioner, højt engagement-øjeblik ved 3:45."
Objektsporing
Spor objekter som kontinuerlige "rør" gennem video, selv når de forlader og kommer ind i billedet igen. Dette muliggør præcis udvælgelse til effekter, fjernelse eller fremhævning.
Den tekniske innovation: Rumlig-temporal forankring
Tidligere video-AI arbejdede i to dimensioner: rum (hvad er i denne frame) eller tid (hvornår sker noget). Vidi2 kombinerer begge til det ByteDance kalder "Spatio-Temporal Grounding" (STG).
Traditionel tilgang:
- Rumlig: "Bilen er ved pixelkoordinater (450, 320)"
- Temporal: "En bil vises ved tidsstempel 0:15"
- Resultat: Afbrudt information der kræver manuel korrelation
Vidi2 STG:
- Kombineret: "Den røde bil er ved (450, 320) ved 0:15, bevæger sig til (890, 340) ved 0:18, forlader til højre ved 0:22"
- Resultat: Komplet objektbane gennem rum og tid
Dette betyder noget fordi rigtige redigeringsopgaver kræver begge dimensioner. "Fjern bommikrofonen" skal vide hvor den vises (rumligt) og hvor længe (temporalt). Vidi2 håndterer dette som en enkelt forespørgsel.
Benchmarks: Slår giganterne
Her bliver det interessant. På ByteDance's VUE-STG benchmark for rumlig-temporal forankring overgår Vidi2 både Gemini 2.0 Flash og GPT-4o, på trods af at have færre parametre end begge.
En advarsel: disse benchmarks blev skabt af ByteDance. Uafhængig verificering på tredjeparts benchmarks ville styrke disse påstande. Når det er sagt, er den specialiserede arkitekturtilgang fornuftig.
Benchmark-resultaterne antyder, at videoforståelse drager fordel af specialiseret design mere end rå skala. En model bygget til video fra bunden kan overgå større generelle modeller, der behandler video som en udvidelse af billedforståelse.
Allerede i produktion: TikTok Smart Split
Dette er ikke vaporware. Vidi2 driver TikToks "Smart Split"-funktion, som:
- ✓Automatisk udtrækker højdepunkter fra lange videoer
- ✓Genererer undertekster synkroniseret til tale
- ✓Rekonstruerer layout til forskellige billedformater
- ✓Identificerer optimale klippunkter baseret på indhold
Millioner af skabere bruger Smart Split dagligt. Modellen er bevist i stor skala, ikke teoretisk.
Open Source: Kør den selv
ByteDance udgav Vidi2 på GitHub under en CC BY-NC 4.0-licens. Det betyder gratis til forskning, uddannelse og personlige projekter, men kommerciel brug kræver separat licensering. Implikationerne:
For udviklere:
- Byg tilpassede videoanalysepipelines
- Integrer forståelse i eksisterende værktøjer
- Finjuster til specifikke domæner
- Ingen API-omkostninger i stor skala
For virksomheder:
- Behandl følsomt materiale lokalt
- Byg proprietære redigeringsworkflows
- Undgå vendor lock-in
- Tilpas til interne indholdstyper
Open source-udgivelsen følger et mønster vi har set med LTX Video og andre kinesiske AI-laboratorier: frigivelse af kraftfulde modeller åbent, mens vestlige konkurrenter holder deres proprietære.
Praktiske anvendelser
Lad mig gennemgå nogle rigtige workflows Vidi2 muliggør:
Indholdsomdannelse
Input: 2-timers podcast-optagelse Output: 10 korte klip af de bedste øjeblikke, hver med ordentlige intro/outro-klip
Modellen identificerer engagerende øjeblikke, finder naturlige klippunkter og udtrækker klip, der fungerer som selvstændigt indhold.
Træningsvideoadministration
Input: 500 timers virksomhedstræningsoptagelser Forespørgsel: "Find alle segmenter der forklarer det nye CRM-workflow"
I stedet for manuel gennemgang eller at stole på upålidelig metadata, ser Vidi2 faktisk og forstår indholdet.
Sports-højdepunkter
Input: Fuld kamp-optagelse Output: Højdepunktsklip med alle scoring-øjeblikke, tætte situationer og fejringer
Modellen forstår sportskontekst godt nok til at identificere meningsfulde øjeblikke, ikke bare bevægelse.
Overvågningsgennemgang
Input: 24 timers sikkerhedsoptagelser Forespørgsel: "Find alle tilfælde af personer der kommer ind gennem sidedøren efter 18:00"
Rumlig-temporal forankring betyder præcise svar med nøjagtige tidsstempler og placeringer.
Hvordan den sammenlignes med genereringsmodeller
- Arbejder med eksisterende optagelser
- Sparer redigeringstid, ikke genereringstid
- Skalerer til massive videobiblioteker
- Ingen kreativ prompting påkrævet
- Praktisk til virksomheder med det samme
- Skaber nyt indhold fra ingenting
- Kreativt udtryksværktøj
- Marketing- og reklameapplikationer
- Hurtigt voksende kvalitet
- Spændende men anderledes use case
Disse er ikke konkurrerende teknologier. De løser forskellige problemer. En komplet AI-videoworkflow har brug for begge: generering til at skabe nyt indhold, forståelse til at arbejde med eksisterende indhold.
Det større billede
Videoforståelse er hvor AI flytter fra "imponerende demo" til "dagligt værktøj." Generering får opmærksomhed. Forståelse får arbejdet gjort.
Overvej hvad dette muliggør:
- Enhver virksomhed har videoindhold fanget i arkiver
- Enhver skaber bruger mere tid på redigering end optagelse
- Enhver platform har brug for bedre indholdsmoderering og opdagelse
- Enhver forsker har optagelser de ikke kan analysere effektivt
Vidi2 adresserer alle disse. Open source-udgivelsen betyder, at disse kapaciteter nu er tilgængelige for alle med tilstrækkelig compute.
Kom i gang
Modellen er tilgængelig på GitHub med dokumentation og demoer. Krav:
- NVIDIA GPU med mindst 24GB VRAM til fuld model
- Kvantiserede versioner tilgængelige til mindre GPU'er
- Python 3.10+ med PyTorch 2.0+
Hurtig start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentationen er primært på engelsk på trods af at ByteDance er en kinesisk virksomhed, hvilket afspejler det globale målpublikum.
Hvad dette betyder for branchen
AI-videolandskabet har nu to distinkte spor:
| Spor | Ledere | Fokus | Værdi |
|---|---|---|---|
| Generering | Runway, Sora, Veo, Kling | Skab ny video | Kreativt udtryk |
| Forståelse | Vidi2, (andre under udvikling) | Analyser eksisterende video | Produktivitet |
Begge vil modnes. Begge vil integreres. Den komplette AI-video stack i 2026 vil generere, redigere og forstå problemfrit.
Indtil videre repræsenterer Vidi2 den mest kapable open source-mulighed for videoforståelse. Hvis du har optagelser at analysere, redigering at automatisere eller indhold at organisere, er dette modellen at udforske.
Min holdning
Jeg har brugt år på at bygge videobehandlingspipelines. Før og efter med modeller som Vidi2 er markant. Opgaver der krævede brugerdefinerede computer vision-stacks, manuel annotation og skrøbelige heuristikker kan nu løses med en prompt.
De bedste AI-værktøjer erstatter ikke menneskelig dømmekraft. De fjerner det kedelige arbejde der forhindrer mennesker i at anvende dømmekraft i stor skala.
Vidi2 erstatter ikke redigerere. Den giver redigerere kapaciteter der tidligere var umulige i stor skala. Og med åben adgang (til ikke-kommerciel brug) er disse kapaciteter tilgængelige for alle der er villige til at opsætte infrastrukturen.
Fremtiden for video er ikke bare generering. Det er forståelse. Og den fremtid er nu open source.
Kilder
Var denne artikel nyttig?

Damien
AI-udviklerAI-udvikler fra Lyon, der elsker at omsætte komplekse ML-koncepter til simple opskrifter. Når han ikke debugger modeller, finder du ham på cykeltur gennem Rhône-dalen.
Relaterede artikler
Fortsæt med at udforske disse relaterede indlæg

ByteDance Seedance 1.5 Pro: Modellen der genererer lyd og video sammen
ByteDance udgiver Seedance 1.5 Pro med indbygget audiovisuel generering, biografkvalitets kamerakontrol og flersproget lip-sync. Tilgængelig gratis på CapCut.

Open source AI-video revolutionen: Kan forbruger GPU'er konkurrere med tech-giganterne?
ByteDance og Tencent har netop frigivet open source videomodeller, der kører på almindelig forbrugerhardware. Det ændrer alt for uafhængige skabere.

YouTube Bringer Veo 3 Fast til Shorts: Gratis AI-Videogenerering for 2,5 Milliarder Brugere
Google integrerer sin Veo 3 Fast-model direkte i YouTube Shorts og tilbyder gratis tekst-til-video generering med lyd for skabere verden over. Her er hvad det betyder for platformen og AI-video tilgaengelighed.