Meta Pixel
DamienDamien
7 min read
1325 ord

ByteDance Vidi2: AI der forstår video som en professionel redigerer

ByteDance har netop open-sourcet Vidi2, en model med 12 milliarder parametre, der forstår videoindhold godt nok til automatisk at redigere timevis af optagelser til polerede klip. Den driver allerede TikTok Smart Split.

ByteDance Vidi2: AI der forstår video som en professionel redigerer

Mens alle er besat af videogenerering, har ByteDance stille løst et andet problem: at få AI til at forstå video som en erfaren redigerer. Vidi2 kan se timevis af rå optagelser og udtrække præcis det, der betyder noget.

Problemet ingen taler om

Vi har utrolige AI-videogeneratorer nu. Runway Gen-4.5 topper kvalitetslisterne. Kling O1 genererer synkroniseret lyd. Men her er den beskidte hemmelighed ved videoproduktion: det meste tid går med redigering, ikke skabelse.

En bryllupsvideograf optager 8 timers optagelser til et 5-minutters højdepunktsklip. En content creator optager 45 minutter for at lave en 60-sekunders TikTok. Et virksomhedsteam har 200 timers træningsoptagelser begravet i SharePoint.

💡

Videogenerering får overskrifterne. Videoforståelse gør det faktiske arbejde.

Vidi2 tackles dette gap. Det er ikke endnu en generator. Det er en AI, der ser video, forstår hvad der sker, og hjælper dig med at arbejde med det indhold i stor skala.

Hvad Vidi2 faktisk gør

ByteDance beskriver Vidi2 som en "Large Multimodal Model til videoforståelse og skabelse." Den 12-milliarder parameter model excellerer ved:

🔍

Rumlig-temporal forankring

Find ethvert objekt i en video og spor det gennem tiden. Ikke bare "der er en kat ved 0:32", men "katten kommer ind ved 0:32, bevæger sig til sofaen ved 0:45, og forlader billedet ved 1:12."

✂️

Intelligent redigering

Analyser optagelser og foreslå klip baseret på indhold. Find de bedste øjeblikke, identificer scenegrænser, forstå tempo.

📝

Indholdsanalyse

Beskriv hvad der sker i video med nok detalje til at være nyttigt. Ikke "to personer taler", men "interviewsegment, gæst forklarer produktfunktioner, højt engagement-øjeblik ved 3:45."

🎯

Objektsporing

Spor objekter som kontinuerlige "rør" gennem video, selv når de forlader og kommer ind i billedet igen. Dette muliggør præcis udvælgelse til effekter, fjernelse eller fremhævning.

Den tekniske innovation: Rumlig-temporal forankring

Tidligere video-AI arbejdede i to dimensioner: rum (hvad er i denne frame) eller tid (hvornår sker noget). Vidi2 kombinerer begge til det ByteDance kalder "Spatio-Temporal Grounding" (STG).

Traditionel tilgang:

  • Rumlig: "Bilen er ved pixelkoordinater (450, 320)"
  • Temporal: "En bil vises ved tidsstempel 0:15"
  • Resultat: Afbrudt information der kræver manuel korrelation

Vidi2 STG:

  • Kombineret: "Den røde bil er ved (450, 320) ved 0:15, bevæger sig til (890, 340) ved 0:18, forlader til højre ved 0:22"
  • Resultat: Komplet objektbane gennem rum og tid

Dette betyder noget fordi rigtige redigeringsopgaver kræver begge dimensioner. "Fjern bommikrofonen" skal vide hvor den vises (rumligt) og hvor længe (temporalt). Vidi2 håndterer dette som en enkelt forespørgsel.

Benchmarks: Slår giganterne

12B
Parametre
#1
Videoforståelse
Open
Source

Her bliver det interessant. På ByteDance's VUE-STG benchmark for rumlig-temporal forankring overgår Vidi2 både Gemini 2.0 Flash og GPT-4o, på trods af at have færre parametre end begge.

💡

En advarsel: disse benchmarks blev skabt af ByteDance. Uafhængig verificering på tredjeparts benchmarks ville styrke disse påstande. Når det er sagt, er den specialiserede arkitekturtilgang fornuftig.

Benchmark-resultaterne antyder, at videoforståelse drager fordel af specialiseret design mere end rå skala. En model bygget til video fra bunden kan overgå større generelle modeller, der behandler video som en udvidelse af billedforståelse.

Allerede i produktion: TikTok Smart Split

Dette er ikke vaporware. Vidi2 driver TikToks "Smart Split"-funktion, som:

  • Automatisk udtrækker højdepunkter fra lange videoer
  • Genererer undertekster synkroniseret til tale
  • Rekonstruerer layout til forskellige billedformater
  • Identificerer optimale klippunkter baseret på indhold

Millioner af skabere bruger Smart Split dagligt. Modellen er bevist i stor skala, ikke teoretisk.

Open Source: Kør den selv

ByteDance udgav Vidi2 på GitHub under en CC BY-NC 4.0-licens. Det betyder gratis til forskning, uddannelse og personlige projekter, men kommerciel brug kræver separat licensering. Implikationerne:

For udviklere:

  • Byg tilpassede videoanalysepipelines
  • Integrer forståelse i eksisterende værktøjer
  • Finjuster til specifikke domæner
  • Ingen API-omkostninger i stor skala

For virksomheder:

  • Behandl følsomt materiale lokalt
  • Byg proprietære redigeringsworkflows
  • Undgå vendor lock-in
  • Tilpas til interne indholdstyper

Open source-udgivelsen følger et mønster vi har set med LTX Video og andre kinesiske AI-laboratorier: frigivelse af kraftfulde modeller åbent, mens vestlige konkurrenter holder deres proprietære.

Praktiske anvendelser

Lad mig gennemgå nogle rigtige workflows Vidi2 muliggør:

Indholdsomdannelse

Input: 2-timers podcast-optagelse Output: 10 korte klip af de bedste øjeblikke, hver med ordentlige intro/outro-klip

Modellen identificerer engagerende øjeblikke, finder naturlige klippunkter og udtrækker klip, der fungerer som selvstændigt indhold.

Træningsvideoadministration

Input: 500 timers virksomhedstræningsoptagelser Forespørgsel: "Find alle segmenter der forklarer det nye CRM-workflow"

I stedet for manuel gennemgang eller at stole på upålidelig metadata, ser Vidi2 faktisk og forstår indholdet.

Sports-højdepunkter

Input: Fuld kamp-optagelse Output: Højdepunktsklip med alle scoring-øjeblikke, tætte situationer og fejringer

Modellen forstår sportskontekst godt nok til at identificere meningsfulde øjeblikke, ikke bare bevægelse.

Overvågningsgennemgang

Input: 24 timers sikkerhedsoptagelser Forespørgsel: "Find alle tilfælde af personer der kommer ind gennem sidedøren efter 18:00"

Rumlig-temporal forankring betyder præcise svar med nøjagtige tidsstempler og placeringer.

Hvordan den sammenlignes med genereringsmodeller

Videoforståelse (Vidi2)
  • Arbejder med eksisterende optagelser
  • Sparer redigeringstid, ikke genereringstid
  • Skalerer til massive videobiblioteker
  • Ingen kreativ prompting påkrævet
  • Praktisk til virksomheder med det samme
Videogenerering (Runway, Sora)
  • Skaber nyt indhold fra ingenting
  • Kreativt udtryksværktøj
  • Marketing- og reklameapplikationer
  • Hurtigt voksende kvalitet
  • Spændende men anderledes use case

Disse er ikke konkurrerende teknologier. De løser forskellige problemer. En komplet AI-videoworkflow har brug for begge: generering til at skabe nyt indhold, forståelse til at arbejde med eksisterende indhold.

Det større billede

⚠️

Videoforståelse er hvor AI flytter fra "imponerende demo" til "dagligt værktøj." Generering får opmærksomhed. Forståelse får arbejdet gjort.

Overvej hvad dette muliggør:

  • Enhver virksomhed har videoindhold fanget i arkiver
  • Enhver skaber bruger mere tid på redigering end optagelse
  • Enhver platform har brug for bedre indholdsmoderering og opdagelse
  • Enhver forsker har optagelser de ikke kan analysere effektivt

Vidi2 adresserer alle disse. Open source-udgivelsen betyder, at disse kapaciteter nu er tilgængelige for alle med tilstrækkelig compute.

Kom i gang

Modellen er tilgængelig på GitHub med dokumentation og demoer. Krav:

  • NVIDIA GPU med mindst 24GB VRAM til fuld model
  • Kvantiserede versioner tilgængelige til mindre GPU'er
  • Python 3.10+ med PyTorch 2.0+

Hurtig start:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentationen er primært på engelsk på trods af at ByteDance er en kinesisk virksomhed, hvilket afspejler det globale målpublikum.

Hvad dette betyder for branchen

AI-videolandskabet har nu to distinkte spor:

SporLedereFokusVærdi
GenereringRunway, Sora, Veo, KlingSkab ny videoKreativt udtryk
ForståelseVidi2, (andre under udvikling)Analyser eksisterende videoProduktivitet

Begge vil modnes. Begge vil integreres. Den komplette AI-video stack i 2026 vil generere, redigere og forstå problemfrit.

Indtil videre repræsenterer Vidi2 den mest kapable open source-mulighed for videoforståelse. Hvis du har optagelser at analysere, redigering at automatisere eller indhold at organisere, er dette modellen at udforske.

Min holdning

Jeg har brugt år på at bygge videobehandlingspipelines. Før og efter med modeller som Vidi2 er markant. Opgaver der krævede brugerdefinerede computer vision-stacks, manuel annotation og skrøbelige heuristikker kan nu løses med en prompt.

💡

De bedste AI-værktøjer erstatter ikke menneskelig dømmekraft. De fjerner det kedelige arbejde der forhindrer mennesker i at anvende dømmekraft i stor skala.

Vidi2 erstatter ikke redigerere. Den giver redigerere kapaciteter der tidligere var umulige i stor skala. Og med åben adgang (til ikke-kommerciel brug) er disse kapaciteter tilgængelige for alle der er villige til at opsætte infrastrukturen.

Fremtiden for video er ikke bare generering. Det er forståelse. Og den fremtid er nu open source.


Kilder

Var denne artikel nyttig?

Damien

Damien

AI-udvikler

AI-udvikler fra Lyon, der elsker at omsætte komplekse ML-koncepter til simple opskrifter. Når han ikke debugger modeller, finder du ham på cykeltur gennem Rhône-dalen.

Relaterede artikler

Fortsæt med at udforske disse relaterede indlæg

Kunne du lide artiklen?

Få mere indsigt, og hold dig opdateret med vores nyeste indhold.

ByteDance Vidi2: AI der forstår video som en professionel redigerer