Meta Pixel
DamienDamien
7 min read
1336 ord

ByteDance Vidi2: AI som Forstår Video som en Editor

ByteDance har nettopp gjort Vidi2 open source, en 12B parametermodell som forstår videoinnhold godt nok til å automatisk redigere timer med opptak til polerte klipp. Den driver allerede TikTok Smart Split.

ByteDance Vidi2: AI som Forstår Video som en Editor

Mens alle er opptatt av videogenerering, har ByteDance stille løst et annet problem: få AI til å forstå video som en erfaren editor. Vidi2 kan se timer med råopptak og trekke ut akkurat det som betyr noe.

Problemet Ingen Snakker Om

Vi har utrolige AI-videogeneratorer nå. Runway Gen-4.5 topper kvalitetslistene. Kling O1 genererer synkronisert lyd. Men her er det skitne hemmeligheten i videoproduksjon: mest tid går til redigering, ikke skapelse.

En bryllupsvideograf filmer 8 timer for en høydepunktsrull på 5 minutter. En innholdsskaper tar opp 45 minutter for å lage en 60-sekunders TikTok. Et bedriftsteam har 200 timer opplæringsopptak begravet i SharePoint.

💡

Videogenerering får overskriftene. Videoforståelse gjør det faktiske arbeidet.

Vidi2 tar tak i dette gapet. Det er ikke enda en generator. Det er en AI som ser på video, forstår hva som skjer, og hjelper deg jobbe med innholdet i stor skala.

Hva Vidi2 Faktisk Gjør

ByteDance beskriver Vidi2 som en "Large Multimodal Model for Videoforståelse og Skapelse." Modellen med 12 milliarder parametere utmerker seg i:

🔍

Spatio-Temporal Grounding

Finn hvilket som helst objekt i en video og spor det gjennom tid. Ikke bare "det er en katt klokken 0:32" men "katten kommer inn klokken 0:32, beveger seg til sofaen klokken 0:45, og forlater bildet klokken 1:12."

✂️

Intelligent Redigering

Analyser opptak og foreslå klipp basert på innhold. Finn de beste øyeblikkene, identifiser scenegrenser, forstå pacing.

📝

Innholdsanalyse

Beskriv hva som skjer i video med nok detalj til å være nyttig. Ikke "to personer snakker" men "intervjusegment, gjest forklarer produktfunksjoner, høyt engasjement klokken 3:45."

🎯

Objektsporing

Spor objekter som kontinuerlige "rør" gjennom video, selv når de forlater og kommer tilbake i bildet. Dette gir presis utvelgelse for effekter, fjerning, eller vektlegging.

Den Tekniske Innovasjonen: Spatio-Temporal Grounding

Tidligere video-AI jobbet i to dimensjoner: rom (hva er i denne rammen) eller tid (når skjer noe). Vidi2 kombinerer begge i det ByteDance kaller "Spatio-Temporal Grounding" (STG).

Tradisjonell Tilnærming:

  • Romlig: "Bilen er ved pikselkoordinater (450, 320)"
  • Tidsmessig: "En bil dukker opp ved tidsstempel 0:15"
  • Resultat: Frakoblet informasjon som krever manuell korrelasjon

Vidi2 STG:

  • Kombinert: "Den røde bilen er ved (450, 320) klokken 0:15, beveger seg til (890, 340) klokken 0:18, kjører ut til høyre klokken 0:22"
  • Resultat: Komplett objektbane gjennom rom og tid

Dette er viktig fordi reelle redigeringsoppgaver krever begge dimensjoner. "Fjern boom-mikrofonen" må vite hvor den vises (romlig) og hvor lenge (tidsmessig). Vidi2 håndterer dette som én spørring.

Benchmarks: Slår Gigantene

12B
Parametere
#1
Videoforståelse
Open
Source

Her blir det interessant. På ByteDance sin VUE-STG benchmark for spatio-temporal grounding presterer Vidi2 bedre enn både Gemini 2.0 Flash og GPT-4o, til tross for å ha færre parametere enn begge.

💡

Et forbehold: disse benchmarkene ble laget av ByteDance. Uavhengig verifisering på tredjepartsbenchmarks ville styrket disse påstandene. Det sagt, den spesialiserte arkitekturtilnærmingen er solid.

Benchmarkresultatene antyder at videoforståelse nyter godt av spesialisert design mer enn ren skala. En modell bygget for video fra grunnen av kan prestere bedre enn større generelle modeller som behandler video som en forlengelse av bildeforståelse.

Allerede i Produksjon: TikTok Smart Split

Dette er ikke vaporware. Vidi2 driver TikToks "Smart Split"-funksjon, som:

  • Automatisk trekker ut høydepunkter fra lange videoer
  • Genererer undertekster synkronisert til tale
  • Rekonstruerer layout for forskjellige bildeformater
  • Identifiserer optimale snittpunkter basert på innhold

Millioner av skapere bruker Smart Split daglig. Modellen er bevist i stor skala, ikke teoretisk.

Open Source: Kjør Den Selv

ByteDance ga ut Vidi2 på GitHub under en CC BY-NC 4.0 lisens. Det betyr gratis for forskning, utdanning og personlige prosjekter, men kommersiell bruk krever separat lisensiering. Implikasjonene:

For Utviklere:

  • Bygg tilpassede videoanalyse-pipelines
  • Integrer forståelse i eksisterende verktøy
  • Finjuster for spesifikke domener
  • Ingen API-kostnader i stor skala

For Bedrifter:

  • Prosesser sensitivt opptak lokalt
  • Bygg proprietære redigeringsflyter
  • Unngå vendor lock-in
  • Tilpass for interne innholdstyper

Open source-utgivelsen følger et mønster vi har sett med LTX Video og andre kinesiske AI-laboratorier: å gi ut kraftige modeller åpent mens vestlige konkurrenter holder sine proprietære.

Praktiske Bruksområder

La meg gå gjennom noen reelle arbeidsflyter Vidi2 gjør mulig:

Innholdsgjenbruk

Inndata: 2 timers podcast-opptak Utdata: 10 korte klipp av de beste øyeblikkene, hver med passende intro/outro-klipp

Modellen identifiserer engasjerende øyeblikk, finner naturlige snittpunkt, og trekker ut klipp som fungerer som frittstående innhold.

Opplæringsvideobehandling

Inndata: 500 timer bedriftsopplæringsopptak Spørring: "Finn alle segmenter som forklarer den nye CRM-arbeidsflyten"

I stedet for manuell gjennomgang eller å stole på upålitelig metadata, ser Vidi2 faktisk på og forstår innholdet.

Sportshøydepunkter

Inndata: Fullstendig kampopptak Utdata: Høydepunktsrull med alle scoringsøyeblikk, nære situasjoner og feiringer

Modellen forstår sportskontekst godt nok til å identifisere meningsfulle øyeblikk, ikke bare bevegelse.

Overvåkingsgjennomgang

Inndata: 24 timer sikkerhetsopptak Spørring: "Finn alle tilfeller av personer som kommer inn gjennom sidedøren etter kl. 18"

Spatio-temporal grounding betyr presise svar med eksakte tidsstempler og lokasjoner.

Hvordan Det Sammenlignes med Genereringsmodeller

Videoforståelse (Vidi2)
  • Jobber med eksisterende opptak
  • Sparer redigeringstid, ikke genereringstid
  • Skalerer til massive videobiblioteker
  • Ingen kreativ prompting nødvendig
  • Praktisk for bedrifter umiddelbart
Videogenerering (Runway, Sora)
  • Skaper nytt innhold fra ingenting
  • Kreativt uttrykkelsesverktøy
  • Markedsførings- og reklamebruk
  • Kvalitet vokser raskt
  • Spennende men annerledes bruksområde

Dette er ikke konkurrerende teknologier. De løser forskjellige problemer. En komplett AI-videoarbeidsflyt trenger begge: generering for å skape nytt innhold, forståelse for å jobbe med eksisterende innhold.

Det Større Bildet

⚠️

Videoforståelse er hvor AI flytter seg fra "imponerende demo" til "daglig verktøy." Generering får oppmerksomhet. Forståelse får jobben gjort.

Vurder hva dette muliggjør:

  • Hver bedrift har videoinnhold fanget i arkiver
  • Hver skaper bruker mer tid på redigering enn filming
  • Hver plattform trenger bedre innholdsmoderering og oppdagelse
  • Hver forsker har opptak de ikke kan analysere effektivt

Vidi2 adresserer alt dette. Open source-utgivelsen betyr at disse mulighetene nå er tilgjengelige for alle med tilstrekkelig datakraft.

Komme i Gang

Modellen er tilgjengelig på GitHub med dokumentasjon og demoer. Krav:

  • NVIDIA GPU med minst 24GB VRAM for full modell
  • Kvantiserte versjoner tilgjengelig for mindre GPU-er
  • Python 3.10+ med PyTorch 2.0+

Hurtig Start:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentasjonen er primært på engelsk til tross for at ByteDance er et kinesisk selskap, noe som gjenspeiler det globale målpublikummet.

Hva Dette Betyr for Bransjen

AI-videolandskapet har nå to distinkte spor:

SporLedereFokusVerdi
GenereringRunway, Sora, Veo, KlingSkape ny videoKreativt uttrykk
ForståelseVidi2, (andre på vei)Analysere eksisterende videoProduktivitet

Begge vil modnes. Begge vil integreres. Den komplette AI-videostakken i 2026 vil generere, redigere og forstå sømløst.

For nå representerer Vidi2 det mest kapable open source-alternativet for videoforståelse. Hvis du har opptak å analysere, redigering å automatisere, eller innhold å organisere, er dette modellen å utforske.

Min Vurdering

Jeg har brukt år på å bygge videoprosesserings-pipelines. Før og etter med modeller som Vidi2 er markant. Oppgaver som krevde tilpassede computer vision-stakker, manuell annotasjon og skjøre heuristikker kan nå løses med en prompt.

💡

De beste AI-verktøyene erstatter ikke menneskelig dømmekraft. De fjerner det kjedelige arbeidet som hindrer mennesker i å bruke dømmekraft i stor skala.

Vidi2 erstatter ikke editorer. Det gir editorer muligheter som tidligere var umulige i stor skala. Og med åpen tilgang (for ikke-kommersiell bruk) er disse mulighetene tilgjengelige for alle som er villige til å sette opp infrastrukturen.

Fremtiden for video er ikke bare generering. Det er forståelse. Og den fremtiden er nå open source.


Kilder

Var denne artikkelen nyttig?

Damien

Damien

KI-utvikler

KI-utvikler fra Lyon som elsker å gjøre komplekse ML-konsepter om til enkle oppskrifter. Når han ikke feilsøker modeller, finner du ham på sykkel gjennom Rhône-dalen.

Relaterte artikler

Fortsett å utforske med disse relaterte innleggene

Likte du denne artikkelen?

Oppdag mer innsikt og hold deg oppdatert på vårt nyeste innhold.

ByteDance Vidi2: AI som Forstår Video som en Editor