Meta Pixel
DamienDamien
7 min read
1321 ord

ByteDance Vidi2: AI som förstår video som en redigerare

ByteDance har gjort Vidi2 öppen källkod, en modell med 12 miljarder parametrar som förstår videoinnehåll tillräckligt bra för att automatiskt redigera timmar av material till polerade klipp. Den driver redan TikTok Smart Split.

ByteDance Vidi2: AI som förstår video som en redigerare

Medan alla pratar om videogenerering har ByteDance löst ett annat problem: att få AI att förstå video som en erfaren redigerare. Vidi2 kan titta på timmar av råmaterial och plocka ut exakt det som är viktigt.

Problemet som få pratar om

Vi har fantastiska AI-videogeneratorer idag. Runway Gen-4.5 toppar kvalitetslistorna. Kling O1 genererar synkroniserat ljud. Men här kommer den hårda sanningen om videoproduktion: mest tid går till redigering, inte skapande.

En bröllopsfotograf filmar 8 timmar för en 5-minuters höjdpunktsvideo. En innehållsskapare spelar in 45 minuter för att göra en 60-sekunders TikTok. Ett företag har 200 timmar utbildningsmaterial gömt i SharePoint.

💡

Videogenerering får rubrikerna. Videoförståelse gör det faktiska arbetet.

Vidi2 adresserar detta gap. Det är inte ännu en generator. Det är en AI som tittar på video, förstår vad som händer, och hjälper dig arbeta med innehållet i stor skala.

Vad Vidi2 faktiskt gör

ByteDance beskriver Vidi2 som en "stor multimodal modell för videoförståelse och skapande". Modellen med 12 miljarder parametrar är bra på:

🔍

Spatio-temporär positionering

Hitta vilket objekt som helst i en video och följa det genom tid. Inte bara "det är en katt vid 0:32" utan "katten kommer in vid 0:32, rör sig till soffan vid 0:45, och lämnar bilden vid 1:12."

✂️

Intelligent redigering

Analysera material och föreslå klipp baserat på innehåll. Hitta de bästa ögonblicken, identifiera scengränser, förstå tempo.

📝

Innehållsanalys

Beskriva vad som händer i video med tillräckligt med detaljer för att vara användbart. Inte "två personer pratar" utan "intervjusegment, gäst förklarar produktfunktioner, högt engagemang vid 3:45."

🎯

Objektspårning

Spåra objekt som kontinuerliga "rör" genom video, även när de lämnar och återkommer till bilden. Detta möjliggör precis val för effekter, borttagning eller betoning.

Den tekniska innovationen: spatio-temporär positionering

Tidigare video-AI arbetade i två dimensioner: rum (vad finns i denna bild) eller tid (när händer något). Vidi2 kombinerar båda till vad ByteDance kallar "spatio-temporär positionering" (STG).

Traditionellt tillvägagångssätt:

  • Spatialt: "Bilen är vid pixelkoordinater (450, 320)"
  • Temporärt: "En bil dyker upp vid tidsstämpel 0:15"
  • Resultat: Osammanhängande information som kräver manuell korrelation

Vidi2 STG:

  • Kombinerat: "Den röda bilen är vid (450, 320) vid 0:15, rör sig till (890, 340) vid 0:18, lämnar höger vid 0:22"
  • Resultat: Komplett objektbana genom rum och tid

Detta är viktigt eftersom verkliga redigeringsuppgifter kräver båda dimensionerna. "Ta bort bommikrofonen" måste veta var den syns (spatialt) och hur länge (temporärt). Vidi2 hanterar detta som en enda fråga.

Benchmark: bättre än jättarna

12B
Parametrar
#1
Videoförståelse
Öppen
Källkod

Här blir det intressant. På ByteDances VUE-STG benchmark för spatio-temporär positionering presterar Vidi2 bättre än både Gemini 2.0 Flash och GPT-4o, trots att den har färre parametrar än båda.

💡

En anmärkning: dessa benchmark skapades av ByteDance. Oberoende verifiering på tredjepartsbenchmark skulle stärka dessa påståenden. Det sagt är det specialiserade arkitekturansatsen rimlig.

Benchmark-resultaten tyder på att videoförståelse gynnas mer av specialiserad design än av ren storlek. En modell byggd för video från grunden kan prestera bättre än större generella modeller som behandlar video som en utvidgning av bildförståelse.

Redan i produktion: TikTok Smart Split

Detta är inte vaporware. Vidi2 driver TikToks "Smart Split"-funktion, som:

  • Automatiskt extraherar höjdpunkter från långa videor
  • Genererar undertexter synkroniserade med tal
  • Rekonstruerar layout för olika bildförhållanden
  • Identifierar optimala klippunkter baserat på innehåll

Miljoner skapare använder Smart Split dagligen. Modellen är bevisad i stor skala, inte teoretisk.

Öppen källkod: kör den själv

ByteDance släppte Vidi2 på GitHub under en CC BY-NC 4.0-licens. Det betyder gratis för forskning, utbildning och personliga projekt, men kommersiell användning kräver separat licensiering. Konsekvenserna:

För utvecklare:

  • Bygg anpassade videoanalyslinjer
  • Integrera förståelse i befintliga verktyg
  • Finjustera för specifika domäner
  • Inga API-kostnader i skala

För företag:

  • Bearbeta känsligt material lokalt
  • Bygg egna redigeringsarbetsflöden
  • Undvik leverantörsinlåsning
  • Anpassa för interna innehållstyper

Öppen källkods-släppet följer ett mönster vi sett med LTX Video och andra kinesiska AI-labb: släppa kraftfulla modeller öppet medan västerländska konkurrenter håller sina proprietära.

Praktiska tillämpningar

Låt mig gå igenom några verkliga arbetsflöden som Vidi2 möjliggör:

Återanvändning av innehåll

Input: 2-timmars podcastinspelning Output: 10 korta klipp av de bästa ögonblicken, var och en med ordentliga intro/outro-klipp

Modellen identifierar engagerande ögonblick, hittar naturliga klipppunkter och extraherar klipp som fungerar som fristående innehåll.

Hantering av utbildningsvideor

Input: 500 timmar företagsutbildningsmaterial Fråga: "Hitta alla segment som förklarar det nya CRM-arbetsflödet"

Istället för manuell genomgång eller att förlita sig på opålitlig metadata tittar Vidi2 faktiskt och förstår innehållet.

Sporthöjdpunkter

Input: Fullt matchinspelning Output: Höjdpunktsvideo med alla målögonblick, nära situationer och firanden

Modellen förstår sportkontext tillräckligt bra för att identifiera meningsfulla ögonblick, inte bara rörelse.

Övervakning genomgång

Input: 24 timmar säkerhetsmaterial Fråga: "Hitta alla fall av personer som går in genom sidodörren efter 18:00"

Spatio-temporär positionering betyder precisa svar med exakta tidsstämplar och platser.

Hur den jämförs med genereringsmodeller

Videoförståelse (Vidi2)
  • Fungerar med befintligt material
  • Sparar redigeringstid, inte genereringstid
  • Skalar till massiva videobibliotek
  • Ingen kreativ promptning krävs
  • Praktiskt för företag omedelbart
Videogenerering (Runway, Sora)
  • Skapar nytt innehåll från ingenting
  • Verktyg för kreativt uttryck
  • Marknadsförings- och reklam tillämpningar
  • Växande kvalitet snabbt
  • Spännande men annat användningsfall

Dessa är inte konkurrerande teknologier. De löser olika problem. Ett komplett AI-videoarbetsflöde behöver båda: generering för att skapa nytt innehåll, förståelse för att arbeta med befintligt innehåll.

Den större bilden

⚠️

Videoförståelse är där AI går från "imponerande demo" till "dagligt verktyg". Generering får uppmärksamhet. Förståelse får arbetet gjort.

Tänk på vad detta möjliggör:

  • Varje företag har videoinnehåll fångat i arkiv
  • Varje skapare spenderar mer tid på redigering än inspelning
  • Varje plattform behöver bättre innehållsmoderering och upptäckt
  • Varje forskare har material de inte kan analysera effektivt

Vidi2 adresserar alla dessa. Öppen källkods-släppet betyder att dessa kapaciteter nu är tillgängliga för alla med tillräcklig beräkningskraft.

Komma igång

Modellen finns tillgänglig på GitHub med dokumentation och demos. Krav:

  • NVIDIA GPU med minst 24GB VRAM för full modell
  • Kvantiserade versioner tillgängliga för mindre GPU:er
  • Python 3.10+ med PyTorch 2.0+

Snabbstart:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentationen är främst på engelska trots att ByteDance är ett kinesiskt företag, vilket återspeglar den globala målgruppen.

Vad detta betyder för branschen

AI-videolandskapet har nu två distinkta spår:

SpårLedareFokusVärde
GenereringRunway, Sora, Veo, KlingSkapa ny videoKreativt uttryck
FörståelseVidi2, (andra framväxande)Analysera befintlig videoProduktivitet

Båda kommer att mogna. Båda kommer att integreras. Den kompletta AI-videostacken 2026 kommer att generera, redigera och förstå sömlöst.

Just nu representerar Vidi2 det mest kapabla öppen källkods-alternativet för videoförståelse. Om du har material att analysera, redigering att automatisera eller innehåll att organisera, är detta modellen att utforska.

Min åsikt

Jag har spenderat år med att bygga videobearbetningslinjer. Före och efter med modeller som Vidi2 är markant. Uppgifter som krävde anpassade computer vision-stackar, manuell annotering och bräckliga heuristiker kan nu lösas med en prompt.

💡

De bästa AI-verktygen ersätter inte mänskligt omdöme. De tar bort det tråkiga arbete som hindrar människor från att tillämpa omdöme i skala.

Vidi2 ersätter inte redigerare. Den ger redigerare kapaciteter som tidigare var omöjliga i skala. Och med öppen tillgång (för icke-kommersiell användning) är dessa kapaciteter tillgängliga för alla som är villiga att sätta upp infrastrukturen.

Framtiden för video är inte bara generering. Det är förståelse. Och den framtiden är nu öppen källkod.


Källor

Var den här artikeln hjälpsam?

Damien

Damien

AI-utvecklare

AI-utvecklare från Lyon som älskar att förvandla komplexa ML-koncept till enkla recept. När han inte felsöker modeller hittar du honom cyklande genom Rhônedalen.

Relaterade artiklar

Fortsätt utforska med dessa relaterade inlägg

Gillar du den här artikeln?

Upptäck fler insikter och håll dig uppdaterad med vårt senaste innehåll.

ByteDance Vidi2: AI som förstår video som en redigerare