ByteDance Vidi2: AI som förstår video som en redigerare
ByteDance har gjort Vidi2 öppen källkod, en modell med 12 miljarder parametrar som förstår videoinnehåll tillräckligt bra för att automatiskt redigera timmar av material till polerade klipp. Den driver redan TikTok Smart Split.

Medan alla pratar om videogenerering har ByteDance löst ett annat problem: att få AI att förstå video som en erfaren redigerare. Vidi2 kan titta på timmar av råmaterial och plocka ut exakt det som är viktigt.
Problemet som få pratar om
Vi har fantastiska AI-videogeneratorer idag. Runway Gen-4.5 toppar kvalitetslistorna. Kling O1 genererar synkroniserat ljud. Men här kommer den hårda sanningen om videoproduktion: mest tid går till redigering, inte skapande.
En bröllopsfotograf filmar 8 timmar för en 5-minuters höjdpunktsvideo. En innehållsskapare spelar in 45 minuter för att göra en 60-sekunders TikTok. Ett företag har 200 timmar utbildningsmaterial gömt i SharePoint.
Videogenerering får rubrikerna. Videoförståelse gör det faktiska arbetet.
Vidi2 adresserar detta gap. Det är inte ännu en generator. Det är en AI som tittar på video, förstår vad som händer, och hjälper dig arbeta med innehållet i stor skala.
Vad Vidi2 faktiskt gör
ByteDance beskriver Vidi2 som en "stor multimodal modell för videoförståelse och skapande". Modellen med 12 miljarder parametrar är bra på:
Spatio-temporär positionering
Hitta vilket objekt som helst i en video och följa det genom tid. Inte bara "det är en katt vid 0:32" utan "katten kommer in vid 0:32, rör sig till soffan vid 0:45, och lämnar bilden vid 1:12."
Intelligent redigering
Analysera material och föreslå klipp baserat på innehåll. Hitta de bästa ögonblicken, identifiera scengränser, förstå tempo.
Innehållsanalys
Beskriva vad som händer i video med tillräckligt med detaljer för att vara användbart. Inte "två personer pratar" utan "intervjusegment, gäst förklarar produktfunktioner, högt engagemang vid 3:45."
Objektspårning
Spåra objekt som kontinuerliga "rör" genom video, även när de lämnar och återkommer till bilden. Detta möjliggör precis val för effekter, borttagning eller betoning.
Den tekniska innovationen: spatio-temporär positionering
Tidigare video-AI arbetade i två dimensioner: rum (vad finns i denna bild) eller tid (när händer något). Vidi2 kombinerar båda till vad ByteDance kallar "spatio-temporär positionering" (STG).
Traditionellt tillvägagångssätt:
- Spatialt: "Bilen är vid pixelkoordinater (450, 320)"
- Temporärt: "En bil dyker upp vid tidsstämpel 0:15"
- Resultat: Osammanhängande information som kräver manuell korrelation
Vidi2 STG:
- Kombinerat: "Den röda bilen är vid (450, 320) vid 0:15, rör sig till (890, 340) vid 0:18, lämnar höger vid 0:22"
- Resultat: Komplett objektbana genom rum och tid
Detta är viktigt eftersom verkliga redigeringsuppgifter kräver båda dimensionerna. "Ta bort bommikrofonen" måste veta var den syns (spatialt) och hur länge (temporärt). Vidi2 hanterar detta som en enda fråga.
Benchmark: bättre än jättarna
Här blir det intressant. På ByteDances VUE-STG benchmark för spatio-temporär positionering presterar Vidi2 bättre än både Gemini 2.0 Flash och GPT-4o, trots att den har färre parametrar än båda.
En anmärkning: dessa benchmark skapades av ByteDance. Oberoende verifiering på tredjepartsbenchmark skulle stärka dessa påståenden. Det sagt är det specialiserade arkitekturansatsen rimlig.
Benchmark-resultaten tyder på att videoförståelse gynnas mer av specialiserad design än av ren storlek. En modell byggd för video från grunden kan prestera bättre än större generella modeller som behandlar video som en utvidgning av bildförståelse.
Redan i produktion: TikTok Smart Split
Detta är inte vaporware. Vidi2 driver TikToks "Smart Split"-funktion, som:
- ✓Automatiskt extraherar höjdpunkter från långa videor
- ✓Genererar undertexter synkroniserade med tal
- ✓Rekonstruerar layout för olika bildförhållanden
- ✓Identifierar optimala klippunkter baserat på innehåll
Miljoner skapare använder Smart Split dagligen. Modellen är bevisad i stor skala, inte teoretisk.
Öppen källkod: kör den själv
ByteDance släppte Vidi2 på GitHub under en CC BY-NC 4.0-licens. Det betyder gratis för forskning, utbildning och personliga projekt, men kommersiell användning kräver separat licensiering. Konsekvenserna:
För utvecklare:
- Bygg anpassade videoanalyslinjer
- Integrera förståelse i befintliga verktyg
- Finjustera för specifika domäner
- Inga API-kostnader i skala
För företag:
- Bearbeta känsligt material lokalt
- Bygg egna redigeringsarbetsflöden
- Undvik leverantörsinlåsning
- Anpassa för interna innehållstyper
Öppen källkods-släppet följer ett mönster vi sett med LTX Video och andra kinesiska AI-labb: släppa kraftfulla modeller öppet medan västerländska konkurrenter håller sina proprietära.
Praktiska tillämpningar
Låt mig gå igenom några verkliga arbetsflöden som Vidi2 möjliggör:
Återanvändning av innehåll
Input: 2-timmars podcastinspelning Output: 10 korta klipp av de bästa ögonblicken, var och en med ordentliga intro/outro-klipp
Modellen identifierar engagerande ögonblick, hittar naturliga klipppunkter och extraherar klipp som fungerar som fristående innehåll.
Hantering av utbildningsvideor
Input: 500 timmar företagsutbildningsmaterial Fråga: "Hitta alla segment som förklarar det nya CRM-arbetsflödet"
Istället för manuell genomgång eller att förlita sig på opålitlig metadata tittar Vidi2 faktiskt och förstår innehållet.
Sporthöjdpunkter
Input: Fullt matchinspelning Output: Höjdpunktsvideo med alla målögonblick, nära situationer och firanden
Modellen förstår sportkontext tillräckligt bra för att identifiera meningsfulla ögonblick, inte bara rörelse.
Övervakning genomgång
Input: 24 timmar säkerhetsmaterial Fråga: "Hitta alla fall av personer som går in genom sidodörren efter 18:00"
Spatio-temporär positionering betyder precisa svar med exakta tidsstämplar och platser.
Hur den jämförs med genereringsmodeller
- Fungerar med befintligt material
- Sparar redigeringstid, inte genereringstid
- Skalar till massiva videobibliotek
- Ingen kreativ promptning krävs
- Praktiskt för företag omedelbart
- Skapar nytt innehåll från ingenting
- Verktyg för kreativt uttryck
- Marknadsförings- och reklam tillämpningar
- Växande kvalitet snabbt
- Spännande men annat användningsfall
Dessa är inte konkurrerande teknologier. De löser olika problem. Ett komplett AI-videoarbetsflöde behöver båda: generering för att skapa nytt innehåll, förståelse för att arbeta med befintligt innehåll.
Den större bilden
Videoförståelse är där AI går från "imponerande demo" till "dagligt verktyg". Generering får uppmärksamhet. Förståelse får arbetet gjort.
Tänk på vad detta möjliggör:
- Varje företag har videoinnehåll fångat i arkiv
- Varje skapare spenderar mer tid på redigering än inspelning
- Varje plattform behöver bättre innehållsmoderering och upptäckt
- Varje forskare har material de inte kan analysera effektivt
Vidi2 adresserar alla dessa. Öppen källkods-släppet betyder att dessa kapaciteter nu är tillgängliga för alla med tillräcklig beräkningskraft.
Komma igång
Modellen finns tillgänglig på GitHub med dokumentation och demos. Krav:
- NVIDIA GPU med minst 24GB VRAM för full modell
- Kvantiserade versioner tillgängliga för mindre GPU:er
- Python 3.10+ med PyTorch 2.0+
Snabbstart:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentationen är främst på engelska trots att ByteDance är ett kinesiskt företag, vilket återspeglar den globala målgruppen.
Vad detta betyder för branschen
AI-videolandskapet har nu två distinkta spår:
| Spår | Ledare | Fokus | Värde |
|---|---|---|---|
| Generering | Runway, Sora, Veo, Kling | Skapa ny video | Kreativt uttryck |
| Förståelse | Vidi2, (andra framväxande) | Analysera befintlig video | Produktivitet |
Båda kommer att mogna. Båda kommer att integreras. Den kompletta AI-videostacken 2026 kommer att generera, redigera och förstå sömlöst.
Just nu representerar Vidi2 det mest kapabla öppen källkods-alternativet för videoförståelse. Om du har material att analysera, redigering att automatisera eller innehåll att organisera, är detta modellen att utforska.
Min åsikt
Jag har spenderat år med att bygga videobearbetningslinjer. Före och efter med modeller som Vidi2 är markant. Uppgifter som krävde anpassade computer vision-stackar, manuell annotering och bräckliga heuristiker kan nu lösas med en prompt.
De bästa AI-verktygen ersätter inte mänskligt omdöme. De tar bort det tråkiga arbete som hindrar människor från att tillämpa omdöme i skala.
Vidi2 ersätter inte redigerare. Den ger redigerare kapaciteter som tidigare var omöjliga i skala. Och med öppen tillgång (för icke-kommersiell användning) är dessa kapaciteter tillgängliga för alla som är villiga att sätta upp infrastrukturen.
Framtiden för video är inte bara generering. Det är förståelse. Och den framtiden är nu öppen källkod.
Källor
Var den här artikeln hjälpsam?

Damien
AI-utvecklareAI-utvecklare från Lyon som älskar att förvandla komplexa ML-koncept till enkla recept. När han inte felsöker modeller hittar du honom cyklande genom Rhônedalen.
Relaterade artiklar
Fortsätt utforska med dessa relaterade inlägg

ByteDance Seedance 1.5 Pro: Modellen som genererar ljud och video tillsammans
ByteDance släpper Seedance 1.5 Pro med nativ audio-visuell generering, filmkvalitetskamerakontroller och flerspråkig läppsynkronisering. Tillgänglig gratis i CapCut.

YouTube Tar Veo 3 Fast till Shorts: Gratis AI-Videogenerering for 2,5 Miljarder Anvandare
Google integrerar sin Veo 3 Fast-modell direkt i YouTube Shorts och erbjuder gratis text-till-video-generering med ljud for skapare varlden over. Har ar vad det betyder for plattformen och AI-video tillganglighet.

Kling 2.6: Röstkloning och rörelsesstyrning förnyar AI-videoskapande
Kuaishous senaste uppdatering introducerar samtidig ljud- och bildgenerering, anpassad rösttraning och precisions rörelsefångst som kan förändra hur skapare arbetar med AI-videoproduktion.