Kandinsky 5.0: Russlands åpen kildekode-svar på AI-videogenerering
Kandinsky 5.0 bringer 10-sekunders videogenerering til forbruker-GPU-er med Apache 2.0-lisens. Vi utforsker hvordan NABLA attention og flow matching gjør dette mulig.

Åpen Kildekode-videolandskapet Endrer Seg
Da ByteDance åpnet kildekoden for sin video understanding-modell og Tencent slapp HunyuanVideo, så vi de første skjelvingene av en endring. Nå har Kandinsky Lab, støttet av Sberbank, utgitt en komplett familie av modeller som alle kan kjøre, modifisere og kommersialisere under Apache 2.0-lisensen.
Dette er ikke en forskningsforhåndsvisning eller et begrenset API. De fulle vektene, treningskoden og inference-pipelinen er tilgjengelige på GitHub og Hugging Face.
Modellfamilien
For kontekst om diffusion-arkitekturer, se vår dyptgående artikkel om diffusion transformers.
Kandinsky 5.0 er ikke én enkelt modell, men en familie på tre:
Video Lite (2B parametere)
Den lettvektige muligheten for forbrukerhardware. Genererer 5 til 10 sekunders videoer ved 768×512 oppløsning, 24 fps. Kjører på 12GB VRAM med minneavlastning. Den destillerte 16-trinns varianten produserer et 5-sekunders klipp på 35 til 60 sekunder på en H100.
Video Pro (19B parametere)
Den fulle modellen for maksimal kvalitet. Leverer HD-video ved 1280×768, 24 fps. Krever datasenter-klasse GPU-er, men leverer resultater som konkurrerer med closed source-alternativer.
En 6B parameter Image Lite-modell avrunder familien for stillbildegenerering ved 1280×768 eller 1024×1024 oppløsning.
Teknisk Arkitektur
De tekniske beslutningene i Kandinsky 5.0 avslører et team fokusert på praktisk implementering fremfor benchmark-jakt.
Grunnlag: Flow Matching Over Diffusion
Tradisjonelle diffusion-modeller lærer å snu en støy-tilleggsprosess trinn for trinn. Flow matching tar en annen tilnærming: den lærer en direkte vei fra støy til bilde gjennom et kontinuerlig flytfelt. Fordelene er betydelige:
NABLA: Gjør Lange Videoer Mulige
Den virkelige innovasjonen er NABLA, kort for Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalerer kvadratisk med sekvenslengde. For video er dette katastrofalt. Et 10-sekunders klipp ved 24 fps inneholder 240 rammer, hver med tusenvis av spatial patches. Full attention over alle er beregningsteknisk umulig.
NABLA håndterer dette gjennom spredte attention-mønstre. I stedet for å gi attention til hver patch i hver ramme, fokuserer den beregningen på:
- Lokale spatial neighborhoods innenfor hver ramme
- Temporal neighbors på tvers av tilstøtende rammer
- Lærte globale ankre for langdistanse-koherens
Resultatet er nesten lineær skalering med videolengde i stedet for kvadratisk. Dette gjør 10-sekunders generering mulig på forbrukerhardware.
Som sammenligning sliter de fleste konkurrerende modeller med videoer lengre enn 5 sekunder uten spesialisert maskinvare.
Bygger på HunyuanVideo
I stedet for å trene alt fra bunnen av adopterer Kandinsky 5.0 3D VAE fra Tencents HunyuanVideo-prosjekt. Denne encoder-decoder håndterer oversettelsen mellom pixel space og det kompakte latent space hvor diffusion-prosessen opererer.
Tekstforståelse kommer fra Qwen2.5-VL, en vision-language modell, kombinert med CLIP embeddings for semantisk grounding. Denne dual-encoder tilnærmingen lar modellen forstå både den bokstavelige betydningen og den visuelle stilen implisert av prompts.
Ytelse: Hvor Den Står
Teamet posisjonerer Video Lite som den beste performeren blant åpen kildekode-modeller i sin parameterklasse. Benchmarks viser:
| Modell | Parametere | Maks varighet | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 sekunder | 12GB |
| CogVideoX-2B | 2B | 6 sekunder | 16GB |
| Open-Sora 1.2 | 1.1B | 16 sekunder | 18GB |
12GB VRAM-kravet åpner døren til implementering på forbruker-RTX 3090 og 4090-kort, en betydelig tilgjengelighetsmilepæl.
Kvalitetssammenligninger er vanskeligere å kvantifisere. Brukerrapporter antyder at Kandinsky produserer mer konsekvent bevegelse enn CogVideoX, men ligger etter HunyuanVideo i fotorealisme. Den 16-trinns destillerte modellen ofrer noen fine detaljer for hastighet, en avveining som fungerer godt for prototyping, men kanskje ikke oppfyller endelige produksjonsbehov.
Kjør Kandinsky Lokalt
Prosjektet tilbyr ComfyUI-noder og standalone scripts. Et grunnleggende text-to-video arbeidsflyt:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB-kort
video = model.generate(
prompt="En fjellsjø ved daggry, tåke stiger fra stille vann",
num_frames=120, # 5 sekunder ved 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Minneavlastning flytter modellvekter mellom CPU og GPU under inference. Dette bytter hastighet for tilgjengelighet og lar større modeller kjøre på mindre kort.
Sberbank-forbindelsen
Kandinsky Lab opererer under Sber AI, kunstig intelligens-divisjonen til Sberbank, Russlands største bank. Denne støtten forklarer de betydelige ressursene bak prosjektet: multi-stage trening på proprietære data, reinforcement learning post-training og ingeniørarbeidet for å åpne kildekoden til en komplett produksjonspipeline.
Den geopolitiske konteksten tilføyer kompleksitet. Vestlige utviklere kan møte institusjonelt press for å unngå russisk-opprinnede modeller. Apache 2.0-lisensen er juridisk klar, men organisatoriske policyer varierer. For individuelle utviklere og mindre studioer er regnestykket enklere: god teknologi er god teknologi.
Verifiser alltid lisensiering og eksportetterlevelse for din spesifikke jurisdiksjon og use case.
Praktiske Anvendelser
10-sekunders varigheten og forbrukerhardware-kravene åpner spesifikke bruksområder:
Sosialt Innhold
Konseptvisualisering
Custom Training
Forskning
Fremover
Kandinsky 5.0 representerer en bredere trend: gapet mellom åpen og closed source-videogenerering minsker. For et år siden produserte åpne modeller korte, lavoppløselige klipp med tydelige artefakter. I dag genererer en 2B parameter-modell på forbrukerhardware 10-sekunders HD-video som ville ha virket umulig i 2023.
Racet er ikke over. Closed source-ledere som Sora 2 og Runway Gen-4.5 leder fortsatt i kvalitet, varighet og kontrollerbarhet. Men gulvet stiger. For mange anvendelser er åpen kildekode nå god nok.
Ressurser
Konklusjonen
Kandinsky 5.0 topper kanskje ikke alle benchmarks, men lykkes der det betyr mest: kjøre ekte videogenerering på maskinvare som ekte mennesker eier, under en lisens som tillater ekte kommersiell bruk. I kappløpet om å demokratisere AI-video har det russiske teamet nettopp flyttet målstreken nærmere.
For utviklere som utforsker åpen kildekode-videogenerering, fortjener Kandinsky 5.0 en plass på din shortlist.
Var denne artikkelen nyttig?

Alexis
KI-ingeniørKI-ingeniør fra Lausanne som kombinerer forskningsdybde med praktisk innovasjon. Deler tiden mellom modellarkitekturer og alpine topper.
Relaterte artikler
Fortsett å utforske med disse relaterte innleggene

TurboDiffusion: Gjennombruddet for sanntids AI-videogenerering
ShengShu Technology og Tsinghua University presenterer TurboDiffusion, som oppnår 100-200x raskere AI-videogenerering og innleder æraen med sanntidsskapelse.

MiniMax Hailuo 02: Kinas budget-AI-videomodell utfordrer gigantene
Hailuo 02 leverer konkurransen videokvalitet til en brøkdel av kostnadene, med 10 videoer til prisen på en Veo 3-klipp. Her er hva som gjør denne kinesiske utfordrer verdt å følge.

Karakterkonsistens i AI-video: Hvordan modeller lærer å huske ansikter
En teknisk gjennomgang av arkitekturinnovasjoner som gjør det mulig for AI-videomodeller å opprettholde karakteridentitet over hele opptaket, fra oppmerksomhetsmekanismer til identitetsbevarende embeddings.