Kandinsky 5.0: Ruslands Open Source-svar på AI-videogenerering
Kandinsky 5.0 bringer 10-sekunders videogenerering til forbruger-GPU'er med Apache 2.0-licens. Vi undersøger, hvordan NABLA attention og flow matching gør dette muligt.

Open Source-videolandskabet Skifter
Da ByteDance open-sourcede deres video understanding-model og Tencent udgav HunyuanVideo, så vi de første rystelser af et skift. Nu har Kandinsky Lab, støttet af Sberbank, udgivet en komplet familie af modeller, som alle kan køre, modificere og kommercialisere under Apache 2.0-licensen.
Dette er ikke et forskningspreview eller en begrænset API. De fulde vægte, træningskode og inference-pipeline er tilgængelige på GitHub og Hugging Face.
Modelfamilien
For kontekst om diffusion-arkitekturer, se vores dybdegående artikel om diffusion transformers.
Kandinsky 5.0 er ikke én enkelt model, men en familie på tre:
Video Lite (2B parametre)
Den letvægts mulighed til forbrugerhardware. Genererer 5 til 10 sekunders videoer ved 768×512 opløsning, 24 fps. Kører på 12GB VRAM med memory offloading. Den destillerede 16-trins variant producerer et 5-sekunders klip på 35 til 60 sekunder på en H100.
Video Pro (19B parametre)
Den fulde model til maksimal kvalitet. Leverer HD-video ved 1280×768, 24 fps. Kræver datacenter-klasse GPU'er, men leverer resultater, der kan konkurrere med closed source-alternativer.
En 6B parameter Image Lite-model afrunder familien til generering af stillbilleder ved 1280×768 eller 1024×1024 opløsning.
Teknisk Arkitektur
De tekniske beslutninger i Kandinsky 5.0 afslører et team fokuseret på praktisk implementering frem for benchmark-jagt.
Fundament: Flow Matching Over Diffusion
Traditionelle diffusion-modeller lærer at vende en støj-tilføjende proces trin for trin. Flow matching tager en anden tilgang: den lærer en direkte vej fra støj til billede gennem et kontinuerligt flow field. Fordelene er betydelige:
NABLA: Gør Lange Videoer Mulige
Den reelle innovation er NABLA, kort for Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalerer kvadratisk med sekvenslængde. For video er dette katastrofalt. Et 10-sekunders klip ved 24 fps indeholder 240 frames, hver med tusindvis af spatial patches. Fuld attention på tværs af alle er beregningsteknisk umuligt.
NABLA adresserer dette gennem sparse attention-mønstre. I stedet for at give attention til hver patch i hver frame fokuserer den beregningen på:
- Lokale spatial neighborhoods inden for hver frame
- Temporal neighbors på tværs af tilstødende frames
- Lærte globale ankre til langdistance-kohærens
Resultatet er næsten lineær skalering med videolængde i stedet for kvadratisk. Dette gør 10-sekunders generering mulig på forbrugerhardware.
Til sammenligning kæmper de fleste konkurrerende modeller med videoer længere end 5 sekunder uden specialiseret hardware.
Bygger på HunyuanVideo
I stedet for at træne alt fra bunden adopterer Kandinsky 5.0 3D VAE fra Tencents HunyuanVideo-projekt. Denne encoder-decoder håndterer oversættelsen mellem pixel space og det kompakte latent space, hvor diffusion-processen opererer.
Tekstforståelse kommer fra Qwen2.5-VL, en vision-language model, kombineret med CLIP embeddings til semantisk grounding. Denne dual-encoder tilgang giver modellen mulighed for at forstå både den bogstavelige betydning og den visuelle stil impliceret af prompts.
Ydeevne: Hvor Den Står
Teamet positionerer Video Lite som den bedste performer blandt open source-modeller i sin parameterklasse. Benchmarks viser:
| Model | Parametre | Maks varighed | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 sekunder | 12GB |
| CogVideoX-2B | 2B | 6 sekunder | 16GB |
| Open-Sora 1.2 | 1.1B | 16 sekunder | 18GB |
12GB VRAM-kravet åbner døren til implementering på forbruger-RTX 3090 og 4090-kort, en betydelig tilgængelighedsmilepæl.
Kvalitetssammenligninger er sværere at kvantificere. Brugerrapporter antyder, at Kandinsky producerer mere konsistent bevægelse end CogVideoX, men halter efter HunyuanVideo i fotorealisme. Den 16-trins destillerede model ofrer nogle fine detaljer for hastighed, et trade-off, der fungerer godt til prototyping, men måske ikke opfylder endelige produktionsbehov.
Kør Kandinsky Lokalt
Projektet leverer ComfyUI-noder og standalone scripts. Et basalt text-to-video workflow:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Til 12GB-kort
video = model.generate(
prompt="En bjergsø ved daggry, tåge stiger op fra stille vand",
num_frames=120, # 5 sekunder ved 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Memory offloading flytter modelvægte mellem CPU og GPU under inference. Dette bytter hastighed for tilgængelighed og giver større modeller mulighed for at køre på mindre kort.
Sberbank-forbindelsen
Kandinsky Lab opererer under Sber AI, kunstig intelligens-divisionen af Sberbank, Ruslands største bank. Denne støtte forklarer de betydelige ressourcer bag projektet: multi-stage træning på proprietære data, reinforcement learning post-training og teknikarbejdet med at open-source en komplet produktionspipeline.
Den geopolitiske kontekst tilføjer kompleksitet. Vestlige udviklere kan møde institutionelt pres for at undgå russisk-oprindelse modeller. Apache 2.0-licensen er juridisk klar, men organisatoriske politikker varierer. For individuelle udviklere og mindre studier er beslutningen simplere: god teknologi er god teknologi.
Verificer altid licensering og eksportoverholdelse for din specifikke jurisdiktion og use case.
Praktiske Anvendelser
10-sekunders varigheden og forbrugerhardware-kravene åbner specifikke use cases:
Social Content
Konceptvisualisering
Custom Training
Forskning
Fremadrettet
Kandinsky 5.0 repræsenterer en bredere trend: kløften mellem open og closed source-videogenerering indsnævres. For et år siden producerede åbne modeller korte, lavopløselige klip med tydelige artefakter. I dag genererer en 2B parameter-model på forbrugerhardware 10-sekunders HD-video, der ville have virket umulig i 2023.
Løbet er ikke forbi. Closed source-ledere som Sora 2 og Runway Gen-4.5 fører stadig i kvalitet, varighed og kontrollerbarhed. Men gulvet stiger. For mange anvendelser er open source nu god nok.
Ressourcer
Konklusionen
Kandinsky 5.0 topper måske ikke alle benchmarks, men lykkes hvor det betyder mest: køre ægte videogenerering på hardware, som ægte mennesker ejer, under en licens, der tillader ægte kommerciel brug. I løbet om at demokratisere AI-video har det russiske team lige flyttet målstregen tættere på.
For udviklere, der udforsker open source-videogenerering, fortjener Kandinsky 5.0 en plads på din shortlist.
Var denne artikel nyttig?

Alexis
AI-ingeniørAI-ingeniør fra Lausanne, der kombinerer forskningsdybde med praktisk innovation. Deler sin tid mellem modelarkitekturer og alpine bjergtinder.
Relaterede artikler
Fortsæt med at udforske disse relaterede indlæg

TurboDiffusion: Gennembruddet i realtids AI-videogenerering
ShengShu Technology og Tsinghua Universitet præsenterer TurboDiffusion, der opnår 100-200x hurtigere AI-videogenerering og indleder æraen med realtidsskabelse.

Open source AI-video revolutionen: Kan forbruger GPU'er konkurrere med tech-giganterne?
ByteDance og Tencent har netop frigivet open source videomodeller, der kører på almindelig forbrugerhardware. Det ændrer alt for uafhængige skabere.

MiniMax Hailuo 02: Kinas budget-AI-videomodel stiller sig op mod giganter
Hailuo 02 leverer konkurrencedygtig videokvalitet for en brøkdel af omkostningerne, med 10 videoer til prisen på en Veo 3-klip. Her er hvad der gør denne kinesiske udfordrer værd at følge.