Kandinsky 5.0: Rysslands öppen källkods-svar på AI-videogenerering
Kandinsky 5.0 ger 10-sekunders videogenerering till konsument-GPU:er med Apache 2.0-licens. Vi utforskar hur NABLA attention och flow matching gör detta möjligt.

Öppen Källkods-videolandskapet Förändras
När ByteDance öppnade källkoden för sin video understanding-modell och Tencent släppte HunyuanVideo, såg vi de första skakningarna av en förändring. Nu har Kandinsky Lab, stött av Sberbank, släppt en komplett familj av modeller som vem som helst kan köra, modifiera och kommersialisera under Apache 2.0-licensen.
Detta är inte en forskningsförhandsvisning eller ett begränsat API. De fullständiga vikterna, träningskoden och inference-pipelinen finns tillgängliga på GitHub och Hugging Face.
Modellfamiljen
För kontext om diffusion-arkitekturer, se vår djupdykning i diffusion transformers.
Kandinsky 5.0 är inte en enskild modell utan en familj på tre:
Video Lite (2B parametrar)
Den lättviktiga optionen för konsumenthårdvara. Genererar 5 till 10 sekunders videor vid 768×512 upplösning, 24 fps. Körs på 12GB VRAM med minnesavlastning. Den destillerade 16-stegs varianten producerar ett 5-sekunders klipp på 35 till 60 sekunder på en H100.
Video Pro (19B parametrar)
Den fullständiga modellen för maximal kvalitet. Levererar HD-video vid 1280×768, 24 fps. Kräver datacenter-klass GPU:er men levererar resultat som konkurrerar med closed source-alternativ.
En 6B parameter Image Lite-modell avrunder familjen för stillbildsgenerering vid 1280×768 eller 1024×1024 upplösning.
Teknisk Arkitektur
De tekniska besluten i Kandinsky 5.0 avslöjar ett team fokuserat på praktisk implementering snarare än benchmark-jakt.
Grund: Flow Matching Över Diffusion
Traditionella diffusion-modeller lär sig att vända en brus-tilläggande process steg för steg. Flow matching tar ett annat tillvägagångssätt: den lär sig en direkt väg från brus till bild genom ett kontinuerligt flödesfält. Fördelarna är betydande:
NABLA: Gör Långa Videor Möjliga
Den verkliga innovationen är NABLA, kort för Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalar kvadratiskt med sekvenslängd. För video är detta katastrofalt. Ett 10-sekunders klipp vid 24 fps innehåller 240 ramar, var och en med tusentals spatial patches. Fullständig attention över alla är beräkningsmässigt omöjligt.
NABLA hanterar detta genom glesa attention-mönster. Istället för att ge attention till varje patch i varje ram fokuserar den beräkningen på:
- Lokala spatial neighborhoods inom varje ram
- Temporal neighbors över intilliggande ramar
- Inlärda globala ankare för långdistans-koherens
Resultatet är nästan linjär skalning med videolängd istället för kvadratisk. Detta gör 10-sekunders generering möjlig på konsumenthårdvara.
Som jämförelse kämpar de flesta konkurrerande modeller med videor längre än 5 sekunder utan specialiserad hårdvara.
Bygger på HunyuanVideo
Istället för att träna allt från grunden adopterar Kandinsky 5.0 3D VAE från Tencents HunyuanVideo-projekt. Denna encoder-decoder hanterar översättningen mellan pixel space och det kompakta latent space där diffusion-processen arbetar.
Textförståelse kommer från Qwen2.5-VL, en vision-language modell, kombinerad med CLIP embeddings för semantisk grounding. Detta dual-encoder tillvägagångssätt tillåter modellen att förstå både den bokstavliga betydelsen och den visuella stilen som impliceras av prompts.
Prestanda: Var Den Står
Teamet positionerar Video Lite som den bästa performern bland öppen källkods-modeller i sin parameterklass. Benchmarks visar:
| Modell | Parametrar | Max varaktighet | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 sekunder | 12GB |
| CogVideoX-2B | 2B | 6 sekunder | 16GB |
| Open-Sora 1.2 | 1.1B | 16 sekunder | 18GB |
12GB VRAM-kravet öppnar dörren till implementering på konsument-RTX 3090 och 4090-kort, en betydande tillgänglighetsmilepål.
Kvalitetsjämförelser är svårare att kvantifiera. Användarrapporter antyder att Kandinsky producerar mer konsekvent rörelse än CogVideoX men ligger efter HunyuanVideo i fotorealism. Den 16-stegs destillerade modellen offrar vissa fina detaljer för hastighet, en avvägning som fungerar bra för prototyping men kanske inte uppfyller slutliga produktionsbehov.
Kör Kandinsky Lokalt
Projektet tillhandahåller ComfyUI-noder och standalone scripts. Ett grundläggande text-till-video arbetsflöde:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # För 12GB-kort
video = model.generate(
prompt="En bergssjö vid gryningen, dimma stiger från stilla vatten",
num_frames=120, # 5 sekunder vid 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Minnesavlastning flyttar modellvikter mellan CPU och GPU under inference. Detta byter hastighet mot tillgänglighet och tillåter större modeller att köras på mindre kort.
Sberbank-kopplingen
Kandinsky Lab opererar under Sber AI, artificiell intelligens-divisionen av Sberbank, Rysslands största bank. Denna support förklarar de betydande resurserna bakom projektet: multi-stage träning på proprietära data, reinforcement learning post-training och ingenjörsarbetet att öppna källkoden för en komplett produktionspipeline.
Den geopolitiska kontexten tillför komplexitet. Västerländska utvecklare kan möta institutionellt tryck att undvika rysk-ursprung modeller. Apache 2.0-licensen är juridiskt klar, men organisationspolicyer varierar. För enskilda utvecklare och mindre studior är kalkylen enklare: bra teknologi är bra teknologi.
Verifiera alltid licensiering och exportefterlevnad för din specifika jurisdiktion och use case.
Praktiska Tillämpningar
10-sekunders varaktigheten och konsumenthårdvara-kraven öppnar specifika användningsfall:
Socialt Innehåll
Konceptvisualisering
Custom Training
Forskning
Framåtblickande
Kandinsky 5.0 representerar en bredare trend: klyftan mellan öppen och closed source-videogenerering minskar. För ett år sedan producerade öppna modeller korta, lågupplösta klipp med uppenbara artefakter. Idag genererar en 2B parameter-modell på konsumenthårdvara 10-sekunders HD-video som skulle ha verkat omöjlig 2023.
Racet är inte över. Closed source-ledare som Sora 2 och Runway Gen-4.5 leder fortfarande i kvalitet, varaktighet och kontrollerbarhet. Men golvet stiger. För många tillämpningar är öppen källkod nu tillräckligt bra.
Slutsatsen
Kandinsky 5.0 toppar kanske inte alla benchmarks, men lyckas där det betyder mest: köra äkta videogenerering på hårdvara som äkta människor äger, under en licens som tillåter äkta kommersiell användning. I loppet att demokratisera AI-video har det ryska teamet just flyttat mållinjen närmare.
För utvecklare som utforskar öppen källkods-videogenerering, förtjänar Kandinsky 5.0 en plats på din shortlist.
Var den här artikeln hjälpsam?

Alexis
AI-ingenjörAI-ingenjör från Lausanne som kombinerar forskningsdjup med praktisk innovation. Delar sin tid mellan modellarkitekturer och alpina toppar.
Relaterade artiklar
Fortsätt utforska med dessa relaterade inlägg

TurboDiffusion: Genombrottet för realtids AI-videogenerering
ShengShu Technology och Tsinghua University presenterar TurboDiffusion, som uppnår 100-200x snabbare AI-videogenerering och inleder eran för realtidsskapande.

MiniMax Hailuo 02: Kinas budgetbaserade AI-videomodell ifrågasätter jättarna
Hailuo 02 levererar konkurrenskraftig videokvalitet till en bråkdel av kostnaden, med 10 videor för priset av en Veo 3-klipp. Här är vad som gör denna kinesiska utmanare värd att följa.

ByteDance Vidi2: AI som förstår video som en redigerare
ByteDance har gjort Vidi2 öppen källkod, en modell med 12 miljarder parametrar som förstår videoinnehåll tillräckligt bra för att automatiskt redigera timmar av material till polerade klipp. Den driver redan TikTok Smart Split.