Kandinsky 5.0: Rysslands öppen källkods-svar på AI-videogenerering

Geografin för AI-innovation fortsätter att förändras. Medan amerikanska labb jagar allt större modeller och kinesiska företag dominerar öppen källkods-leaderboarden, har ett ryskt team tyst släppt vad som kan vara den mest tillgängliga AI-videogeneratorn hittills: Kandinsky 5.0.

Öppen Källkods-videolandskapet Förändras

När ByteDance öppnade källkoden för sin video understanding-modell och Tencent släppte HunyuanVideo, såg vi de första skakningarna av en förändring. Nu har Kandinsky Lab, stött av Sberbank, släppt en komplett familj av modeller som vem som helst kan köra, modifiera och kommersialisera under Apache 2.0-licensen.

10s

Videovaraktighet

12GB

Min VRAM

Apache 2.0

Licens

Detta är inte en forskningsförhandsvisning eller ett begränsat API. De fullständiga vikterna, träningskoden och inference-pipelinen finns tillgängliga på GitHub och Hugging Face.

Modellfamiljen

💡

För kontext om diffusion-arkitekturer, se vår djupdykning i diffusion transformers.

Kandinsky 5.0 är inte en enskild modell utan en familj på tre:

Video Lite (2B parametrar)

Den lättviktiga optionen för konsumenthårdvara. Genererar 5 till 10 sekunders videor vid 768×512 upplösning, 24 fps. Körs på 12GB VRAM med minnesavlastning. Den destillerade 16-stegs varianten producerar ett 5-sekunders klipp på 35 till 60 sekunder på en H100.

Video Pro (19B parametrar)

Den fullständiga modellen för maximal kvalitet. Levererar HD-video vid 1280×768, 24 fps. Kräver datacenter-klass GPU:er men levererar resultat som konkurrerar med closed source-alternativ.

En 6B parameter Image Lite-modell avrunder familjen för stillbildsgenerering vid 1280×768 eller 1024×1024 upplösning.

Teknisk Arkitektur

De tekniska besluten i Kandinsky 5.0 avslöjar ett team fokuserat på praktisk implementering snarare än benchmark-jakt.

Grund: Flow Matching Över Diffusion

Traditionella diffusion-modeller lär sig att vända en brus-tilläggande process steg för steg. Flow matching tar ett annat tillvägagångssätt: den lär sig en direkt väg från brus till bild genom ett kontinuerligt flödesfält. Fördelarna är betydande:

✓Flow Matching-fördelar

Bättre träningsstabilitet, snabbare konvergens och mer förutsägbar genereringskvalitet vid inference.

✗Avvägningar

Kräver noggrann stig-design. Teamet använder optimal transport-stigar som minimerar avståndet mellan brus och måldistributioner.

NABLA: Gör Långa Videor Möjliga

Den verkliga innovationen är NABLA, kort för Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalar kvadratiskt med sekvenslängd. För video är detta katastrofalt. Ett 10-sekunders klipp vid 24 fps innehåller 240 ramar, var och en med tusentals spatial patches. Fullständig attention över alla är beräkningsmässigt omöjligt.

NABLA hanterar detta genom glesa attention-mönster. Istället för att ge attention till varje patch i varje ram fokuserar den beräkningen på:

Lokala spatial neighborhoods inom varje ram
Temporal neighbors över intilliggande ramar
Inlärda globala ankare för långdistans-koherens

Resultatet är nästan linjär skalning med videolängd istället för kvadratisk. Detta gör 10-sekunders generering möjlig på konsumenthårdvara.

💡

Som jämförelse kämpar de flesta konkurrerande modeller med videor längre än 5 sekunder utan specialiserad hårdvara.

Bygger på HunyuanVideo

Istället för att träna allt från grunden adopterar Kandinsky 5.0 3D VAE från Tencents HunyuanVideo-projekt. Denna encoder-decoder hanterar översättningen mellan pixel space och det kompakta latent space där diffusion-processen arbetar.

Textförståelse kommer från Qwen2.5-VL, en vision-language modell, kombinerad med CLIP embeddings för semantisk grounding. Detta dual-encoder tillvägagångssätt tillåter modellen att förstå både den bokstavliga betydelsen och den visuella stilen som impliceras av prompts.

Prestanda: Var Den Står

Teamet positionerar Video Lite som den bästa performern bland öppen källkods-modeller i sin parameterklass. Benchmarks visar:

Modell	Parametrar	Max varaktighet	VRAM (5s)
Kandinsky Video Lite	2B	10 sekunder	12GB
CogVideoX-2B	2B	6 sekunder	16GB
Open-Sora 1.2	1.1B	16 sekunder	18GB

12GB VRAM-kravet öppnar dörren till implementering på konsument-RTX 3090 och 4090-kort, en betydande tillgänglighetsmilepål.

Kvalitetsjämförelser är svårare att kvantifiera. Användarrapporter antyder att Kandinsky producerar mer konsekvent rörelse än CogVideoX men ligger efter HunyuanVideo i fotorealism. Den 16-stegs destillerade modellen offrar vissa fina detaljer för hastighet, en avvägning som fungerar bra för prototyping men kanske inte uppfyller slutliga produktionsbehov.

Kör Kandinsky Lokalt

Projektet tillhandahåller ComfyUI-noder och standalone scripts. Ett grundläggande text-till-video arbetsflöde:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # För 12GB-kort
 
video = model.generate(
    prompt="En bergssjö vid gryningen, dimma stiger från stilla vatten",
    num_frames=120,  # 5 sekunder vid 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Minnesavlastning flyttar modellvikter mellan CPU och GPU under inference. Detta byter hastighet mot tillgänglighet och tillåter större modeller att köras på mindre kort.

Sberbank-kopplingen

Kandinsky Lab opererar under Sber AI, artificiell intelligens-divisionen av Sberbank, Rysslands största bank. Denna support förklarar de betydande resurserna bakom projektet: multi-stage träning på proprietära data, reinforcement learning post-training och ingenjörsarbetet att öppna källkoden för en komplett produktionspipeline.

Den geopolitiska kontexten tillför komplexitet. Västerländska utvecklare kan möta institutionellt tryck att undvika rysk-ursprung modeller. Apache 2.0-licensen är juridiskt klar, men organisationspolicyer varierar. För enskilda utvecklare och mindre studior är kalkylen enklare: bra teknologi är bra teknologi.

⚠️

Verifiera alltid licensiering och exportefterlevnad för din specifika jurisdiktion och use case.

Praktiska Tillämpningar

10-sekunders varaktigheten och konsumenthårdvara-kraven öppnar specifika användningsfall:

🎬

Socialt Innehåll

Kortformat video för TikTok, Reels och Shorts. Snabb iteration utan API-kostnader.

🎨

Konceptvisualisering

Regissörer och producenter kan prototypa scener före dyr produktion.

🔧

Custom Training

Apache 2.0-licens tillåter fine-tuning på proprietära dataset. Bygg specialiserade modeller för din domän.

📚

Forskning

Fullständig tillgång till vikter och arkitektur möjliggör akademisk studie av videogenereringstekniker.

Framåtblickande

Kandinsky 5.0 representerar en bredare trend: klyftan mellan öppen och closed source-videogenerering minskar. För ett år sedan producerade öppna modeller korta, lågupplösta klipp med uppenbara artefakter. Idag genererar en 2B parameter-modell på konsumenthårdvara 10-sekunders HD-video som skulle ha verkat omöjlig 2023.

Racet är inte över. Closed source-ledare som Sora 2 och Runway Gen-4.5 leder fortfarande i kvalitet, varaktighet och kontrollerbarhet. Men golvet stiger. För många tillämpningar är öppen källkod nu tillräckligt bra.

Resurser

Slutsatsen

Kandinsky 5.0 toppar kanske inte alla benchmarks, men lyckas där det betyder mest: köra äkta videogenerering på hårdvara som äkta människor äger, under en licens som tillåter äkta kommersiell användning. I loppet att demokratisera AI-video har det ryska teamet just flyttat mållinjen närmare.

För utvecklare som utforskar öppen källkods-videogenerering, förtjänar Kandinsky 5.0 en plats på din shortlist.