Meta Pixel
AlexisAlexis
6 min read
1047 ord

Kandinsky 5.0: Ruslands Open Source-svar på AI-videogenerering

Kandinsky 5.0 bringer 10-sekunders videogenerering til forbruger-GPU'er med Apache 2.0-licens. Vi undersøger, hvordan NABLA attention og flow matching gør dette muligt.

Kandinsky 5.0: Ruslands Open Source-svar på AI-videogenerering
Geografien for AI-innovation fortsætter med at skifte. Mens amerikanske labs jagter stadigt større modeller og kinesiske virksomheder dominerer open source-leaderboardet, har et russisk team stilfærdigt udgivet, hvad der måske er den mest tilgængelige AI-videogenerator endnu: Kandinsky 5.0.

Open Source-videolandskabet Skifter

Da ByteDance open-sourcede deres video understanding-model og Tencent udgav HunyuanVideo, så vi de første rystelser af et skift. Nu har Kandinsky Lab, støttet af Sberbank, udgivet en komplet familie af modeller, som alle kan køre, modificere og kommercialisere under Apache 2.0-licensen.

10s
Videovarighed
12GB
Min VRAM
Apache 2.0
Licens

Dette er ikke et forskningspreview eller en begrænset API. De fulde vægte, træningskode og inference-pipeline er tilgængelige på GitHub og Hugging Face.

Modelfamilien

💡

For kontekst om diffusion-arkitekturer, se vores dybdegående artikel om diffusion transformers.

Kandinsky 5.0 er ikke én enkelt model, men en familie på tre:

Video Lite (2B parametre)

Den letvægts mulighed til forbrugerhardware. Genererer 5 til 10 sekunders videoer ved 768×512 opløsning, 24 fps. Kører på 12GB VRAM med memory offloading. Den destillerede 16-trins variant producerer et 5-sekunders klip på 35 til 60 sekunder på en H100.

Video Pro (19B parametre)

Den fulde model til maksimal kvalitet. Leverer HD-video ved 1280×768, 24 fps. Kræver datacenter-klasse GPU'er, men leverer resultater, der kan konkurrere med closed source-alternativer.

En 6B parameter Image Lite-model afrunder familien til generering af stillbilleder ved 1280×768 eller 1024×1024 opløsning.

Teknisk Arkitektur

De tekniske beslutninger i Kandinsky 5.0 afslører et team fokuseret på praktisk implementering frem for benchmark-jagt.

Fundament: Flow Matching Over Diffusion

Traditionelle diffusion-modeller lærer at vende en støj-tilføjende proces trin for trin. Flow matching tager en anden tilgang: den lærer en direkte vej fra støj til billede gennem et kontinuerligt flow field. Fordelene er betydelige:

Flow Matching-fordele
Bedre træningsstabilitet, hurtigere konvergens og mere forudsigelig genereringskvalitet ved inference.
Trade-offs
Kræver omhyggelig sti-design. Teamet bruger optimal transport-stier, der minimerer afstanden mellem støj og måldistributioner.

NABLA: Gør Lange Videoer Mulige

Den reelle innovation er NABLA, kort for Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalerer kvadratisk med sekvenslængde. For video er dette katastrofalt. Et 10-sekunders klip ved 24 fps indeholder 240 frames, hver med tusindvis af spatial patches. Fuld attention på tværs af alle er beregningsteknisk umuligt.

NABLA adresserer dette gennem sparse attention-mønstre. I stedet for at give attention til hver patch i hver frame fokuserer den beregningen på:

  1. Lokale spatial neighborhoods inden for hver frame
  2. Temporal neighbors på tværs af tilstødende frames
  3. Lærte globale ankre til langdistance-kohærens

Resultatet er næsten lineær skalering med videolængde i stedet for kvadratisk. Dette gør 10-sekunders generering mulig på forbrugerhardware.

💡

Til sammenligning kæmper de fleste konkurrerende modeller med videoer længere end 5 sekunder uden specialiseret hardware.

Bygger på HunyuanVideo

I stedet for at træne alt fra bunden adopterer Kandinsky 5.0 3D VAE fra Tencents HunyuanVideo-projekt. Denne encoder-decoder håndterer oversættelsen mellem pixel space og det kompakte latent space, hvor diffusion-processen opererer.

Tekstforståelse kommer fra Qwen2.5-VL, en vision-language model, kombineret med CLIP embeddings til semantisk grounding. Denne dual-encoder tilgang giver modellen mulighed for at forstå både den bogstavelige betydning og den visuelle stil impliceret af prompts.

Ydeevne: Hvor Den Står

Teamet positionerer Video Lite som den bedste performer blandt open source-modeller i sin parameterklasse. Benchmarks viser:

ModelParametreMaks varighedVRAM (5s)
Kandinsky Video Lite2B10 sekunder12GB
CogVideoX-2B2B6 sekunder16GB
Open-Sora 1.21.1B16 sekunder18GB

12GB VRAM-kravet åbner døren til implementering på forbruger-RTX 3090 og 4090-kort, en betydelig tilgængelighedsmilepæl.

Kvalitetssammenligninger er sværere at kvantificere. Brugerrapporter antyder, at Kandinsky producerer mere konsistent bevægelse end CogVideoX, men halter efter HunyuanVideo i fotorealisme. Den 16-trins destillerede model ofrer nogle fine detaljer for hastighed, et trade-off, der fungerer godt til prototyping, men måske ikke opfylder endelige produktionsbehov.

Kør Kandinsky Lokalt

Projektet leverer ComfyUI-noder og standalone scripts. Et basalt text-to-video workflow:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Til 12GB-kort
 
video = model.generate(
    prompt="En bjergsø ved daggry, tåge stiger op fra stille vand",
    num_frames=120,  # 5 sekunder ved 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Memory offloading flytter modelvægte mellem CPU og GPU under inference. Dette bytter hastighed for tilgængelighed og giver større modeller mulighed for at køre på mindre kort.

Sberbank-forbindelsen

Kandinsky Lab opererer under Sber AI, kunstig intelligens-divisionen af Sberbank, Ruslands største bank. Denne støtte forklarer de betydelige ressourcer bag projektet: multi-stage træning på proprietære data, reinforcement learning post-training og teknikarbejdet med at open-source en komplet produktionspipeline.

Den geopolitiske kontekst tilføjer kompleksitet. Vestlige udviklere kan møde institutionelt pres for at undgå russisk-oprindelse modeller. Apache 2.0-licensen er juridisk klar, men organisatoriske politikker varierer. For individuelle udviklere og mindre studier er beslutningen simplere: god teknologi er god teknologi.

⚠️

Verificer altid licensering og eksportoverholdelse for din specifikke jurisdiktion og use case.

Praktiske Anvendelser

10-sekunders varigheden og forbrugerhardware-kravene åbner specifikke use cases:

🎬

Social Content

Kortformat video til TikTok, Reels og Shorts. Hurtig iteration uden API-omkostninger.
🎨

Konceptvisualisering

Instruktører og producere kan prototype scener før dyr produktion.
🔧

Custom Training

Apache 2.0-licens tillader fine-tuning på proprietære datasæt. Byg specialiserede modeller til dit domæne.
📚

Forskning

Fuld adgang til vægte og arkitektur muliggør akademisk studium af videogenereringsteknikker.

Fremadrettet

Kandinsky 5.0 repræsenterer en bredere trend: kløften mellem open og closed source-videogenerering indsnævres. For et år siden producerede åbne modeller korte, lavopløselige klip med tydelige artefakter. I dag genererer en 2B parameter-model på forbrugerhardware 10-sekunders HD-video, der ville have virket umulig i 2023.

Løbet er ikke forbi. Closed source-ledere som Sora 2 og Runway Gen-4.5 fører stadig i kvalitet, varighed og kontrollerbarhed. Men gulvet stiger. For mange anvendelser er open source nu god nok.

Konklusionen

Kandinsky 5.0 topper måske ikke alle benchmarks, men lykkes hvor det betyder mest: køre ægte videogenerering på hardware, som ægte mennesker ejer, under en licens, der tillader ægte kommerciel brug. I løbet om at demokratisere AI-video har det russiske team lige flyttet målstregen tættere på.

For udviklere, der udforsker open source-videogenerering, fortjener Kandinsky 5.0 en plads på din shortlist.

Var denne artikel nyttig?

Alexis

Alexis

AI-ingeniør

AI-ingeniør fra Lausanne, der kombinerer forskningsdybde med praktisk innovation. Deler sin tid mellem modelarkitekturer og alpine bjergtinder.

Relaterede artikler

Fortsæt med at udforske disse relaterede indlæg

Kunne du lide artiklen?

Få mere indsigt, og hold dig opdateret med vores nyeste indhold.

Kandinsky 5.0: Ruslands Open Source-svar på AI-videogenerering