Meta Pixel
AlexisAlexis
6 min read
1033 ord

Kandinsky 5.0: Russlands åpen kildekode-svar på AI-videogenerering

Kandinsky 5.0 bringer 10-sekunders videogenerering til forbruker-GPU-er med Apache 2.0-lisens. Vi utforsker hvordan NABLA attention og flow matching gjør dette mulig.

Kandinsky 5.0: Russlands åpen kildekode-svar på AI-videogenerering
Geografien for AI-innovasjon fortsetter å endre seg. Mens amerikanske lab jakter stadig større modeller og kinesiske selskaper dominerer åpen kildekode-leaderboardet, har et russisk team stille utgitt det som kanskje er den mest tilgjengelige AI-videogeneratoren hittil: Kandinsky 5.0.

Åpen Kildekode-videolandskapet Endrer Seg

Da ByteDance åpnet kildekoden for sin video understanding-modell og Tencent slapp HunyuanVideo, så vi de første skjelvingene av en endring. Nå har Kandinsky Lab, støttet av Sberbank, utgitt en komplett familie av modeller som alle kan kjøre, modifisere og kommersialisere under Apache 2.0-lisensen.

10s
Videovarighet
12GB
Min VRAM
Apache 2.0
Lisens

Dette er ikke en forskningsforhåndsvisning eller et begrenset API. De fulle vektene, treningskoden og inference-pipelinen er tilgjengelige på GitHub og Hugging Face.

Modellfamilien

💡

For kontekst om diffusion-arkitekturer, se vår dyptgående artikkel om diffusion transformers.

Kandinsky 5.0 er ikke én enkelt modell, men en familie på tre:

Video Lite (2B parametere)

Den lettvektige muligheten for forbrukerhardware. Genererer 5 til 10 sekunders videoer ved 768×512 oppløsning, 24 fps. Kjører på 12GB VRAM med minneavlastning. Den destillerte 16-trinns varianten produserer et 5-sekunders klipp på 35 til 60 sekunder på en H100.

Video Pro (19B parametere)

Den fulle modellen for maksimal kvalitet. Leverer HD-video ved 1280×768, 24 fps. Krever datasenter-klasse GPU-er, men leverer resultater som konkurrerer med closed source-alternativer.

En 6B parameter Image Lite-modell avrunder familien for stillbildegenerering ved 1280×768 eller 1024×1024 oppløsning.

Teknisk Arkitektur

De tekniske beslutningene i Kandinsky 5.0 avslører et team fokusert på praktisk implementering fremfor benchmark-jakt.

Grunnlag: Flow Matching Over Diffusion

Tradisjonelle diffusion-modeller lærer å snu en støy-tilleggsprosess trinn for trinn. Flow matching tar en annen tilnærming: den lærer en direkte vei fra støy til bilde gjennom et kontinuerlig flytfelt. Fordelene er betydelige:

Flow Matching-fordeler
Bedre treningsstabilitet, raskere konvergens og mer forutsigbar genereringskvalitet ved inference.
Avveininger
Krever nøye sti-design. Teamet bruker optimal transport-stier som minimerer avstanden mellom støy og måldistribusjoner.

NABLA: Gjør Lange Videoer Mulige

Den virkelige innovasjonen er NABLA, kort for Neighborhood Adaptive Block-Level Attention. Standard transformer attention skalerer kvadratisk med sekvenslengde. For video er dette katastrofalt. Et 10-sekunders klipp ved 24 fps inneholder 240 rammer, hver med tusenvis av spatial patches. Full attention over alle er beregningsteknisk umulig.

NABLA håndterer dette gjennom spredte attention-mønstre. I stedet for å gi attention til hver patch i hver ramme, fokuserer den beregningen på:

  1. Lokale spatial neighborhoods innenfor hver ramme
  2. Temporal neighbors på tvers av tilstøtende rammer
  3. Lærte globale ankre for langdistanse-koherens

Resultatet er nesten lineær skalering med videolengde i stedet for kvadratisk. Dette gjør 10-sekunders generering mulig på forbrukerhardware.

💡

Som sammenligning sliter de fleste konkurrerende modeller med videoer lengre enn 5 sekunder uten spesialisert maskinvare.

Bygger på HunyuanVideo

I stedet for å trene alt fra bunnen av adopterer Kandinsky 5.0 3D VAE fra Tencents HunyuanVideo-prosjekt. Denne encoder-decoder håndterer oversettelsen mellom pixel space og det kompakte latent space hvor diffusion-prosessen opererer.

Tekstforståelse kommer fra Qwen2.5-VL, en vision-language modell, kombinert med CLIP embeddings for semantisk grounding. Denne dual-encoder tilnærmingen lar modellen forstå både den bokstavelige betydningen og den visuelle stilen implisert av prompts.

Ytelse: Hvor Den Står

Teamet posisjonerer Video Lite som den beste performeren blant åpen kildekode-modeller i sin parameterklasse. Benchmarks viser:

ModellParametereMaks varighetVRAM (5s)
Kandinsky Video Lite2B10 sekunder12GB
CogVideoX-2B2B6 sekunder16GB
Open-Sora 1.21.1B16 sekunder18GB

12GB VRAM-kravet åpner døren til implementering på forbruker-RTX 3090 og 4090-kort, en betydelig tilgjengelighetsmilepæl.

Kvalitetssammenligninger er vanskeligere å kvantifisere. Brukerrapporter antyder at Kandinsky produserer mer konsekvent bevegelse enn CogVideoX, men ligger etter HunyuanVideo i fotorealisme. Den 16-trinns destillerte modellen ofrer noen fine detaljer for hastighet, en avveining som fungerer godt for prototyping, men kanskje ikke oppfyller endelige produksjonsbehov.

Kjør Kandinsky Lokalt

Prosjektet tilbyr ComfyUI-noder og standalone scripts. Et grunnleggende text-to-video arbeidsflyt:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB-kort
 
video = model.generate(
    prompt="En fjellsjø ved daggry, tåke stiger fra stille vann",
    num_frames=120,  # 5 sekunder ved 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Minneavlastning flytter modellvekter mellom CPU og GPU under inference. Dette bytter hastighet for tilgjengelighet og lar større modeller kjøre på mindre kort.

Sberbank-forbindelsen

Kandinsky Lab opererer under Sber AI, kunstig intelligens-divisjonen til Sberbank, Russlands største bank. Denne støtten forklarer de betydelige ressursene bak prosjektet: multi-stage trening på proprietære data, reinforcement learning post-training og ingeniørarbeidet for å åpne kildekoden til en komplett produksjonspipeline.

Den geopolitiske konteksten tilføyer kompleksitet. Vestlige utviklere kan møte institusjonelt press for å unngå russisk-opprinnede modeller. Apache 2.0-lisensen er juridisk klar, men organisatoriske policyer varierer. For individuelle utviklere og mindre studioer er regnestykket enklere: god teknologi er god teknologi.

⚠️

Verifiser alltid lisensiering og eksportetterlevelse for din spesifikke jurisdiksjon og use case.

Praktiske Anvendelser

10-sekunders varigheten og forbrukerhardware-kravene åpner spesifikke bruksområder:

🎬

Sosialt Innhold

Kortformat video for TikTok, Reels og Shorts. Rask iterasjon uten API-kostnader.
🎨

Konseptvisualisering

Regissører og produsenter kan prototype scener før dyr produksjon.
🔧

Custom Training

Apache 2.0-lisens tillater fine-tuning på proprietære datasett. Bygg spesialiserte modeller for ditt domene.
📚

Forskning

Full tilgang til vekter og arkitektur muliggjør akademisk studie av videogenereringsteknikker.

Fremover

Kandinsky 5.0 representerer en bredere trend: gapet mellom åpen og closed source-videogenerering minsker. For et år siden produserte åpne modeller korte, lavoppløselige klipp med tydelige artefakter. I dag genererer en 2B parameter-modell på forbrukerhardware 10-sekunders HD-video som ville ha virket umulig i 2023.

Racet er ikke over. Closed source-ledere som Sora 2 og Runway Gen-4.5 leder fortsatt i kvalitet, varighet og kontrollerbarhet. Men gulvet stiger. For mange anvendelser er åpen kildekode nå god nok.

Konklusjonen

Kandinsky 5.0 topper kanskje ikke alle benchmarks, men lykkes der det betyr mest: kjøre ekte videogenerering på maskinvare som ekte mennesker eier, under en lisens som tillater ekte kommersiell bruk. I kappløpet om å demokratisere AI-video har det russiske teamet nettopp flyttet målstreken nærmere.

For utviklere som utforsker åpen kildekode-videogenerering, fortjener Kandinsky 5.0 en plass på din shortlist.

Var denne artikkelen nyttig?

Alexis

Alexis

KI-ingeniør

KI-ingeniør fra Lausanne som kombinerer forskningsdybde med praktisk innovasjon. Deler tiden mellom modellarkitekturer og alpine topper.

Relaterte artikler

Fortsett å utforske med disse relaterte innleggene

Likte du denne artikkelen?

Oppdag mer innsikt og hold deg oppdatert på vårt nyeste innhold.

Kandinsky 5.0: Russlands åpen kildekode-svar på AI-videogenerering