Kandinsky 5.0: Ruská odpoveď v oblasti otvorenej generácie videa pomocou AI
Kandinsky 5.0 prináša generáciu 10-sekundového videa na spotrebiteľské GPU s licenciou Apache 2.0. Skúmame, ako mechanizmy NABLA attention a flow matching robia toto možným.

Posun v krajine open-source videa
Keď ByteDance zverejnil zdrojový kód svojho modelu pre porozumenie videu a Tencent vydal HunyuanVideo, videli sme prvé známky zmien. Teraz Kandinsky Lab, podporovaný Sberbankom, vydal kompletnú rodinu modelov, ktoré ktokoľvek môže spúšťať, upravovať a komercializovať pod licenciou Apache 2.0.
Toto nie je výskumný náhľad ani obmedzené API. Kompletné váhy, trénovací kód a inferenčný pipeline sú dostupné na GitHub a Hugging Face.
Rodina modelov
Pre kontext týkajúci sa difúznych architektúr pozrite si náš podrobný rozbor difúznych transformátorov.
Kandinsky 5.0 nie je jediný model, ale rodina troch:
Video Lite (2 mld parametrov)
Ľahká možnosť pre spotrebiteľský hardvér. Generuje videá o dĺžke 5 až 10 sekúnd v rozlíšení 768×512, 24 fps. Beží na 12 GB VRAM s vyložením pamäte. Destilovaná 16-kroková varianta vytvára 5-sekundový klip za 35-60 sekúnd na H100.
Video Pro (19 mld parametrov)
Plný model pre maximálnu kvalitu. Vytvára HD video v rozlíšení 1280×768, 24 fps. Vyžaduje GPU dátového centra, ale poskytuje výsledky konkurenčné s uzavretými alternatívami.
Model Image Lite s 6 mld parametrami uzatvára rodinu pre generáciu statických obrázkov v rozlíšení 1280×768 alebo 1024×1024.
Technická architektúra
Inžinierske rozhodnutia v Kandinsky 5.0 odhaľujú tím zameraný na praktické nasadenie, nie na honbu za benchmarkmi.
Základ: Flow Matching namiesto difúzie
Tradičné difúzne modely sa učia krok za krokom obrátiť proces pridávania šumu. Flow matching používa iný prístup: učí sa priamu cestu od šumu k obrazu cez súvislé pole toku. Výhody sú významné:
NABLA: robíme dlhé videá možnými
Skutočná inovácia je NABLA (Neighborhood Adaptive Block-Level Attention). Štandardná pozornosť transformátora sa škáluje kvadraticky s dĺžkou sekvencie. Pre video je to katastrofálne. 10-sekundový klip pri 24 fps obsahuje 240 snímok, každá s tisíckami priestorových záplat. Plná pozornosť na všetky z nich je výpočtovo neuskutočniteľná.
NABLA to rieši pomocou vzorov riedkej pozornosti. Namiesto venovania pozornosti každej záplate v každej snímke zameriava výpočty na:
- Lokálne priestorové okolie v každej snímke
- Časových susedov naprieč susednými snímkami
- Naučené globálne kotvy pre koherenciu dlhého dosahu
Výsledok je takmer lineárne škálovanie s dĺžkou videa namiesto kvadratického. To je to, čo činí 10-sekundovú generáciu uskutočniteľnou na spotrebiteľskom hardvéri.
Pre porovnanie, väčšina konkurenčných modelov má problémy s videami dlhšími ako 5 sekúnd bez špecializovaného hardvéru.
Stavba na HunyuanVideo
Namiesto tréningu všetkého od nuly Kandinsky 5.0 prijíma 3D VAE z projektu HunyuanVideo od Tencent. Tento enkodér-dekodér spracováva preklad medzi pixelovým priestorom a kompaktným latentným priestorom, kde funguje difúzny proces.
Porozumenie textu pochádza z Qwen2.5-VL, modelu vision-language, v kombinácii s CLIP embeddingmi pre sémantické ukotvenie. Tento prístup s dvoma enkodérmi umožňuje modelu rozumieť tak doslovnému významu, ako aj vizuálnemu štýlu naznačenému promptmi.
Výkon: kde sa nachádza
Tím pozicionuje Video Lite ako najlepší medzi open-source modelmi vo svojej triede parametrov. Benchmarky ukazujú:
| Model | Parametre | Max. dĺžka | VRAM (5 s) |
|---|---|---|---|
| Kandinsky Video Lite | 2 mld | 10 sekúnd | 12 GB |
| CogVideoX-2B | 2 mld | 6 sekúnd | 16 GB |
| Open-Sora 1.2 | 1.1 mld | 16 sekúnd | 18 GB |
Požiadavka 12 GB VRAM otvára dvere k nasadeniu na spotrebiteľských kartách RTX 3090 a 4090, významný míľnik v dostupnosti.
Porovnanie kvality je ťažšie kvantifikovať. Správy užívateľov naznačujú, že Kandinsky vytvára konzistentnejší pohyb ako CogVideoX, ale zaostáva za HunyuanVideo vo fotorealizme. 16-krokový destilovaný model obetuje niektoré jemné detaily pre rýchlosť, kompromis, ktorý funguje dobre pre prototypovanie, ale nemusí uspokojiť potreby finálnej produkcie.
Spustenie Kandinsky lokálne
Projekt poskytuje uzly ComfyUI a samostatné skripty. Základný workflow text-to-video:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Pre karty 12 GB
video = model.generate(
prompt="Horské jazero za úsvitu, hmla stúpa nad pokojnou vodou",
num_frames=120, # 5 sekúnd pri 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Vyloženie pamäte presúva váhy modelu medzi CPU a GPU počas inferencie. To vymieňa rýchlosť za dostupnosť, umožňujúc väčším modelom bežať na menších kartách.
Spojenie so Sberbankom
Kandinsky Lab pracuje pod Sber AI, divíziou umelej inteligencie Sberbanku, najväčšej banky Ruska. Táto podpora vysvetľuje významné zdroje stojace za projektom: viacstupňový tréning na proprietárnych dátach, post-tréning s posilneným učením a inžinierske úsilie k otvoreniu kompletnej produkčnej pipeline.
Geopolitický kontext pridáva zložitosť. Západní vývojári môžu čeliť inštitucionálnemu tlaku, aby sa vyhli modelom ruského pôvodu. Licencia Apache 2.0 je právne jasná, ale organizačné politiky sa líšia. Pre jednotlivých vývojárov a menšie štúdiá je kalkulácia jednoduchšia: dobrá technológia je dobrá technológia.
Vždy overte licencovanie a exportnú zhodu pre vašu konkrétnu jurisdikciu a prípadový prípad použitia.
Praktické aplikácie
10-sekundová dĺžka a požiadavky na spotrebiteľský hardvér otvárajú konkrétne prípady použitia:
Sociálny obsah
Vizualizácia konceptu
Vlastný tréning
Výskum
Pohľad vpred
Kandinsky 5.0 predstavuje širší trend: priepasť medzi open a closed-source generáciou videa sa zmenšuje. Pred rokom otvorené modely vytvárali krátke klipy nízkeho rozlíšenia s očividnými artefaktmi. Dnes model s 2 mld parametrami na spotrebiteľskom hardvéri generuje 10-sekundové HD video, ktoré by sa zdalo nemožné v roku 2023.
Závod nie je ukončený. Uzavretí lídri, ako Sora 2 a Runway Gen-4.5, stále vedú v kvalite, dĺžke a ovládateľnosti. Ale spodná hranica rastie. Pre mnoho aplikácií je open-source teraz dostatočne dobrý.
Záver
Kandinsky 5.0 nemusí viesť všetky benchmarky, ale uspeje tam, kde na tom najviac záleží: spúšťanie skutočnej generácie videa na hardvéri, ktorý vlastnia skutoční ľudia, pod licenciou, ktorá umožňuje skutočné komerčné použitie. V závode o demokratizáciu AI videa ruský tím práve posunul cieľovú čiaru bližšie.
Pre vývojárov skúmajúcich open-source generáciu videa si Kandinsky 5.0 zaslúži miesto na vašom zozname.
Bol tento článok užitočný?

Alexis
AI inžinierAI inžinier z Lausanne, ktorý spája hĺbku výskumu s praktickou inováciou. Čas delí medzi architektúry modelov a alpské vrcholy.
Súvisiace články
Pokračujte v objavovaní s týmito súvisiacimi príspevkami

TurboDiffusion: Prelom v reálnom čase pri generovaní videa s AI
Spoločnosť ShengShu Technology a Univerzita Tsinghua predstavujú TurboDiffusion, ktorý dosahuje 100-200× rýchlejšie generovanie videa s AI a zahajuje éru tvorby v reálnom čase.

ByteDance Vidi2: AI, ktorá rozumie videu ako editor
ByteDance práve sprístupnila Vidi2, model s 12 miliardami parametrov, ktorý rozumie video obsahu dostatočne dobre na automatické zostrihanie hodín záznamu do vyleštených klipov. Už teraz poháňa TikTok Smart Split.

LTX-2: Natívna 4K AI generácia videa na spotrebiteľských GPU cez open source
Lightricks vypúšťa LTX-2 s natívnou 4K generáciou videa a synchronizovaným zvukom, ponúkajúc open-source prístup na spotrebiteľskom hardvéri, zatiaľ čo konkurenti zostávajú uzamknutí za API, hoci s dôležitými výkonovými kompromismi.