Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.

El panorama de vídeo de codi obert canvia
Quan ByteDance va obrir el codi del seu model de comprensió de vídeo i Tencent va llançar HunyuanVideo, vam veure els primers tremors d'un canvi. Ara Kandinsky Lab, amb el suport de Sberbank, ha llançat una família completa de models que qualsevol pot executar, modificar i comercialitzar sota la llicència Apache 2.0.
Això no és una previsualització de recerca o una API restringida. Els pesos complets, el codi d'entrenament i el pipeline d'inferència estan disponibles a GitHub i Hugging Face.
La família de models
Per a context sobre arquitectures de difusió, consulta la nostra immersió profunda en transformadors de difusió.
Kandinsky 5.0 no és un model únic sinó una família de tres:
Video Lite (2B paràmetres)
L'opció lleugera per a maquinari de consumidor. Genera vídeos de 5 a 10 segons a resolució 768×512, 24 fps. Funciona amb 12GB de VRAM amb descàrrega de memòria. La variant destil·lada de 16 passos produeix un clip de 5 segons en 35 a 60 segons en una H100.
Video Pro (19B paràmetres)
El model complet per a màxima qualitat. Produeix vídeo HD a 1280×768, 24 fps. Requereix GPUs de classe de centre de dades però ofereix resultats competitius amb alternatives de codi tancat.
Un model Image Lite de 6B paràmetres completa la família per a generació d'imatges estàtiques a resolució 1280×768 o 1024×1024.
Arquitectura tècnica
Les decisions d'enginyeria a Kandinsky 5.0 revelen un equip centrat en el desplegament pràctic més que en la persecució de benchmarks.
Fonament: Flow Matching sobre difusió
Els models de difusió tradicionals aprenen a revertir un procés d'addició de soroll pas a pas. El flow matching adopta un enfocament diferent: aprèn un camí directe des del soroll fins a la imatge a través d'un camp de flux continu. Els avantatges són significatius:
NABLA: fer possibles vídeos llargs
La innovació real és NABLA, abreviatura de Neighborhood Adaptive Block-Level Attention. L'atenció estàndard del transformador escala quadràticament amb la longitud de la seqüència. Per al vídeo, això és catastròfic. Un clip de 10 segons a 24 fps conté 240 fotogrames, cadascun amb milers de pedaços espacials. L'atenció completa a través de tots ells és computacionalment intractable.
NABLA aborda això mitjançant patrons d'atenció dispersa. En lloc d'atendre a cada pedaç en cada fotograma, centra la computació en:
- Veïnatges espacials locals dins de cada fotograma
- Veïns temporals a través de fotogrames adjacents
- Ancoratges globals apresos per a coherència a llarg termini
El resultat és un escalat gairebé lineal amb la longitud del vídeo en lloc de quadràtic. Això és el que fa que la generació de 10 segons sigui factible en maquinari de consumidor.
Per comparació, la majoria de models competidors lluiten amb vídeos més llargs de 5 segons sense maquinari especialitzat.
Construint sobre HunyuanVideo
En lloc d'entrenar tot des de zero, Kandinsky 5.0 adopta el VAE 3D del projecte HunyuanVideo de Tencent. Aquest codificador-descodificador gestiona la traducció entre l'espai de píxels i l'espai latent compacte on opera el procés de difusió.
La comprensió de text prové de Qwen2.5-VL, un model de visió-llenguatge, combinat amb incrustacions CLIP per a ancoratge semàntic. Aquest enfocament de doble codificador permet al model entendre tant el significat literal com l'estil visual implicat per les indicacions.
Rendiment: on es situa
L'equip posiciona Video Lite com el millor rendiment entre models de codi obert en la seva classe de paràmetres. Els benchmarks mostren:
| Model | Paràmetres | Durada màx. | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 segons | 12GB |
| CogVideoX-2B | 2B | 6 segons | 16GB |
| Open-Sora 1.2 | 1.1B | 16 segons | 18GB |
El requisit de 12GB de VRAM obre la porta al desplegament en targetes de consumidor RTX 3090 i 4090, un fita d'accessibilitat significativa.
Les comparacions de qualitat són més difícils de quantificar. Els informes d'usuaris suggereixen que Kandinsky produeix moviment més consistent que CogVideoX però va per darrere de HunyuanVideo en fotorealisme. El model destil·lat de 16 passos sacrifica alguns detalls fins per velocitat, una compensació que funciona bé per a prototipat però pot no satisfer necessitats de producció final.
Executar Kandinsky localment
El projecte proporciona nodes de ComfyUI i scripts autònoms. Un flux de treball bàsic de text a vídeo:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Per a targetes de 12GB
video = model.generate(
prompt="Un llac de muntanya a l'alba, boira sortint d'aigua tranquil·la",
num_frames=120, # 5 segons a 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")La descàrrega de memòria mou pesos del model entre CPU i GPU durant la inferència. Això bescanvia velocitat per accessibilitat, permetent que models més grans funcionin en targetes més petites.
La connexió amb Sberbank
Kandinsky Lab opera sota Sber AI, la divisió d'intel·ligència artificial de Sberbank, el banc més gran de Rússia. Aquest suport explica els recursos substancials darrere del projecte: entrenament multi-etapa amb dades propietàries, entrenament post amb aprenentatge per reforç, i l'esforç d'enginyeria per obrir el codi d'un pipeline de producció complet.
El context geopolític afegeix complexitat. Els desenvolupadors occidentals poden enfrontar-se a pressió institucional per evitar models d'origen rus. La llicència Apache 2.0 és legalment clara, però les polítiques organitzacionals varien. Per a desenvolupadors individuals i estudis més petits, el càlcul és més simple: la bona tecnologia és bona tecnologia.
Verifica sempre les llicències i el compliment d'exportació per a la teva jurisdicció específica i cas d'ús.
Aplicacions pràctiques
La durada de 10 segons i els requisits de maquinari de consumidor obren casos d'ús específics:
Contingut social
Visualització de conceptes
Entrenament personalitzat
Recerca
Mirant endavant
Kandinsky 5.0 representa una tendència més àmplia: la bretxa entre la generació de vídeo de codi obert i tancat s'està estrenyent. Fa un any, els models oberts produïen clips curts de baixa resolució amb artefactes obvis. Avui, un model de 2B paràmetres en maquinari de consumidor genera vídeo HD de 10 segons que hauria semblat impossible el 2023.
La cursa no ha acabat. Els líders de codi tancat com Sora 2 i Runway Gen-4.5 encara lideren en qualitat, durada i controlabilitat. Però el pis està pujant. Per a moltes aplicacions, el codi obert ara és prou bo.
La conclusió
Kandinsky 5.0 pot no encapçalar tots els benchmarks, però té èxit on més importa: executar generació de vídeo real en maquinari que la gent real posseeix, sota una llicència que permet ús comercial real. En la cursa per democratitzar el vídeo amb IA, l'equip rus acaba d'apropar la línia de meta.
Per a desenvolupadors que exploren generació de vídeo de codi obert, Kandinsky 5.0 mereix un lloc a la teva llista curta.
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

TurboDiffusion: L'avenç de generació de vídeo amb IA en temps real
ShengShu Technology i la Universitat Tsinghua presenten TurboDiffusion, aconseguint generació de vídeo amb IA 100-200x més ràpida i iniciant l'era de la creació en temps real.

La revolució del vídeo amb IA de codi obert: poden les GPUs de consum competir amb els gegants tecnològics?
ByteDance i Tencent acaben de publicar models de vídeo de codi obert que funcionen en maquinari de consum. Això ho canvia tot per als creadors independents.

Més enllà del límit d'un minut: com la difusió paral·lelitzada habilita vídeos d'IA de 5 minuts
La generació de vídeo amb IA ha estat limitada a clips curts. Un nou article de Tencent i la Universitat de Hong Kong demostra com restriccions bidireccionals i difusió paral·lelitzada poden generar vídeos de 5+ minuts amb consistència temporal, un salt de 100x en durada.