Meta Pixel
AlexisAlexis
7 min read
1319 paraules

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA

Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
La geografia de la innovació en IA continua canviant. Mentre els laboratoris americans persegueixen models cada vegada més grans i les empreses xineses dominen la classificació de codi obert, un equip rus ha llançat silenciosament el que podria ser el generador de vídeo amb IA més accessible fins ara: Kandinsky 5.0.

El panorama de vídeo de codi obert canvia

Quan ByteDance va obrir el codi del seu model de comprensió de vídeo i Tencent va llançar HunyuanVideo, vam veure els primers tremors d'un canvi. Ara Kandinsky Lab, amb el suport de Sberbank, ha llançat una família completa de models que qualsevol pot executar, modificar i comercialitzar sota la llicència Apache 2.0.

10s
Durada del vídeo
12GB
VRAM mínima
Apache 2.0
Llicència

Això no és una previsualització de recerca o una API restringida. Els pesos complets, el codi d'entrenament i el pipeline d'inferència estan disponibles a GitHub i Hugging Face.

La família de models

💡

Per a context sobre arquitectures de difusió, consulta la nostra immersió profunda en transformadors de difusió.

Kandinsky 5.0 no és un model únic sinó una família de tres:

Video Lite (2B paràmetres)

L'opció lleugera per a maquinari de consumidor. Genera vídeos de 5 a 10 segons a resolució 768×512, 24 fps. Funciona amb 12GB de VRAM amb descàrrega de memòria. La variant destil·lada de 16 passos produeix un clip de 5 segons en 35 a 60 segons en una H100.

Video Pro (19B paràmetres)

El model complet per a màxima qualitat. Produeix vídeo HD a 1280×768, 24 fps. Requereix GPUs de classe de centre de dades però ofereix resultats competitius amb alternatives de codi tancat.

Un model Image Lite de 6B paràmetres completa la família per a generació d'imatges estàtiques a resolució 1280×768 o 1024×1024.

Arquitectura tècnica

Les decisions d'enginyeria a Kandinsky 5.0 revelen un equip centrat en el desplegament pràctic més que en la persecució de benchmarks.

Fonament: Flow Matching sobre difusió

Els models de difusió tradicionals aprenen a revertir un procés d'addició de soroll pas a pas. El flow matching adopta un enfocament diferent: aprèn un camí directe des del soroll fins a la imatge a través d'un camp de flux continu. Els avantatges són significatius:

Avantatges del Flow Matching
Millor estabilitat d'entrenament, convergència més ràpida i qualitat de generació més predictible al temps d'inferència.
Compensacions
Requereix disseny acurat del camí. L'equip utilitza camins de transport òptim que minimitzen la distància entre distribucions de soroll i objectiu.

NABLA: fer possibles vídeos llargs

La innovació real és NABLA, abreviatura de Neighborhood Adaptive Block-Level Attention. L'atenció estàndard del transformador escala quadràticament amb la longitud de la seqüència. Per al vídeo, això és catastròfic. Un clip de 10 segons a 24 fps conté 240 fotogrames, cadascun amb milers de pedaços espacials. L'atenció completa a través de tots ells és computacionalment intractable.

NABLA aborda això mitjançant patrons d'atenció dispersa. En lloc d'atendre a cada pedaç en cada fotograma, centra la computació en:

  1. Veïnatges espacials locals dins de cada fotograma
  2. Veïns temporals a través de fotogrames adjacents
  3. Ancoratges globals apresos per a coherència a llarg termini

El resultat és un escalat gairebé lineal amb la longitud del vídeo en lloc de quadràtic. Això és el que fa que la generació de 10 segons sigui factible en maquinari de consumidor.

💡

Per comparació, la majoria de models competidors lluiten amb vídeos més llargs de 5 segons sense maquinari especialitzat.

Construint sobre HunyuanVideo

En lloc d'entrenar tot des de zero, Kandinsky 5.0 adopta el VAE 3D del projecte HunyuanVideo de Tencent. Aquest codificador-descodificador gestiona la traducció entre l'espai de píxels i l'espai latent compacte on opera el procés de difusió.

La comprensió de text prové de Qwen2.5-VL, un model de visió-llenguatge, combinat amb incrustacions CLIP per a ancoratge semàntic. Aquest enfocament de doble codificador permet al model entendre tant el significat literal com l'estil visual implicat per les indicacions.

Rendiment: on es situa

L'equip posiciona Video Lite com el millor rendiment entre models de codi obert en la seva classe de paràmetres. Els benchmarks mostren:

ModelParàmetresDurada màx.VRAM (5s)
Kandinsky Video Lite2B10 segons12GB
CogVideoX-2B2B6 segons16GB
Open-Sora 1.21.1B16 segons18GB

El requisit de 12GB de VRAM obre la porta al desplegament en targetes de consumidor RTX 3090 i 4090, un fita d'accessibilitat significativa.

Les comparacions de qualitat són més difícils de quantificar. Els informes d'usuaris suggereixen que Kandinsky produeix moviment més consistent que CogVideoX però va per darrere de HunyuanVideo en fotorealisme. El model destil·lat de 16 passos sacrifica alguns detalls fins per velocitat, una compensació que funciona bé per a prototipat però pot no satisfer necessitats de producció final.

Executar Kandinsky localment

El projecte proporciona nodes de ComfyUI i scripts autònoms. Un flux de treball bàsic de text a vídeo:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Per a targetes de 12GB
 
video = model.generate(
    prompt="Un llac de muntanya a l'alba, boira sortint d'aigua tranquil·la",
    num_frames=120,  # 5 segons a 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

La descàrrega de memòria mou pesos del model entre CPU i GPU durant la inferència. Això bescanvia velocitat per accessibilitat, permetent que models més grans funcionin en targetes més petites.

La connexió amb Sberbank

Kandinsky Lab opera sota Sber AI, la divisió d'intel·ligència artificial de Sberbank, el banc més gran de Rússia. Aquest suport explica els recursos substancials darrere del projecte: entrenament multi-etapa amb dades propietàries, entrenament post amb aprenentatge per reforç, i l'esforç d'enginyeria per obrir el codi d'un pipeline de producció complet.

El context geopolític afegeix complexitat. Els desenvolupadors occidentals poden enfrontar-se a pressió institucional per evitar models d'origen rus. La llicència Apache 2.0 és legalment clara, però les polítiques organitzacionals varien. Per a desenvolupadors individuals i estudis més petits, el càlcul és més simple: la bona tecnologia és bona tecnologia.

⚠️

Verifica sempre les llicències i el compliment d'exportació per a la teva jurisdicció específica i cas d'ús.

Aplicacions pràctiques

La durada de 10 segons i els requisits de maquinari de consumidor obren casos d'ús específics:

🎬

Contingut social

Vídeo de format curt per a TikTok, Reels i Shorts. Iteració ràpida sense costos d'API.
🎨

Visualització de conceptes

Directors i productors poden prototipar escenes abans d'una producció costosa.
🔧

Entrenament personalitzat

La llicència Apache 2.0 permet l'ajust fi amb conjunts de dades propietaris. Construeix models especialitzats per al teu domini.
📚

Recerca

Accés complet a pesos i arquitectura permet estudi acadèmic de tècniques de generació de vídeo.

Mirant endavant

Kandinsky 5.0 representa una tendència més àmplia: la bretxa entre la generació de vídeo de codi obert i tancat s'està estrenyent. Fa un any, els models oberts produïen clips curts de baixa resolució amb artefactes obvis. Avui, un model de 2B paràmetres en maquinari de consumidor genera vídeo HD de 10 segons que hauria semblat impossible el 2023.

La cursa no ha acabat. Els líders de codi tancat com Sora 2 i Runway Gen-4.5 encara lideren en qualitat, durada i controlabilitat. Però el pis està pujant. Per a moltes aplicacions, el codi obert ara és prou bo.

La conclusió

Kandinsky 5.0 pot no encapçalar tots els benchmarks, però té èxit on més importa: executar generació de vídeo real en maquinari que la gent real posseeix, sota una llicència que permet ús comercial real. En la cursa per democratitzar el vídeo amb IA, l'equip rus acaba d'apropar la línia de meta.

Per a desenvolupadors que exploren generació de vídeo de codi obert, Kandinsky 5.0 mereix un lloc a la teva llista curta.

T'ha resultat útil aquest article?

Alexis

Alexis

Enginyer d'IA

Enginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA