Kandinsky 5.0: La respuesta open-source de Rusia a la generación de video por IA
Kandinsky 5.0 trae la generación de videos de 10 segundos a GPUs de consumo con licencia Apache 2.0. Exploramos cómo la atención NABLA y el flow matching hacen esto posible.

El panorama del video open-source cambia
Cuando ByteDance liberó como open-source su modelo de comprensión de video y Tencent lanzó HunyuanVideo, vimos los primeros indicios de un cambio. Ahora Kandinsky Lab, respaldado por Sberbank, ha lanzado una familia completa de modelos que cualquiera puede ejecutar, modificar y comercializar bajo la licencia Apache 2.0.
Esto no es una vista previa de investigación ni una API restringida. Los pesos completos, el código de entrenamiento y el pipeline de inferencia están disponibles en GitHub y Hugging Face.
La familia de modelos
Para contexto sobre arquitecturas de difusión, consulta nuestro análisis profundo sobre transformadores de difusión.
Kandinsky 5.0 no es un modelo único, sino una familia de tres:
Video Lite (2B parámetros)
La opción ligera para hardware de consumo. Genera videos de 5 a 10 segundos a resolución 768×512, 24 fps. Funciona en 12GB de VRAM con descarga de memoria. La variante destilada de 16 pasos produce un clip de 5 segundos en 35 a 60 segundos en una H100.
Video Pro (19B parámetros)
El modelo completo para máxima calidad. Genera video HD a 1280×768, 24 fps. Requiere GPUs de clase datacenter pero ofrece resultados competitivos con alternativas de código cerrado.
Un modelo Image Lite de 6B parámetros completa la familia para generación de imágenes estáticas a resolución 1280×768 o 1024×1024.
Arquitectura técnica
Las decisiones de ingeniería en Kandinsky 5.0 revelan un equipo enfocado en el despliegue práctico en lugar de perseguir benchmarks.
Fundamento: Flow Matching sobre Difusión
Los modelos de difusión tradicionales aprenden a revertir un proceso de adición de ruido paso a paso. El flow matching adopta un enfoque diferente: aprende un camino directo desde el ruido hasta la imagen a través de un campo de flujo continuo. Las ventajas son significativas:
NABLA: Haciendo posibles los videos largos
La innovación real es NABLA, abreviatura de Neighborhood Adaptive Block-Level Attention. La atención transformer estándar escala cuadráticamente con la longitud de secuencia. Para video, esto es catastrófico. Un clip de 10 segundos a 24 fps contiene 240 cuadros, cada uno con miles de parches espaciales. La atención completa sobre todos ellos es computacionalmente intratable.
NABLA aborda esto mediante patrones de atención dispersa. En lugar de atender a cada parche en cada cuadro, enfoca el cómputo en:
- Vecindarios espaciales locales dentro de cada cuadro
- Vecinos temporales a través de cuadros adyacentes
- Anclajes globales aprendidos para coherencia de largo alcance
El resultado es un escalado casi lineal con la longitud del video en lugar de cuadrático. Esto es lo que hace factible la generación de 10 segundos en hardware de consumo.
Para comparación, la mayoría de los modelos competidores tienen dificultades con videos más largos de 5 segundos sin hardware especializado.
Construyendo sobre HunyuanVideo
En lugar de entrenar todo desde cero, Kandinsky 5.0 adopta el VAE 3D del proyecto HunyuanVideo de Tencent. Este codificador-decodificador maneja la traducción entre el espacio de píxeles y el espacio latente compacto donde opera el proceso de difusión.
La comprensión de texto proviene de Qwen2.5-VL, un modelo de visión-lenguaje, combinado con embeddings CLIP para anclaje semántico. Este enfoque de codificador dual permite al modelo entender tanto el significado literal como el estilo visual implicado por los prompts.
Rendimiento: Dónde se encuentra
El equipo posiciona Video Lite como el mejor rendimiento entre modelos open-source en su clase de parámetros. Los benchmarks muestran:
| Modelo | Parámetros | Duración máx | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 segundos | 12GB |
| CogVideoX-2B | 2B | 6 segundos | 16GB |
| Open-Sora 1.2 | 1.1B | 16 segundos | 18GB |
El requisito de 12GB de VRAM abre la puerta al despliegue en tarjetas RTX 3090 y 4090 de consumo, un hito significativo de accesibilidad.
Las comparaciones de calidad son más difíciles de cuantificar. Los informes de usuarios sugieren que Kandinsky produce movimiento más consistente que CogVideoX, pero queda por detrás de HunyuanVideo en fotorrealismo. El modelo destilado de 16 pasos sacrifica algunos detalles finos por velocidad, una compensación que funciona bien para prototipos pero puede no satisfacer necesidades de producción final.
Ejecutando Kandinsky localmente
El proyecto proporciona nodos de ComfyUI y scripts independientes. Un flujo de trabajo básico de texto a video:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")La descarga de memoria mueve los pesos del modelo entre CPU y GPU durante la inferencia. Esto intercambia velocidad por accesibilidad, permitiendo que modelos más grandes se ejecuten en tarjetas más pequeñas.
La conexión con Sberbank
Kandinsky Lab opera bajo Sber AI, la división de inteligencia artificial de Sberbank, el banco más grande de Rusia. Este respaldo explica los recursos sustanciales detrás del proyecto: entrenamiento multi-etapa en datos propietarios, post-entrenamiento con aprendizaje por refuerzo, y el esfuerzo de ingeniería para liberar como open-source un pipeline de producción completo.
El contexto geopolítico añade complejidad. Los desarrolladores occidentales pueden enfrentar presión institucional para evitar modelos de origen ruso. La licencia Apache 2.0 es legalmente clara, pero las políticas organizacionales varían. Para desarrolladores individuales y estudios más pequeños, el cálculo es más simple: buena tecnología es buena tecnología.
Siempre verifica el cumplimiento de licencias y exportaciones para tu jurisdicción y caso de uso específicos.
Aplicaciones prácticas
La duración de 10 segundos y los requisitos de hardware de consumo abren casos de uso específicos:
Contenido social
Visualización de conceptos
Entrenamiento personalizado
Investigación
Mirando hacia adelante
Kandinsky 5.0 representa una tendencia más amplia: la brecha entre generación de video open-source y de código cerrado se está estrechando. Hace un año, los modelos abiertos producían clips cortos de baja resolución con artefactos obvios. Hoy, un modelo de 2B parámetros en hardware de consumo genera video HD de 10 segundos que habría parecido imposible en 2023.
La carrera no ha terminado. Los líderes de código cerrado como Sora 2 y Runway Gen-4.5 aún lideran en calidad, duración y controlabilidad. Pero el piso está subiendo. Para muchas aplicaciones, el open-source ahora es suficientemente bueno.
La conclusión
Kandinsky 5.0 puede no liderar todos los benchmarks, pero tiene éxito donde más importa: ejecutar generación de video real en hardware que personas reales poseen, bajo una licencia que permite uso comercial real. En la carrera por democratizar el video IA, el equipo ruso acaba de mover la línea de meta más cerca.
Para desarrolladores que exploran generación de video open-source, Kandinsky 5.0 merece un lugar en tu lista corta.
¿Te resultó útil este artículo?

Alexis
Ingeniero de IAIngeniero de IA de Lausana que combina profundidad investigadora con innovación práctica. Divide su tiempo entre arquitecturas de modelos y picos alpinos.
Artículos relacionados
Continúa explorando con estos artículos relacionados

La revolución del video IA open-source: ¿pueden las GPUs consumer competir con los gigantes tecnológicos?
ByteDance y Tencent acaban de lanzar modelos de video open-source que funcionan en hardware consumer. Esto lo cambia todo para los creadores independientes.

CraftStory Model 2.0: Cómo la Difusión Bidireccional Desbloquea Videos de IA de 5 Minutos
Mientras Sora 2 se limita a 25 segundos, CraftStory acaba de lanzar un sistema que genera videos coherentes de 5 minutos. ¿El secreto? Ejecutar múltiples motores de difusión en paralelo con restricciones bidireccionales.

TurboDiffusion: El Avance en Generación de Video con IA en Tiempo Real
ShengShu Technology y la Universidad de Tsinghua presentan TurboDiffusion, logrando una generación de video con IA 100-200 veces más rápida e inaugurando la era de la creación en tiempo real.