Meta Pixel
AlexisAlexis
7 min read
1310 palabras

Kandinsky 5.0: La respuesta open-source de Rusia a la generación de video por IA

Kandinsky 5.0 trae la generación de videos de 10 segundos a GPUs de consumo con licencia Apache 2.0. Exploramos cómo la atención NABLA y el flow matching hacen esto posible.

Kandinsky 5.0: La respuesta open-source de Rusia a la generación de video por IA
La geografía de la innovación en IA continúa transformándose. Mientras los laboratorios americanos persiguen modelos cada vez más grandes y las empresas chinas dominan las clasificaciones open-source, un equipo ruso ha lanzado discretamente lo que podría ser el generador de video IA más accesible hasta la fecha: Kandinsky 5.0.

El panorama del video open-source cambia

Cuando ByteDance liberó como open-source su modelo de comprensión de video y Tencent lanzó HunyuanVideo, vimos los primeros indicios de un cambio. Ahora Kandinsky Lab, respaldado por Sberbank, ha lanzado una familia completa de modelos que cualquiera puede ejecutar, modificar y comercializar bajo la licencia Apache 2.0.

10s
Duración del video
12GB
VRAM mínima
Apache 2.0
Licencia

Esto no es una vista previa de investigación ni una API restringida. Los pesos completos, el código de entrenamiento y el pipeline de inferencia están disponibles en GitHub y Hugging Face.

La familia de modelos

💡

Para contexto sobre arquitecturas de difusión, consulta nuestro análisis profundo sobre transformadores de difusión.

Kandinsky 5.0 no es un modelo único, sino una familia de tres:

Video Lite (2B parámetros)

La opción ligera para hardware de consumo. Genera videos de 5 a 10 segundos a resolución 768×512, 24 fps. Funciona en 12GB de VRAM con descarga de memoria. La variante destilada de 16 pasos produce un clip de 5 segundos en 35 a 60 segundos en una H100.

Video Pro (19B parámetros)

El modelo completo para máxima calidad. Genera video HD a 1280×768, 24 fps. Requiere GPUs de clase datacenter pero ofrece resultados competitivos con alternativas de código cerrado.

Un modelo Image Lite de 6B parámetros completa la familia para generación de imágenes estáticas a resolución 1280×768 o 1024×1024.

Arquitectura técnica

Las decisiones de ingeniería en Kandinsky 5.0 revelan un equipo enfocado en el despliegue práctico en lugar de perseguir benchmarks.

Fundamento: Flow Matching sobre Difusión

Los modelos de difusión tradicionales aprenden a revertir un proceso de adición de ruido paso a paso. El flow matching adopta un enfoque diferente: aprende un camino directo desde el ruido hasta la imagen a través de un campo de flujo continuo. Las ventajas son significativas:

Ventajas del Flow Matching
Mejor estabilidad de entrenamiento, convergencia más rápida y calidad de generación más predecible en tiempo de inferencia.
Compensaciones
Requiere diseño cuidadoso del camino. El equipo usa caminos de transporte óptimo que minimizan la distancia entre distribuciones de ruido y objetivo.

NABLA: Haciendo posibles los videos largos

La innovación real es NABLA, abreviatura de Neighborhood Adaptive Block-Level Attention. La atención transformer estándar escala cuadráticamente con la longitud de secuencia. Para video, esto es catastrófico. Un clip de 10 segundos a 24 fps contiene 240 cuadros, cada uno con miles de parches espaciales. La atención completa sobre todos ellos es computacionalmente intratable.

NABLA aborda esto mediante patrones de atención dispersa. En lugar de atender a cada parche en cada cuadro, enfoca el cómputo en:

  1. Vecindarios espaciales locales dentro de cada cuadro
  2. Vecinos temporales a través de cuadros adyacentes
  3. Anclajes globales aprendidos para coherencia de largo alcance

El resultado es un escalado casi lineal con la longitud del video en lugar de cuadrático. Esto es lo que hace factible la generación de 10 segundos en hardware de consumo.

💡

Para comparación, la mayoría de los modelos competidores tienen dificultades con videos más largos de 5 segundos sin hardware especializado.

Construyendo sobre HunyuanVideo

En lugar de entrenar todo desde cero, Kandinsky 5.0 adopta el VAE 3D del proyecto HunyuanVideo de Tencent. Este codificador-decodificador maneja la traducción entre el espacio de píxeles y el espacio latente compacto donde opera el proceso de difusión.

La comprensión de texto proviene de Qwen2.5-VL, un modelo de visión-lenguaje, combinado con embeddings CLIP para anclaje semántico. Este enfoque de codificador dual permite al modelo entender tanto el significado literal como el estilo visual implicado por los prompts.

Rendimiento: Dónde se encuentra

El equipo posiciona Video Lite como el mejor rendimiento entre modelos open-source en su clase de parámetros. Los benchmarks muestran:

ModeloParámetrosDuración máxVRAM (5s)
Kandinsky Video Lite2B10 segundos12GB
CogVideoX-2B2B6 segundos16GB
Open-Sora 1.21.1B16 segundos18GB

El requisito de 12GB de VRAM abre la puerta al despliegue en tarjetas RTX 3090 y 4090 de consumo, un hito significativo de accesibilidad.

Las comparaciones de calidad son más difíciles de cuantificar. Los informes de usuarios sugieren que Kandinsky produce movimiento más consistente que CogVideoX, pero queda por detrás de HunyuanVideo en fotorrealismo. El modelo destilado de 16 pasos sacrifica algunos detalles finos por velocidad, una compensación que funciona bien para prototipos pero puede no satisfacer necesidades de producción final.

Ejecutando Kandinsky localmente

El proyecto proporciona nodos de ComfyUI y scripts independientes. Un flujo de trabajo básico de texto a video:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

La descarga de memoria mueve los pesos del modelo entre CPU y GPU durante la inferencia. Esto intercambia velocidad por accesibilidad, permitiendo que modelos más grandes se ejecuten en tarjetas más pequeñas.

La conexión con Sberbank

Kandinsky Lab opera bajo Sber AI, la división de inteligencia artificial de Sberbank, el banco más grande de Rusia. Este respaldo explica los recursos sustanciales detrás del proyecto: entrenamiento multi-etapa en datos propietarios, post-entrenamiento con aprendizaje por refuerzo, y el esfuerzo de ingeniería para liberar como open-source un pipeline de producción completo.

El contexto geopolítico añade complejidad. Los desarrolladores occidentales pueden enfrentar presión institucional para evitar modelos de origen ruso. La licencia Apache 2.0 es legalmente clara, pero las políticas organizacionales varían. Para desarrolladores individuales y estudios más pequeños, el cálculo es más simple: buena tecnología es buena tecnología.

⚠️

Siempre verifica el cumplimiento de licencias y exportaciones para tu jurisdicción y caso de uso específicos.

Aplicaciones prácticas

La duración de 10 segundos y los requisitos de hardware de consumo abren casos de uso específicos:

🎬

Contenido social

Video de formato corto para TikTok, Reels y Shorts. Iteración rápida sin costos de API.
🎨

Visualización de conceptos

Directores y productores pueden hacer prototipos de escenas antes de producción costosa.
🔧

Entrenamiento personalizado

La licencia Apache 2.0 permite ajuste fino en conjuntos de datos propietarios. Construye modelos especializados para tu dominio.
📚

Investigación

Acceso completo a pesos y arquitectura permite el estudio académico de técnicas de generación de video.

Mirando hacia adelante

Kandinsky 5.0 representa una tendencia más amplia: la brecha entre generación de video open-source y de código cerrado se está estrechando. Hace un año, los modelos abiertos producían clips cortos de baja resolución con artefactos obvios. Hoy, un modelo de 2B parámetros en hardware de consumo genera video HD de 10 segundos que habría parecido imposible en 2023.

La carrera no ha terminado. Los líderes de código cerrado como Sora 2 y Runway Gen-4.5 aún lideran en calidad, duración y controlabilidad. Pero el piso está subiendo. Para muchas aplicaciones, el open-source ahora es suficientemente bueno.

La conclusión

Kandinsky 5.0 puede no liderar todos los benchmarks, pero tiene éxito donde más importa: ejecutar generación de video real en hardware que personas reales poseen, bajo una licencia que permite uso comercial real. En la carrera por democratizar el video IA, el equipo ruso acaba de mover la línea de meta más cerca.

Para desarrolladores que exploran generación de video open-source, Kandinsky 5.0 merece un lugar en tu lista corta.

¿Te resultó útil este artículo?

Alexis

Alexis

Ingeniero de IA

Ingeniero de IA de Lausana que combina profundidad investigadora con innovación práctica. Divide su tiempo entre arquitecturas de modelos y picos alpinos.

Artículos relacionados

Continúa explorando con estos artículos relacionados

¿Te gustó este artículo?

Descubre más ideas y mantente al día con nuestro contenido más reciente.

Kandinsky 5.0: La respuesta open-source de Rusia a la generación de video por IA