Kandinsky 5.0 : La réponse open-source russe à la génération vidéo par IA

La géographie de l'innovation en IA continue d'évoluer. Tandis que les laboratoires américains poursuivent des modèles toujours plus imposants et que les entreprises chinoises dominent le classement open-source, une équipe russe a discrètement publié ce qui pourrait être le générateur vidéo IA le plus accessible à ce jour : Kandinsky 5.0.

Le paysage vidéo open-source se transforme

Lorsque ByteDance a rendu open-source son modèle de compréhension vidéo et que Tencent a publié HunyuanVideo, nous avons observé les premiers signes d'un changement. Aujourd'hui, Kandinsky Lab, soutenu par Sberbank, a publié une famille complète de modèles que chacun peut exécuter, modifier et commercialiser sous licence Apache 2.0.

10s

Durée vidéo

12GB

VRAM min

Apache 2.0

Licence

Il ne s'agit pas d'un aperçu de recherche ni d'une API restreinte. Les poids complets, le code d'entraînement et le pipeline d'inférence sont disponibles sur GitHub et Hugging Face.

La famille de modèles

💡

Pour mieux comprendre les architectures de diffusion, consultez notre analyse approfondie des transformateurs de diffusion.

Kandinsky 5.0 n'est pas un modèle unique, mais une famille de trois modèles :

Video Lite (2B paramètres)

L'option légère pour le matériel grand public. Génère des vidéos de 5 à 10 secondes en résolution 768×512 à 24 fps. Fonctionne sur 12GB de VRAM avec déchargement mémoire. La variante distillée en 16 étapes produit un clip de 5 secondes en 35 à 60 secondes sur une H100.

Video Pro (19B paramètres)

Le modèle complet pour une qualité maximale. Produit des vidéos HD à 1280×768, 24 fps. Nécessite des GPU de classe datacenter mais offre des résultats comparables aux alternatives propriétaires.

Un modèle Image Lite de 6B paramètres complète la famille pour la génération d'images fixes en résolution 1280×768 ou 1024×1024.

Architecture technique

Les choix techniques dans Kandinsky 5.0 révèlent une équipe concentrée sur le déploiement pratique plutôt que sur la course aux benchmarks.

Fondation : Flow Matching plutôt que Diffusion

Les modèles de diffusion traditionnels apprennent à inverser un processus d'ajout de bruit étape par étape. Le flow matching adopte une approche différente : il apprend un chemin direct du bruit vers l'image à travers un champ de flux continu. Les avantages sont significatifs :

✓Avantages du Flow Matching

Meilleure stabilité d'entraînement, convergence plus rapide et qualité de génération plus prévisible lors de l'inférence.

✗Compromis

Nécessite une conception soigneuse des chemins. L'équipe utilise des chemins de transport optimal qui minimisent la distance entre les distributions de bruit et cibles.

NABLA : Rendre possibles les vidéos longues

La véritable innovation est NABLA, abréviation de Neighborhood Adaptive Block-Level Attention. L'attention transformer standard évolue de manière quadratique avec la longueur de séquence. Pour la vidéo, c'est catastrophique. Un clip de 10 secondes à 24 fps contient 240 images, chacune avec des milliers de patches spatiaux. L'attention complète sur tous ces éléments est calculatoirement impossible.

NABLA résout cela grâce à des motifs d'attention éparse. Plutôt que de traiter chaque patch dans chaque image, il concentre le calcul sur :

Les voisinages spatiaux locaux au sein de chaque image
Les voisins temporels à travers les images adjacentes
Des ancres globales apprises pour la cohérence à longue portée

Le résultat est une évolution quasi linéaire avec la longueur vidéo au lieu de quadratique. C'est ce qui rend la génération de 10 secondes réalisable sur du matériel grand public.

💡

En comparaison, la plupart des modèles concurrents peinent avec des vidéos de plus de 5 secondes sans matériel spécialisé.

S'appuyer sur HunyuanVideo

Plutôt que de tout entraîner depuis zéro, Kandinsky 5.0 adopte le VAE 3D du projet HunyuanVideo de Tencent. Cet encodeur-décodeur gère la traduction entre l'espace pixel et l'espace latent compact où s'opère le processus de diffusion.

La compréhension textuelle provient de Qwen2.5-VL, un modèle vision-langage, combiné avec des embeddings CLIP pour l'ancrage sémantique. Cette approche à double encodeur permet au modèle de comprendre à la fois le sens littéral et le style visuel impliqués par les prompts.

Performance : Positionnement actuel

L'équipe positionne Video Lite comme le meilleur performeur parmi les modèles open-source de sa classe paramétrique. Les benchmarks montrent :

Modèle	Paramètres	Durée max	VRAM (5s)
Kandinsky Video Lite	2B	10 secondes	12GB
CogVideoX-2B	2B	6 secondes	16GB
Open-Sora 1.2	1.1B	16 secondes	18GB

L'exigence de 12GB de VRAM ouvre la porte au déploiement sur des cartes RTX 3090 et 4090 grand public, un jalon d'accessibilité important.

Les comparaisons de qualité sont plus difficiles à quantifier. Les retours utilisateurs suggèrent que Kandinsky produit un mouvement plus cohérent que CogVideoX, mais reste en retrait d'HunyuanVideo en photoréalisme. Le modèle distillé en 16 étapes sacrifie certains détails fins pour la vitesse, un compromis qui fonctionne bien pour le prototypage mais peut ne pas satisfaire les besoins de production finale.

Exécuter Kandinsky localement

Le projet fournit des nodes ComfyUI et des scripts autonomes. Un workflow texte-vers-vidéo de base :

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Le déchargement mémoire déplace les poids du modèle entre CPU et GPU pendant l'inférence. Cela échange la vitesse contre l'accessibilité, permettant aux modèles plus grands de fonctionner sur des cartes plus petites.

Le lien avec Sberbank

Kandinsky Lab opère sous Sber AI, la division d'intelligence artificielle de Sberbank, la plus grande banque de Russie. Ce soutien explique les ressources substantielles derrière le projet : entraînement multi-étapes sur données propriétaires, post-entraînement par apprentissage par renforcement, et l'effort technique pour rendre open-source un pipeline de production complet.

Le contexte géopolitique ajoute de la complexité. Les développeurs occidentaux peuvent faire face à une pression institutionnelle pour éviter les modèles d'origine russe. La licence Apache 2.0 est juridiquement claire, mais les politiques organisationnelles varient. Pour les développeurs individuels et les petits studios, le calcul est plus simple : une bonne technologie reste une bonne technologie.

⚠️

Vérifiez toujours les exigences de licence et de conformité à l'exportation pour votre juridiction et cas d'usage spécifiques.

Applications pratiques

La durée de 10 secondes et les exigences matérielles grand public ouvrent des cas d'usage spécifiques :

🎬

Contenu social

Vidéos courtes pour TikTok, Reels et Shorts. Itération rapide sans coûts d'API.

🎨

Visualisation de concepts

Les réalisateurs et producteurs peuvent prototyper des scènes avant une production coûteuse.

🔧

Entraînement personnalisé

La licence Apache 2.0 permet le fine-tuning sur des datasets propriétaires. Créez des modèles spécialisés pour votre domaine.

📚

Recherche

Accès complet aux poids et à l'architecture pour l'étude académique des techniques de génération vidéo.

Perspectives d'avenir

Kandinsky 5.0 représente une tendance plus large : l'écart entre la génération vidéo open-source et propriétaire se réduit. Il y a un an, les modèles ouverts produisaient des clips courts, en basse résolution, avec des artefacts évidents. Aujourd'hui, un modèle de 2B paramètres sur matériel grand public génère des vidéos HD de 10 secondes qui auraient semblé impossibles en 2023.

La course n'est pas terminée. Les leaders propriétaires comme Sora 2 et Runway Gen-4.5 conservent leur avance en qualité, durée et contrôlabilité. Mais le niveau plancher s'élève. Pour de nombreuses applications, l'open-source est désormais suffisant.

Ressources

Ce qu'il faut retenir

Kandinsky 5.0 ne domine peut-être pas tous les benchmarks, mais il réussit là où cela compte le plus : exécuter une véritable génération vidéo sur du matériel que de vraies personnes possèdent, sous une licence qui autorise un usage commercial réel. Dans la course à la démocratisation de la vidéo IA, l'équipe russe vient de rapprocher la ligne d'arrivée.

Pour les développeurs explorant la génération vidéo open-source, Kandinsky 5.0 mérite une place sur votre liste restreinte.