Kandinsky 5.0 : La réponse open-source russe à la génération vidéo par IA
Kandinsky 5.0 propose la génération de vidéos de 10 secondes sur des GPU grand public avec une licence Apache 2.0. Nous explorons comment l'attention NABLA et le flow matching rendent cela possible.

Le paysage vidéo open-source se transforme
Lorsque ByteDance a rendu open-source son modèle de compréhension vidéo et que Tencent a publié HunyuanVideo, nous avons observé les premiers signes d'un changement. Aujourd'hui, Kandinsky Lab, soutenu par Sberbank, a publié une famille complète de modèles que chacun peut exécuter, modifier et commercialiser sous licence Apache 2.0.
Il ne s'agit pas d'un aperçu de recherche ni d'une API restreinte. Les poids complets, le code d'entraînement et le pipeline d'inférence sont disponibles sur GitHub et Hugging Face.
La famille de modèles
Pour mieux comprendre les architectures de diffusion, consultez notre analyse approfondie des transformateurs de diffusion.
Kandinsky 5.0 n'est pas un modèle unique, mais une famille de trois modèles :
Video Lite (2B paramètres)
L'option légère pour le matériel grand public. Génère des vidéos de 5 à 10 secondes en résolution 768×512 à 24 fps. Fonctionne sur 12GB de VRAM avec déchargement mémoire. La variante distillée en 16 étapes produit un clip de 5 secondes en 35 à 60 secondes sur une H100.
Video Pro (19B paramètres)
Le modèle complet pour une qualité maximale. Produit des vidéos HD à 1280×768, 24 fps. Nécessite des GPU de classe datacenter mais offre des résultats comparables aux alternatives propriétaires.
Un modèle Image Lite de 6B paramètres complète la famille pour la génération d'images fixes en résolution 1280×768 ou 1024×1024.
Architecture technique
Les choix techniques dans Kandinsky 5.0 révèlent une équipe concentrée sur le déploiement pratique plutôt que sur la course aux benchmarks.
Fondation : Flow Matching plutôt que Diffusion
Les modèles de diffusion traditionnels apprennent à inverser un processus d'ajout de bruit étape par étape. Le flow matching adopte une approche différente : il apprend un chemin direct du bruit vers l'image à travers un champ de flux continu. Les avantages sont significatifs :
NABLA : Rendre possibles les vidéos longues
La véritable innovation est NABLA, abréviation de Neighborhood Adaptive Block-Level Attention. L'attention transformer standard évolue de manière quadratique avec la longueur de séquence. Pour la vidéo, c'est catastrophique. Un clip de 10 secondes à 24 fps contient 240 images, chacune avec des milliers de patches spatiaux. L'attention complète sur tous ces éléments est calculatoirement impossible.
NABLA résout cela grâce à des motifs d'attention éparse. Plutôt que de traiter chaque patch dans chaque image, il concentre le calcul sur :
- Les voisinages spatiaux locaux au sein de chaque image
- Les voisins temporels à travers les images adjacentes
- Des ancres globales apprises pour la cohérence à longue portée
Le résultat est une évolution quasi linéaire avec la longueur vidéo au lieu de quadratique. C'est ce qui rend la génération de 10 secondes réalisable sur du matériel grand public.
En comparaison, la plupart des modèles concurrents peinent avec des vidéos de plus de 5 secondes sans matériel spécialisé.
S'appuyer sur HunyuanVideo
Plutôt que de tout entraîner depuis zéro, Kandinsky 5.0 adopte le VAE 3D du projet HunyuanVideo de Tencent. Cet encodeur-décodeur gère la traduction entre l'espace pixel et l'espace latent compact où s'opère le processus de diffusion.
La compréhension textuelle provient de Qwen2.5-VL, un modèle vision-langage, combiné avec des embeddings CLIP pour l'ancrage sémantique. Cette approche à double encodeur permet au modèle de comprendre à la fois le sens littéral et le style visuel impliqués par les prompts.
Performance : Positionnement actuel
L'équipe positionne Video Lite comme le meilleur performeur parmi les modèles open-source de sa classe paramétrique. Les benchmarks montrent :
| Modèle | Paramètres | Durée max | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 secondes | 12GB |
| CogVideoX-2B | 2B | 6 secondes | 16GB |
| Open-Sora 1.2 | 1.1B | 16 secondes | 18GB |
L'exigence de 12GB de VRAM ouvre la porte au déploiement sur des cartes RTX 3090 et 4090 grand public, un jalon d'accessibilité important.
Les comparaisons de qualité sont plus difficiles à quantifier. Les retours utilisateurs suggèrent que Kandinsky produit un mouvement plus cohérent que CogVideoX, mais reste en retrait d'HunyuanVideo en photoréalisme. Le modèle distillé en 16 étapes sacrifie certains détails fins pour la vitesse, un compromis qui fonctionne bien pour le prototypage mais peut ne pas satisfaire les besoins de production finale.
Exécuter Kandinsky localement
Le projet fournit des nodes ComfyUI et des scripts autonomes. Un workflow texte-vers-vidéo de base :
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Le déchargement mémoire déplace les poids du modèle entre CPU et GPU pendant l'inférence. Cela échange la vitesse contre l'accessibilité, permettant aux modèles plus grands de fonctionner sur des cartes plus petites.
Le lien avec Sberbank
Kandinsky Lab opère sous Sber AI, la division d'intelligence artificielle de Sberbank, la plus grande banque de Russie. Ce soutien explique les ressources substantielles derrière le projet : entraînement multi-étapes sur données propriétaires, post-entraînement par apprentissage par renforcement, et l'effort technique pour rendre open-source un pipeline de production complet.
Le contexte géopolitique ajoute de la complexité. Les développeurs occidentaux peuvent faire face à une pression institutionnelle pour éviter les modèles d'origine russe. La licence Apache 2.0 est juridiquement claire, mais les politiques organisationnelles varient. Pour les développeurs individuels et les petits studios, le calcul est plus simple : une bonne technologie reste une bonne technologie.
Vérifiez toujours les exigences de licence et de conformité à l'exportation pour votre juridiction et cas d'usage spécifiques.
Applications pratiques
La durée de 10 secondes et les exigences matérielles grand public ouvrent des cas d'usage spécifiques :
Contenu social
Visualisation de concepts
Entraînement personnalisé
Recherche
Perspectives d'avenir
Kandinsky 5.0 représente une tendance plus large : l'écart entre la génération vidéo open-source et propriétaire se réduit. Il y a un an, les modèles ouverts produisaient des clips courts, en basse résolution, avec des artefacts évidents. Aujourd'hui, un modèle de 2B paramètres sur matériel grand public génère des vidéos HD de 10 secondes qui auraient semblé impossibles en 2023.
La course n'est pas terminée. Les leaders propriétaires comme Sora 2 et Runway Gen-4.5 conservent leur avance en qualité, durée et contrôlabilité. Mais le niveau plancher s'élève. Pour de nombreuses applications, l'open-source est désormais suffisant.
Ressources
Ce qu'il faut retenir
Kandinsky 5.0 ne domine peut-être pas tous les benchmarks, mais il réussit là où cela compte le plus : exécuter une véritable génération vidéo sur du matériel que de vraies personnes possèdent, sous une licence qui autorise un usage commercial réel. Dans la course à la démocratisation de la vidéo IA, l'équipe russe vient de rapprocher la ligne d'arrivée.
Pour les développeurs explorant la génération vidéo open-source, Kandinsky 5.0 mérite une place sur votre liste restreinte.
Cet article vous a-t-il été utile ?

Alexis
Ingénieur IAIngénieur IA de Lausanne alliant profondeur de recherche et innovation pratique. Partage son temps entre architectures de modèles et sommets alpins.
Articles connexes
Continuez à explorer avec ces articles similaires

La révolution de la vidéo IA open-source : les GPU grand public peuvent-ils rivaliser avec les géants de la tech ?
ByteDance et Tencent viennent de publier des modèles vidéo open-source qui fonctionnent sur du matériel grand public. Cela change tout pour les créateurs indépendants.

CraftStory Model 2.0 : Comment la Diffusion Bidirectionnelle Déverrouille les Vidéos IA de 5 Minutes
Alors que Sora 2 plafonne à 25 secondes, CraftStory vient de dévoiler un système qui génère des vidéos cohérentes de 5 minutes. Le secret ? L'exécution de plusieurs moteurs de diffusion en parallèle avec des contraintes bidirectionnelles.

MiniMax Hailuo 02 : Le modèle IA vidéo chinois abordable qui défie les géants
MiniMax Hailuo 02 offre une qualité vidéo compétitive à une fraction du coût, avec 10 vidéos au prix d'un clip Veo 3. Découvrez ce qui rend ce challenger chinois si pertinent.