ByteDance Vidi2 : L'IA qui comprend la vidéo comme un monteur
ByteDance vient de publier Vidi2 en open source, un modèle de 12 milliards de paramètres qui comprend le contenu vidéo suffisamment bien pour monter automatiquement des heures de séquences en clips soignés. Il alimente déjà la fonction Smart Split de TikTok.

Tandis que tout le monde est obsédé par la génération vidéo, ByteDance a discrètement résolu un problème différent : faire comprendre la vidéo à l'IA comme un monteur expérimenté. Vidi2 peut visionner des heures de séquences brutes et extraire exactement ce qui compte.
Le problème dont personne ne parle
Nous avons maintenant d'incroyables générateurs vidéo IA. Runway Gen-4.5 domine les classements de qualité. Kling O1 génère de l'audio synchronisé. Mais voici le secret inavouable de la production vidéo : la majeure partie du temps est consacrée au montage, pas à la création.
Un vidéaste de mariage filme 8 heures de séquences pour un récapitulatif de 5 minutes. Un créateur de contenu enregistre 45 minutes pour faire un TikTok de 60 secondes. Une équipe d'entreprise a 200 heures de vidéos de formation enfouies dans SharePoint.
La génération vidéo fait les gros titres. La compréhension vidéo fait le vrai travail.
Vidi2 comble cette lacune. Ce n'est pas un énième générateur. C'est une IA qui regarde la vidéo, comprend ce qui se passe et vous aide à travailler avec ce contenu à grande échelle.
Ce que fait réellement Vidi2
ByteDance décrit Vidi2 comme un "grand modèle multimodal pour la compréhension et la création vidéo". Le modèle de 12 milliards de paramètres excelle dans :
Ancrage spatio-temporel
Trouvez n'importe quel objet dans une vidéo et suivez-le dans le temps. Pas seulement "il y a un chat à 0:32" mais "le chat entre à 0:32, se déplace vers le canapé à 0:45 et sort du cadre à 1:12".
Montage intelligent
Analysez les séquences et suggérez des coupures basées sur le contenu. Trouvez les meilleurs moments, identifiez les limites de scène, comprenez le rythme.
Analyse de contenu
Décrivez ce qui se passe dans la vidéo avec suffisamment de détails pour être utile. Pas "deux personnes qui parlent" mais "segment d'interview, invité expliquant les fonctionnalités du produit, moment d'engagement élevé à 3:45".
Suivi d'objets
Suivez les objets comme des "tubes" continus à travers la vidéo, même lorsqu'ils sortent et rentrent dans le cadre. Cela permet une sélection précise pour les effets, la suppression ou l'emphase.
L'innovation technique : l'ancrage spatio-temporel
L'IA vidéo précédente fonctionnait en deux dimensions : l'espace (ce qui est dans cette image) ou le temps (quand quelque chose se produit). Vidi2 combine les deux dans ce que ByteDance appelle "l'ancrage spatio-temporel" (STG).
Approche traditionnelle :
- Spatial : "La voiture est aux coordonnées de pixels (450, 320)"
- Temporel : "Une voiture apparaît à l'horodatage 0:15"
- Résultat : informations déconnectées nécessitant une corrélation manuelle
Vidi2 STG :
- Combiné : "La voiture rouge est à (450, 320) à 0:15, se déplace à (890, 340) à 0:18, sort à droite à 0:22"
- Résultat : trajectoire complète de l'objet dans l'espace et le temps
Cela compte car les tâches de montage réelles nécessitent les deux dimensions. "Supprimer la perche du micro" doit savoir où elle apparaît (spatial) et pendant combien de temps (temporel). Vidi2 gère cela comme une seule requête.
Benchmarks : surpasser les géants
Voici où cela devient intéressant. Sur le benchmark VUE-STG de ByteDance pour l'ancrage spatio-temporel, Vidi2 surpasse à la fois Gemini 2.0 Flash et GPT-4o, bien qu'ayant moins de paramètres que les deux.
Une mise en garde : ces benchmarks ont été créés par ByteDance. Une vérification indépendante sur des benchmarks tiers renforcerait ces affirmations. Cela dit, l'approche architecturale spécialisée est solide.
Les résultats du benchmark suggèrent que la compréhension vidéo bénéficie davantage d'une conception spécialisée que d'une échelle brute. Un modèle construit pour la vidéo dès le départ peut surpasser de plus grands modèles à usage général qui traitent la vidéo comme une extension de la compréhension d'image.
Déjà en production : TikTok Smart Split
Ce n'est pas du vaporware. Vidi2 alimente la fonction "Smart Split" de TikTok, qui :
- ✓Extrait automatiquement les moments forts de longues vidéos
- ✓Génère des sous-titres synchronisés avec la parole
- ✓Reconstruit la mise en page pour différents rapports d'aspect
- ✓Identifie les points de coupe optimaux basés sur le contenu
Des millions de créateurs utilisent Smart Split quotidiennement. Le modèle est éprouvé à grande échelle, pas théorique.
Open source : exécutez-le vous-même
ByteDance a publié Vidi2 sur GitHub sous une licence CC BY-NC 4.0. Cela signifie gratuit pour la recherche, l'éducation et les projets personnels, mais l'utilisation commerciale nécessite une licence séparée. Les implications :
Pour les développeurs :
- Construire des pipelines d'analyse vidéo personnalisés
- Intégrer la compréhension dans les outils existants
- Affiner pour des domaines spécifiques
- Pas de coûts d'API à grande échelle
Pour les entreprises :
- Traiter les séquences sensibles localement
- Construire des workflows de montage propriétaires
- Éviter le verrouillage des fournisseurs
- Personnaliser pour les types de contenu internes
La publication open source suit un schéma que nous avons vu avec LTX Video et d'autres laboratoires d'IA chinois : publier des modèles puissants ouvertement tandis que les concurrents occidentaux gardent les leurs propriétaires.
Applications pratiques
Permettez-moi de vous présenter quelques workflows réels que Vidi2 permet :
Réutilisation de contenu
Entrée : enregistrement de podcast de 2 heures Sortie : 10 courts clips des meilleurs moments, chacun avec des coupes intro/outro appropriées
Le modèle identifie les moments engageants, trouve les points de coupe naturels et extrait des clips qui fonctionnent comme contenu autonome.
Gestion de vidéos de formation
Entrée : 500 heures de séquences de formation d'entreprise Requête : "Trouvez tous les segments expliquant le nouveau workflow CRM"
Au lieu d'un défilement manuel ou de métadonnées peu fiables, Vidi2 regarde et comprend réellement le contenu.
Moments forts sportifs
Entrée : enregistrement de match complet Sortie : vidéo récapitulative avec tous les moments de score, actions serrées et célébrations
Le modèle comprend suffisamment bien le contexte sportif pour identifier les moments significatifs, pas seulement le mouvement.
Examen de surveillance
Entrée : 24 heures de séquences de sécurité Requête : "Trouvez toutes les instances de personnes entrant par la porte latérale après 18h"
L'ancrage spatio-temporel signifie des réponses précises avec des horodatages et emplacements exacts.
Comment il se compare aux modèles de génération
- Fonctionne avec les séquences existantes
- Économise du temps de montage, pas du temps de génération
- S'adapte à d'énormes bibliothèques vidéo
- Aucun prompting créatif requis
- Pratique pour l'entreprise immédiatement
- Crée du nouveau contenu à partir de rien
- Outil d'expression créative
- Applications marketing et publicitaires
- Qualité croissante rapidement
- Passionnant mais cas d'usage différent
Ce ne sont pas des technologies concurrentes. Elles résolvent des problèmes différents. Un workflow vidéo IA complet a besoin des deux : génération pour créer du nouveau contenu, compréhension pour travailler avec du contenu existant.
La vue d'ensemble
La compréhension vidéo est là où l'IA passe de "démo impressionnante" à "outil quotidien". La génération attire l'attention. La compréhension fait le travail.
Considérez ce que cela permet :
- Chaque entreprise a du contenu vidéo piégé dans les archives
- Chaque créateur passe plus de temps à monter qu'à filmer
- Chaque plateforme a besoin d'une meilleure modération et découverte de contenu
- Chaque chercheur a des séquences qu'il ne peut pas analyser efficacement
Vidi2 aborde tous ces points. La publication open source signifie que ces capacités sont maintenant accessibles à quiconque dispose d'une puissance de calcul suffisante.
Démarrage
Le modèle est disponible sur GitHub avec documentation et démos. Exigences :
- GPU NVIDIA avec au moins 24 Go de VRAM pour le modèle complet
- Versions quantifiées disponibles pour des GPU plus petits
- Python 3.10+ avec PyTorch 2.0+
Démarrage rapide :
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"La documentation est principalement en anglais bien que ByteDance soit une entreprise chinoise, reflétant le public cible mondial.
Ce que cela signifie pour l'industrie
Le paysage vidéo IA a maintenant deux pistes distinctes :
| Piste | Leaders | Focus | Valeur |
|---|---|---|---|
| Génération | Runway, Sora, Veo, Kling | Créer une nouvelle vidéo | Expression créative |
| Compréhension | Vidi2, (autres émergents) | Analyser la vidéo existante | Productivité |
Les deux mûriront. Les deux s'intégreront. La pile vidéo IA complète de 2026 générera, montera et comprendra de manière transparente.
Pour l'instant, Vidi2 représente l'option open source la plus capable pour la compréhension vidéo. Si vous avez des séquences à analyser, du montage à automatiser ou du contenu à organiser, c'est le modèle à explorer.
Mon avis
J'ai passé des années à construire des pipelines de traitement vidéo. L'avant et l'après avec des modèles comme Vidi2 est saisissant. Les tâches qui nécessitaient des piles de vision par ordinateur personnalisées, une annotation manuelle et des heuristiques fragiles peuvent maintenant être résolues avec un prompt.
Les meilleurs outils d'IA ne remplacent pas le jugement humain. Ils éliminent le travail fastidieux qui empêche les humains d'appliquer leur jugement à grande échelle.
Vidi2 ne remplace pas les monteurs. Il donne aux monteurs des capacités qui étaient auparavant impossibles à grande échelle. Et avec un accès ouvert (pour usage non commercial), ces capacités sont disponibles pour quiconque est prêt à mettre en place l'infrastructure.
L'avenir de la vidéo n'est pas seulement la génération. C'est la compréhension. Et cet avenir est maintenant open source.
Sources
Cet article vous a-t-il été utile ?

Damien
Développeur IADéveloppeur IA de Lyon qui adore transformer des concepts ML complexes en recettes simples. Quand il ne débogue pas des modèles, vous le trouverez en train de faire du vélo dans la vallée du Rhône.
Articles connexes
Continuez à explorer avec ces articles similaires

ByteDance Seedance 1.5 Pro : le modèle qui génère audio et vidéo ensemble
ByteDance publie Seedance 1.5 Pro avec génération audio-visuelle native, contrôles de caméra de qualité cinéma et synchronisation labiale multilingue. Disponible gratuitement sur CapCut.

Pika 2.5 : Démocratiser la Vidéo IA par la Rapidité, le Prix et les Outils Créatifs
Pika Labs dévoile la version 2.5, alliant génération accélérée, physique améliorée et outils créatifs tels que Pikaframes et Pikaffects pour rendre la vidéo IA accessible à tous.

Kandinsky 5.0 : La réponse open-source russe à la génération vidéo par IA
Kandinsky 5.0 propose la génération de vidéos de 10 secondes sur des GPU grand public avec une licence Apache 2.0. Nous explorons comment l'attention NABLA et le flow matching rendent cela possible.