World Labs Marble : La Vision de Fei-Fei Li pour l'Intelligence Spatiale
Fei-Fei Li, pionnière de l'IA, lance Marble, une plateforme commerciale qui génère des mondes 3D explorables à partir de texte et d'images, marquant une nouvelle frontière dans l'IA spatiale.

D'ImageNet aux Modèles de Monde
Pour comprendre comment les modèles de monde s'inscrivent dans l'évolution de la vidéo IA, consultez notre panorama des modèles de monde comme prochaine frontière.
Fei-Fei Li a révolutionné la vision par ordinateur avec ImageNet, le jeu de données qui a rendu possible l'apprentissage profond moderne. Désormais, après un an de construction de World Labs avec 230 millions de dollars de financement, elle lance Marble, le premier produit commercial de l'entreprise.
La thèse est simple : l'IA a conquis le texte, puis les images, puis la vidéo. La prochaine frontière est l'intelligence spatiale, la capacité de percevoir, générer et interagir avec des mondes 3D.
Ce que Fait Marble
Marble génère des environnements 3D persistants et téléchargeables à partir de plusieurs types d'entrées :
- ✓Prompts textuels
- ✓Images uniques
- ✓Vidéos
- ✓Panoramas
- ✓Layouts 3D
Contrairement aux modèles de monde en temps réel de concurrents comme Oasis de Decart ou Genie de Google, Marble crée des mondes stables avec un morphing minimal. Vous générez une fois, puis explorez librement sans que l'IA "oublie" ce qu'elle a créé.
L'Éditeur Chisel
Édition 3D Native IA
Chisel découple la structure spatiale du style visuel. Esquissez d'abord votre agencement, puis appliquez des directives de style basées sur du texte.
Cette approche hybride distingue Marble des modèles texte-vers-scène. Au lieu d'espérer que l'IA comprenne votre intention spatiale, vous définissez explicitement la géométrie. L'IA gère l'esthétique, les matériaux et l'éclairage.
Imaginez cela comme dessiner un plan d'étage avant de demander à un architecte d'intérieur de décorer. Le contrôle des relations spatiales reste le vôtre.
Formats d'Export et Compatibilité
Les mondes générés s'exportent en trois formats :
| Format | Cas d'Usage |
|---|---|
| Gaussian Splats | Rendu temps réel, vues nouvelles |
| Maillages | Moteurs de jeu, intégration CAO |
| Vidéos | Création de contenu, pré-visualisation |
Tous les mondes Marble sont compatibles VR avec les casques Vision Pro et Quest 3 dès le départ.
Structure Tarifaire
World Labs propose quatre paliers :
| Palier | Prix | Générations | Fonctionnalités Clés |
|---|---|---|---|
| Gratuit | 0$ | 4/mois | Entrée texte, image ou panorama |
| Standard | 20$/mois | 12/mois | Entrée multi-images/vidéo, édition avancée |
| Pro | 35$/mois | 25/mois | Expansion de scène, droits commerciaux |
| Max | 95$/mois | 75/mois | Toutes fonctionnalités, générations maximales |
Le palier gratuit vous permet d'évaluer la technologie. Pour un travail de production nécessitant des droits commerciaux, le palier Pro à 35$/mois représente un prix d'entrée raisonnable pour une capacité aussi nouvelle.
Pourquoi l'Intelligence Spatiale Importe
"L'intelligence spatiale est le défi déterminant de la prochaine décennie." - Fei-Fei Li
Li soutient que l'IA actuelle a une limitation fondamentale : elle raisonne mal sur l'espace 3D. Les modèles de langage hallucinent la physique. Les modèles vidéo créent des géométries impossibles. Les générateurs d'images peinent avec des relations spatiales cohérentes.
Pour la robotique, cela compte énormément. Un robot naviguant dans une cuisine a besoin de compréhension spatiale, pas de prédiction d'images. Pour les effets visuels, les réalisateurs ont besoin d'environnements explorables, pas de trajectoires de caméra fixes.
Cas d'Usage en Formation
Jeux Vidéo Générez des environnements d'ambiance et des espaces d'arrière-plan. Les développeurs indépendants peuvent créer des zones d'exploration qui nécessiteraient des mois de production artistique traditionnelle.
Effets Visuels La pré-visualisation devient interactive. Bloquez une scène spatialement, puis explorez les angles de caméra avant de vous engager sur des plans.
Architecture Convertissez des plans d'étage en parcours explorables. Les clients expérimentent les espaces avant le début de la construction.
Éducation Li envisage des étudiants marchant à l'intérieur d'une cellule, des chirurgiens pratiquant dans des simulations anatomiques.
Expansion de Monde et Mode Composer
Deux fonctionnalités abordent les limitations d'échelle :
L'Expansion de Monde vous permet d'étendre un monde généré une fois, en ajoutant des détails aux régions périphériques où la qualité se dégrade typiquement. Cela repousse les limites de l'espace explorable au-delà des limites initiales de génération.
Le Mode Composer combine plusieurs mondes en environnements plus vastes. Générez des pièces individuelles, puis assemblez-les en un bâtiment complet.
Ces outils reconnaissent les contraintes actuelles tout en fournissant des solutions de contournement pratiques.
Le Paysage Concurrentiel
Marble entre dans un domaine encombré :
| Produit | Approche | Différenciateur |
|---|---|---|
| Decart Oasis | Génération de jeu temps réel | Interactif, mais les mondes changent pendant l'exploration |
| Google Genie | Génération de monde de jeu | Prédiction d'images sans vrai 3D |
| Odyssey | Modèles de monde persistants | Focus entreprise |
| World Labs Marble | Génération 3D statique | Téléchargeable, éditable, compatible VR |
Le compromis est clair. Les modèles temps réel comme Oasis offrent l'immédiateté mais l'instabilité. Marble privilégie la persistance et l'éditabilité sur l'interactivité.
Connexion à la Génération Vidéo
Pour un contexte sur les architectures de diffusion utilisées dans l'IA spatiale, consultez notre aperçu technique des transformateurs de diffusion.
Comment la génération de mondes 3D se rapporte-t-elle à la vidéo ? Ils partagent des fondations mathématiques dans les modèles de diffusion, mais résolvent des problèmes différents.
La génération vidéo crée des séquences temporelles, image après image. L'IA spatiale crée des représentations géométriques, surfaces et volumes. La vidéo répond à "que se passe-t-il ensuite ?" L'IA spatiale répond à "qu'existe-t-il ici ?"
Le point de convergence : la vidéo navigable. Générez un monde 3D, puis rendez la vidéo en vous déplaçant à travers. Cette approche offre un contrôle de caméra impossible avec la génération vidéo pure.
Limitations à Considérer
Marble n'est pas une solution complète :
- ○Pas de personnages animés ou d'éléments dynamiques
- ○Les plafonds de génération peuvent limiter les flux de production
- ○La dégradation des bords nécessite des passes d'expansion
- ○Environnements statiques uniquement
Pour du contenu animé, vous avez encore besoin de modèles de génération vidéo. Marble excelle dans les environnements et les espaces, pas dans les acteurs ou les actions.
La Vision d'Ensemble
Fei-Fei Li voit l'intelligence spatiale comme essentielle pour le progrès de l'IA :
"Je pense que nous avons tous la responsabilité de conduire l'IA vers un meilleur état alors qu'elle devient plus puissante. Nous devrions tous vouloir que l'humanité prévale et prospère."
Sa vision s'étend au-delà du divertissement. Des simulations médicales où les étudiants explorent l'anatomie. Des visualisations scientifiques où les chercheurs naviguent dans les structures moléculaires. Des environnements d'entraînement robotique générés sur demande.
Marble est la première étape, une preuve de concept commerciale. La recherche continue vers une génération de monde plus dynamique, interactive et physiquement précise.
Pour Commencer
World Labs propose un palier gratuit avec 4 générations par mois. Suffisant pour évaluer la technologie et comprendre ses contraintes.
Pour les créateurs travaillant déjà en 3D, la capacité d'export de maillage s'intègre avec les pipelines existants. Pour les producteurs vidéo, l'export vidéo fournit des capacités de pré-visualisation indisponibles ailleurs.
Lecture connexe : Notre guide sur la cohérence des personnages en vidéo IA couvre les techniques pour maintenir la cohérence dans le contenu généré, un défi que Marble aborde par la représentation 3D persistante.
La transition de la génération 2D à la création de mondes 3D représente un changement fondamental dans ce que l'IA peut produire. Marble rend ce changement accessible.
Cet article vous a-t-il été utile ?

Alexis
Ingénieur IAIngénieur IA de Lausanne alliant profondeur de recherche et innovation pratique. Partage son temps entre architectures de modèles et sommets alpins.
Articles connexes
Continuez à explorer avec ces articles similaires

Runway GWM-1: Le modèle mondial général qui simule la réalité en temps réel
Le GWM-1 de Runway marque un changement de paradigme, passant de la génération de vidéos à la simulation de mondes. Découvrez comment ce modèle autorégressif crée des environnements explorables, des avatars photoréalistes et des simulations d'entraînement robotique.

YouTube intègre Veo 3 Fast aux Shorts : génération vidéo IA gratuite pour 2,5 milliards d'utilisateurs
Google intègre son modèle Veo 3 Fast directement dans YouTube Shorts, offrant la génération vidéo par texte avec audio aux créateurs du monde entier, gratuitement. Voici ce que cela signifie pour la plateforme et l'accessibilité de la vidéo IA.

Modèles de langage vidéo : la prochaine frontière après les LLM et les agents IA
Les modèles du monde apprennent à l'IA à comprendre la réalité physique, permettant aux robots de planifier leurs actions et de simuler les résultats avant d'actionner le moindre moteur.