World Labs Marble: Fei-Fei Lis Vision für räumliche Intelligenz
Die KI-Pionierin Fei-Fei Li präsentiert Marble, eine kommerzielle Plattform zur Generierung erkundbarer 3D-Welten aus Text und Bildern. Dies markiert einen neuen Meilenstein in der räumlichen KI.

Von ImageNet zu World Models
Zum Kontext, wie World Models in die Evolution der KI-Videogenerierung einzuordnen sind, siehe unsere Übersicht zu World Models als nächste Grenze.
Fei-Fei Li revolutionierte Computer Vision mit ImageNet, dem Datensatz, der modernes Deep Learning ermöglichte. Nach einem Jahr Aufbau von World Labs mit 230 Millionen Dollar Finanzierung präsentiert sie nun Marble, das erste kommerzielle Produkt des Unternehmens.
Die These ist klar: KI hat Text gemeistert, dann Bilder, dann Video. Die nächste Grenze ist räumliche Intelligenz – die Fähigkeit, 3D-Welten wahrzunehmen, zu generieren und mit ihnen zu interagieren.
Funktionsweise von Marble
Marble generiert persistente, herunterladbare 3D-Umgebungen aus verschiedenen Eingabetypen:
- ✓Text-Prompts
- ✓Einzelbilder
- ✓Videos
- ✓Panoramen
- ✓3D-Layouts
Anders als Echtzeit-World-Models von Wettbewerbern wie Decarts Oasis oder Googles Genie erstellt Marble stabile Welten mit minimaler Verformung. Sie generieren einmal, erkunden dann frei, ohne dass die KI "vergisst", was sie erstellt hat.
Der Chisel-Editor
KI-native 3D-Bearbeitung
Chisel trennt räumliche Struktur von visuellem Stil. Definieren Sie zuerst Ihr Layout, wenden Sie dann textbasierte Stilrichtlinien an.
Dieser hybride Ansatz unterscheidet Marble von Text-zu-Szene-Modellen. Anstatt zu hoffen, dass die KI Ihre räumliche Absicht versteht, definieren Sie die Geometrie explizit. Die KI übernimmt Ästhetik, Materialien und Beleuchtung.
Vergleichbar mit dem Skizzieren eines Grundrisses, bevor Sie einen Innenarchitekten mit der Dekoration beauftragen. Die Kontrolle über räumliche Beziehungen bleibt bei Ihnen.
Exportformate und Kompatibilität
Generierte Welten werden in drei Formaten exportiert:
| Format | Anwendungsfall |
|---|---|
| Gaussian Splats | Echtzeit-Rendering, neue Perspektiven |
| Meshes | Game Engines, CAD-Integration |
| Videos | Content-Erstellung, Pre-Visualisierung |
Alle Marble-Welten sind standardmäßig VR-kompatibel mit Vision Pro und Quest 3 Headsets.
Preisstruktur
World Labs bietet vier Stufen:
| Stufe | Preis | Generierungen | Hauptfunktionen |
|---|---|---|---|
| Free | 0 $ | 4/Monat | Text-, Bild- oder Panorama-Eingabe |
| Standard | 20 $/Monat | 12/Monat | Multi-Bild-/Video-Eingabe, erweiterte Bearbeitung |
| Pro | 35 $/Monat | 25/Monat | Szenenerweiterung, kommerzielle Rechte |
| Max | 95 $/Monat | 75/Monat | Alle Funktionen, maximale Generierungen |
Die kostenlose Stufe ermöglicht die Evaluierung der Technologie. Für Produktionsarbeiten mit kommerziellen Rechten stellt die Pro-Stufe für 35 $/Monat einen angemessenen Einstiegspreis für eine derart neuartige Fähigkeit dar.
Warum räumliche Intelligenz relevant ist
"Räumliche Intelligenz ist die entscheidende Herausforderung des nächsten Jahrzehnts." - Fei-Fei Li
Li argumentiert, dass aktuelle KI eine fundamentale Einschränkung aufweist: Sie verarbeitet 3D-Raum unzureichend. Sprachmodelle halluzinieren Physik. Videomodelle erzeugen unmögliche Geometrien. Bildgeneratoren haben Schwierigkeiten mit konsistenten räumlichen Beziehungen.
Für Robotik ist dies von erheblicher Bedeutung. Ein Roboter, der sich in einer Küche bewegt, benötigt räumliches Verständnis, keine Frame-Vorhersage. Für VFX benötigen Regisseure erkundbare Umgebungen, keine festen Kamerapfade.
Sich entwickelnde Anwendungsfälle
Gaming Generierung atmosphärischer Umgebungen und Hintergrundbereiche. Indie-Entwickler können Erkundungsgebiete erstellen, die Monate traditioneller Kunstproduktion erfordern würden.
Visuelle Effekte Pre-Visualisierung wird interaktiv. Blockieren Sie eine Szene räumlich aus, erkunden Sie dann Kamerawinkel, bevor Sie sich auf Aufnahmen festlegen.
Architektur Konvertierung von Grundrissen zu erkundbaren Rundgängen. Kunden erleben Räume vor Baubeginn.
Bildung Li stellt sich vor, wie Studenten durch eine Zelle gehen, Chirurgen in anatomischen Simulationen üben.
World Expansion und Composer Mode
Zwei Funktionen adressieren Skalierungsbeschränkungen:
World Expansion ermöglicht die einmalige Erweiterung einer generierten Welt, wobei Details in Randbereichen hinzugefügt werden, wo die Qualität typischerweise abnimmt. Dies erweitert die Grenzen des erkundbaren Raums über die initialen Generierungslimits hinaus.
Composer Mode kombiniert mehrere Welten zu größeren Umgebungen. Generieren Sie einzelne Räume, fügen Sie diese dann zu einem vollständigen Gebäude zusammen.
Diese Werkzeuge erkennen aktuelle Einschränkungen an und bieten praktische Lösungen.
Das Wettbewerbsumfeld
Marble tritt in ein umkämpftes Feld ein:
| Produkt | Ansatz | Unterscheidungsmerkmal |
|---|---|---|
| Decart Oasis | Echtzeit-Spielgenerierung | Interaktiv, aber Welten verschieben sich während der Erkundung |
| Google Genie | Spielweltgenerierung | Frame-Vorhersage ohne echtes 3D |
| Odyssey | Persistente World Models | Enterprise-Fokus |
| World Labs Marble | Statische 3D-Generierung | Herunterladbar, bearbeitbar, VR-fähig |
Der Kompromiss ist eindeutig. Echtzeit-Modelle wie Oasis bieten Unmittelbarkeit, aber Instabilität. Marble priorisiert Persistenz und Editierbarkeit gegenüber Interaktivität.
Verbindung zur Videogenerierung
Für Hintergrundinformationen zu Diffusionsarchitekturen in räumlicher KI siehe unsere technische Übersicht zu Diffusion Transformers.
Wie verhält sich 3D-Weltgenerierung zur Videogenerierung? Sie teilen mathematische Grundlagen in Diffusionsmodellen, lösen aber unterschiedliche Probleme.
Videogenerierung erstellt zeitliche Sequenzen, Frame für Frame. Räumliche KI erstellt geometrische Repräsentationen, Oberflächen und Volumen. Video beantwortet "was passiert als Nächstes?" Räumliche KI beantwortet "was existiert hier?"
Der Konvergenzpunkt: navigierbares Video. Generieren Sie eine 3D-Welt, rendern Sie dann Video während der Bewegung durch diese. Dieser Ansatz bietet Kamerakontrolle, die mit reiner Videogenerierung unmöglich ist.
Zu berücksichtigende Einschränkungen
Marble ist keine vollständige Lösung:
- ○Keine animierten Charaktere oder dynamischen Elemente
- ○Generierungslimits können Produktions-Workflows einschränken
- ○Randdegradation erfordert Erweiterungsdurchläufe
- ○Nur statische Umgebungen
Für animierte Inhalte benötigen Sie weiterhin Videogenerierungsmodelle. Marble eignet sich für Umgebungen und Räume, nicht für Akteure oder Handlungen.
Das größere Bild
Fei-Fei Li betrachtet räumliche Intelligenz als essenziell für den Fortschritt der KI:
"Wir alle tragen Verantwortung dafür, KI in einen besseren Zustand zu bringen, während sie mächtiger wird. Wir alle sollten wollen, dass die Menschheit vorherrscht und gedeiht."
Ihre Vision geht über Unterhaltung hinaus. Medizinische Simulationen, in denen Studenten Anatomie erkunden. Wissenschaftliche Visualisierungen, in denen Forscher durch molekulare Strukturen navigieren. Roboter-Trainingsumgebungen, die auf Abruf generiert werden.
Marble ist Schritt eins, ein kommerzieller Proof of Concept. Die Forschung geht weiter in Richtung dynamischerer, interaktiverer und physikalisch genauerer Weltgenerierung.
Erste Schritte
World Labs bietet eine kostenlose Stufe mit 4 Generierungen pro Monat. Ausreichend, um die Technologie zu evaluieren und ihre Grenzen zu verstehen.
Für Kreative, die bereits in 3D arbeiten, integriert sich die Mesh-Export-Fähigkeit in bestehende Pipelines. Für Videoproduzenten bietet der Video-Export Pre-Visualisierungsfähigkeiten, die anderswo nicht verfügbar sind.
Weiterführende Lektüre: Unser Leitfaden zur Charakterkonsistenz in KI-Videos behandelt Techniken zur Aufrechterhaltung der Kohärenz über generierten Content hinweg, eine Herausforderung, die Marble durch persistente 3D-Repräsentation adressiert.
Der Übergang von 2D-Generierung zu 3D-Welterstellung stellt einen fundamentalen Wandel dessen dar, was KI produzieren kann. Marble macht diesen Wandel zugänglich.
War dieser Artikel hilfreich?

Alexis
KI-IngenieurKI-Ingenieur aus Lausanne, der Forschungstiefe mit praktischer Innovation verbindet. Teilt seine Zeit zwischen Modellarchitekturen und Alpengipfeln auf.
Verwandte Artikel
Entdecken Sie weitere verwandte Beiträge

Runway GWM-1: Das allgemeine Weltmodell, das Realität in Echtzeit simuliert
Runways GWM-1 markiert einen Paradigmenwechsel von der Videogenerierung zur Weltensimulation. Erfahren Sie, wie dieses autoregressive Modell erkundbare Umgebungen, fotorealistische Avatare und Roboter-Trainingssimulationen erstellt.

YouTube bringt Veo 3 Fast zu Shorts: Kostenlose KI-Videogenerierung für 2,5 Milliarden Nutzer
Google integriert sein Veo 3 Fast Modell direkt in YouTube Shorts und bietet Creatorn weltweit kostenlose Text-zu-Video-Generierung mit Audio. Was dies für die Plattform und die Zugänglichkeit von KI-Video bedeutet.

Video-Sprachmodelle: Die nächste Grenze nach LLMs und KI-Agenten
Weltmodelle bringen KI bei, die physische Realität zu verstehen, sodass Roboter Aktionen planen und Ergebnisse simulieren können, bevor sie einen einzigen Aktuator bewegen.