World Labs Marble: Fei-Fei Lis Vision für räumliche Intelligenz

Die Forscherin, die Maschinen das Sehen beibrachte, lehrt sie nun, ganze Welten zu erschaffen. Mit World Labs Marble geht Fei-Fei Li den nächsten Schritt über die Videogenerierung hinaus in persistente, erkundbare 3D-Umgebungen.

Von ImageNet zu World Models

💡

Zum Kontext, wie World Models in die Evolution der KI-Videogenerierung einzuordnen sind, siehe unsere Übersicht zu World Models als nächste Grenze.

Fei-Fei Li revolutionierte Computer Vision mit ImageNet, dem Datensatz, der modernes Deep Learning ermöglichte. Nach einem Jahr Aufbau von World Labs mit 230 Millionen Dollar Finanzierung präsentiert sie nun Marble, das erste kommerzielle Produkt des Unternehmens.

Die These ist klar: KI hat Text gemeistert, dann Bilder, dann Video. Die nächste Grenze ist räumliche Intelligenz – die Fähigkeit, 3D-Welten wahrzunehmen, zu generieren und mit ihnen zu interagieren.

230 Mio. $

Finanzierung

Preisstufen

Native Ausgabe

Funktionsweise von Marble

Marble generiert persistente, herunterladbare 3D-Umgebungen aus verschiedenen Eingabetypen:

✓Text-Prompts
✓Einzelbilder
✓Videos
✓Panoramen
✓3D-Layouts

Anders als Echtzeit-World-Models von Wettbewerbern wie Decarts Oasis oder Googles Genie erstellt Marble stabile Welten mit minimaler Verformung. Sie generieren einmal, erkunden dann frei, ohne dass die KI "vergisst", was sie erstellt hat.

Der Chisel-Editor

🔨

KI-native 3D-Bearbeitung

Chisel trennt räumliche Struktur von visuellem Stil. Definieren Sie zuerst Ihr Layout, wenden Sie dann textbasierte Stilrichtlinien an.

Dieser hybride Ansatz unterscheidet Marble von Text-zu-Szene-Modellen. Anstatt zu hoffen, dass die KI Ihre räumliche Absicht versteht, definieren Sie die Geometrie explizit. Die KI übernimmt Ästhetik, Materialien und Beleuchtung.

Vergleichbar mit dem Skizzieren eines Grundrisses, bevor Sie einen Innenarchitekten mit der Dekoration beauftragen. Die Kontrolle über räumliche Beziehungen bleibt bei Ihnen.

Exportformate und Kompatibilität

Generierte Welten werden in drei Formaten exportiert:

Format	Anwendungsfall
Gaussian Splats	Echtzeit-Rendering, neue Perspektiven
Meshes	Game Engines, CAD-Integration
Videos	Content-Erstellung, Pre-Visualisierung

💡

Alle Marble-Welten sind standardmäßig VR-kompatibel mit Vision Pro und Quest 3 Headsets.

Preisstruktur

World Labs bietet vier Stufen:

Stufe	Preis	Generierungen	Hauptfunktionen
Free	0 $	4/Monat	Text-, Bild- oder Panorama-Eingabe
Standard	20 $/Monat	12/Monat	Multi-Bild-/Video-Eingabe, erweiterte Bearbeitung
Pro	35 $/Monat	25/Monat	Szenenerweiterung, kommerzielle Rechte
Max	95 $/Monat	75/Monat	Alle Funktionen, maximale Generierungen

Die kostenlose Stufe ermöglicht die Evaluierung der Technologie. Für Produktionsarbeiten mit kommerziellen Rechten stellt die Pro-Stufe für 35 $/Monat einen angemessenen Einstiegspreis für eine derart neuartige Fähigkeit dar.

Warum räumliche Intelligenz relevant ist

"Räumliche Intelligenz ist die entscheidende Herausforderung des nächsten Jahrzehnts." - Fei-Fei Li

Li argumentiert, dass aktuelle KI eine fundamentale Einschränkung aufweist: Sie verarbeitet 3D-Raum unzureichend. Sprachmodelle halluzinieren Physik. Videomodelle erzeugen unmögliche Geometrien. Bildgeneratoren haben Schwierigkeiten mit konsistenten räumlichen Beziehungen.

✗Aktuelle Ansätze

Videomodelle generieren Bildsequenzen ohne echtes 3D-Verständnis. Kamerabewegungen offenbaren Inkonsistenzen. Objekte ändern Position oder verschwinden.

✓Räumliche Intelligenz

Native 3D-Repräsentation ermöglicht physikalisch konsistente Welten. Bewegen Sie die Kamera frei. Die Umgebung bleibt bestehen, da sie als Geometrie existiert, nicht als Pixel.

Für Robotik ist dies von erheblicher Bedeutung. Ein Roboter, der sich in einer Küche bewegt, benötigt räumliches Verständnis, keine Frame-Vorhersage. Für VFX benötigen Regisseure erkundbare Umgebungen, keine festen Kamerapfade.

Sich entwickelnde Anwendungsfälle

Gaming Generierung atmosphärischer Umgebungen und Hintergrundbereiche. Indie-Entwickler können Erkundungsgebiete erstellen, die Monate traditioneller Kunstproduktion erfordern würden.

Visuelle Effekte Pre-Visualisierung wird interaktiv. Blockieren Sie eine Szene räumlich aus, erkunden Sie dann Kamerawinkel, bevor Sie sich auf Aufnahmen festlegen.

Architektur Konvertierung von Grundrissen zu erkundbaren Rundgängen. Kunden erleben Räume vor Baubeginn.

Bildung Li stellt sich vor, wie Studenten durch eine Zelle gehen, Chirurgen in anatomischen Simulationen üben.

World Expansion und Composer Mode

Zwei Funktionen adressieren Skalierungsbeschränkungen:

World Expansion ermöglicht die einmalige Erweiterung einer generierten Welt, wobei Details in Randbereichen hinzugefügt werden, wo die Qualität typischerweise abnimmt. Dies erweitert die Grenzen des erkundbaren Raums über die initialen Generierungslimits hinaus.

Composer Mode kombiniert mehrere Welten zu größeren Umgebungen. Generieren Sie einzelne Räume, fügen Sie diese dann zu einem vollständigen Gebäude zusammen.

Diese Werkzeuge erkennen aktuelle Einschränkungen an und bieten praktische Lösungen.

Das Wettbewerbsumfeld

Marble tritt in ein umkämpftes Feld ein:

Produkt	Ansatz	Unterscheidungsmerkmal
Decart Oasis	Echtzeit-Spielgenerierung	Interaktiv, aber Welten verschieben sich während der Erkundung
Google Genie	Spielweltgenerierung	Frame-Vorhersage ohne echtes 3D
Odyssey	Persistente World Models	Enterprise-Fokus
World Labs Marble	Statische 3D-Generierung	Herunterladbar, bearbeitbar, VR-fähig

Der Kompromiss ist eindeutig. Echtzeit-Modelle wie Oasis bieten Unmittelbarkeit, aber Instabilität. Marble priorisiert Persistenz und Editierbarkeit gegenüber Interaktivität.

Verbindung zur Videogenerierung

💡

Für Hintergrundinformationen zu Diffusionsarchitekturen in räumlicher KI siehe unsere technische Übersicht zu Diffusion Transformers.

Wie verhält sich 3D-Weltgenerierung zur Videogenerierung? Sie teilen mathematische Grundlagen in Diffusionsmodellen, lösen aber unterschiedliche Probleme.

Videogenerierung erstellt zeitliche Sequenzen, Frame für Frame. Räumliche KI erstellt geometrische Repräsentationen, Oberflächen und Volumen. Video beantwortet "was passiert als Nächstes?" Räumliche KI beantwortet "was existiert hier?"

Der Konvergenzpunkt: navigierbares Video. Generieren Sie eine 3D-Welt, rendern Sie dann Video während der Bewegung durch diese. Dieser Ansatz bietet Kamerakontrolle, die mit reiner Videogenerierung unmöglich ist.

Zu berücksichtigende Einschränkungen

Marble ist keine vollständige Lösung:

○Keine animierten Charaktere oder dynamischen Elemente
○Generierungslimits können Produktions-Workflows einschränken
○Randdegradation erfordert Erweiterungsdurchläufe
○Nur statische Umgebungen

Für animierte Inhalte benötigen Sie weiterhin Videogenerierungsmodelle. Marble eignet sich für Umgebungen und Räume, nicht für Akteure oder Handlungen.

Das größere Bild

Fei-Fei Li betrachtet räumliche Intelligenz als essenziell für den Fortschritt der KI:

"Wir alle tragen Verantwortung dafür, KI in einen besseren Zustand zu bringen, während sie mächtiger wird. Wir alle sollten wollen, dass die Menschheit vorherrscht und gedeiht."

Ihre Vision geht über Unterhaltung hinaus. Medizinische Simulationen, in denen Studenten Anatomie erkunden. Wissenschaftliche Visualisierungen, in denen Forscher durch molekulare Strukturen navigieren. Roboter-Trainingsumgebungen, die auf Abruf generiert werden.

Marble ist Schritt eins, ein kommerzieller Proof of Concept. Die Forschung geht weiter in Richtung dynamischerer, interaktiverer und physikalisch genauerer Weltgenerierung.

Erste Schritte

World Labs bietet eine kostenlose Stufe mit 4 Generierungen pro Monat. Ausreichend, um die Technologie zu evaluieren und ihre Grenzen zu verstehen.

Für Kreative, die bereits in 3D arbeiten, integriert sich die Mesh-Export-Fähigkeit in bestehende Pipelines. Für Videoproduzenten bietet der Video-Export Pre-Visualisierungsfähigkeiten, die anderswo nicht verfügbar sind.

💡

Weiterführende Lektüre: Unser Leitfaden zur Charakterkonsistenz in KI-Videos behandelt Techniken zur Aufrechterhaltung der Kohärenz über generierten Content hinweg, eine Herausforderung, die Marble durch persistente 3D-Repräsentation adressiert.

Der Übergang von 2D-Generierung zu 3D-Welterstellung stellt einen fundamentalen Wandel dessen dar, was KI produzieren kann. Marble macht diesen Wandel zugänglich.