World Labs Marble: wizja inteligencji przestrzennej Fei-Fei Li
Pionierka AI Fei-Fei Li uruchamia Marble — komercyjną platformę do generowania eksplorowanych światów 3D z tekstu i obrazów. Nowy rubież w przestrzennym AI.

Od ImageNet do modeli światów
Aby zrozumieć miejsce modeli światów w ewolucji AI-wideo, zobacz nasz przegląd modeli światów jako następnego rubieżu.
Fei-Fei Li dokonała rewolucji w widzeniu komputerowym dzięki ImageNet — zbiorowi danych, który umożliwił nowoczesne głębokie uczenie. Teraz, po roku pracy nad World Labs z finansowaniem $230 mln, uruchomiła Marble — pierwszy komercyjny produkt firmy.
Teza jest prosta: AI podbił tekst, potem obrazy, potem wideo. Kolejny rubież to inteligencja przestrzenna, zdolność do postrzegania, generowania i interakcji ze światami 3D.
Co robi Marble
Marble generuje trwałe, pobieralne środowiska 3D z kilku typów danych wejściowych:
- ✓Prompty tekstowe
- ✓Pojedyncze obrazy
- ✓Wideo
- ✓Panoramy
- ✓Układy 3D
W przeciwieństwie do modeli światów czasu rzeczywistego od konkurentów jak Decart Oasis czy Google Genie, Marble tworzy stabilne światy z minimalnym przekształcaniem. Generujesz raz, potem swobodnie eksplorujesz bez tego, by AI "zapominało", co stworzyło.
Edytor Chisel
Edycja 3D natywna dla AI
Chisel rozdziela strukturę przestrzenną od stylu wizualnego. Najpierw definiujesz układ, potem stosujesz stylizację poprzez wskazówki tekstowe.
To hybrydowe podejście wyróżnia Marble od modeli tekst-do-sceny. Zamiast mieć nadzieję, że AI zrozumie twoje przestrzenne intencje, jawnie definiujesz geometrię. AI zajmuje się estetyką, materiałami i oświetleniem.
Pomyśl o tym jak o szkicu planu piętra zanim poprosisz projektanta wnętrz o udekorowanie. Kontrola nad relacjami przestrzennymi pozostaje twoja.
Formaty eksportu i kompatybilność
Wygenerowane światy eksportują się w trzech formatach:
| Format | Zastosowanie |
|---|---|
| Gaussian Splats | Renderowanie w czasie rzeczywistym, nowe ujęcia |
| Siatki | Silniki gier, integracja CAD |
| Wideo | Tworzenie treści, prewizualizacja |
Wszystkie światy Marble są kompatybilne z VR przez Vision Pro i Quest 3 od razu po wyjęciu z pudełka.
Struktura cen
World Labs oferuje cztery plany:
| Plan | Cena | Generacji | Kluczowe funkcje |
|---|---|---|---|
| Free | $0 | 4/miesiąc | Wejście przez tekst, obraz lub panoramę |
| Standard | $20/miesiąc | 12/miesiąc | Wejście przez wiele obrazów/wideo, zaawansowana edycja |
| Pro | $35/miesiąc | 25/miesiąc | Rozszerzanie scen, prawa komercyjne |
| Max | $95/miesiąc | 75/miesiąc | Wszystkie funkcje, maksimum generacji |
Darmowy plan pozwala ocenić technologię. Do produkcji wymagającej praw komercyjnych, plan Pro za $35/miesiąc to rozsądna cena wejściowa dla tak nowej możliwości.
Dlaczego inteligencja przestrzenna ma znaczenie
„Inteligencja przestrzenna to definiujące wyzwanie następnej dekady". — Fei-Fei Li
Li twierdzi, że obecne AI ma fundamentalne ograniczenie: słabo rozumuje o przestrzeni 3D. Modele językowe halucynują fizykę. Modele wideo tworzą niemożliwe geometrie. Generatory obrazów walczą z konsystentnymi relacjami przestrzennymi.
Dla robotyki to ma ogromne znaczenie. Robot nawigujący po kuchni potrzebuje przestrzennego rozumienia, nie predykcji klatek. Dla VFX reżyserzy potrzebują eksplorowanych środowisk, nie ustalonych ścieżek kamery.
Kształtujące się przypadki użycia
Gamedev Generowanie otoczenia i przestrzeni tła. Niezależni deweloperzy mogą tworzyć obszary eksploracji, które wymagałyby miesięcy tradycyjnej produkcji artystycznej.
Efekty wizualne Prewizualizacja staje się interaktywna. Blokujesz scenę przestrzennie, potem eksplorujesz kąty kamery przed zatwierdzeniem ujęć.
Architektura Konwersja planów pięter do eksplorowanych przestrzeni. Klienci doświadczają przestrzeni przed rozpoczęciem budowy.
Edukacja Li wyobraża sobie studentów spacerujących wewnątrz komórki, chirurgów praktykujących w symulacjach anatomicznych.
Rozszerzanie światów i tryb Composer
Dwie funkcje rozwiązują ograniczenia skali:
Rozszerzanie światów pozwala raz rozszerzyć wygenerowany świat, dodając szczegóły do obszarów brzegowych, gdzie jakość zwykle się pogarsza. To przesuwa granice eksplorowanej przestrzeni poza początkowe limity generacji.
Tryb Composer łączy wiele światów w większe środowiska. Generujesz pojedyncze pokoje, potem zszywajesz je w kompletny budynek.
Te narzędzia uznają obecne ograniczenia, zapewniając praktyczne obejścia.
Krajobraz konkurencji
Marble wchodzi na zatłoczone pole:
| Produkt | Podejście | Wyróżnik |
|---|---|---|
| Decart Oasis | Generowanie gier w czasie rzeczywistym | Interaktywność, ale światy zmieniają się podczas eksploracji |
| Google Genie | Generowanie światów gier | Predykcja klatek bez prawdziwego 3D |
| Odyssey | Trwałe modele światów | Fokus na enterprise |
| World Labs Marble | Statyczna generacja 3D | Pobieralność, edytowalność, gotowość VR |
Kompromis jest jasny. Modele czasu rzeczywistego jak Oasis oferują natychmiastowość, ale niestabilność. Marble priorytetyzuje trwałość i edytowalność nad interaktywnością.
Powiązanie z generowaniem wideo
Kontekst dotyczący architektur dyfuzji używanych w przestrzennym AI, zobacz w naszym przeglądzie technicznym transformerów dyfuzyjnych.
Jak generowanie światów 3D wiąże się z wideo? Dzielą matematyczne podstawy w modelach dyfuzyjnych, ale rozwiązują różne problemy.
Generowanie wideo tworzy sekwencje czasowe, klatkę po klatce. Przestrzenne AI tworzy reprezentacje geometryczne, powierzchnie i objętości. Wideo odpowiada „co się stanie dalej?" Przestrzenne AI odpowiada „co tu istnieje?"
Punkt konwergencji: nawigowalne wideo. Generujesz świat 3D, potem renderujesz wideo w miarę poruszania się przez niego. To podejście oferuje kontrolę kamery niemożliwą z czystym generowaniem wideo.
Ograniczenia do rozważenia
Marble nie jest kompletnym rozwiązaniem:
- ○Brak animowanych postaci lub elementów dynamicznych
- ○Limity generacji mogą ograniczyć workflow produkcyjny
- ○Degradacja na krawędziach wymaga przejść rozszerzania
- ○Tylko statyczne środowiska
Do animowanej treści nadal potrzebne są modele generowania wideo. Marble celuje w środowiska i przestrzenie, nie w aktorów czy akcję.
Szerszy obraz
Fei-Fei Li widzi inteligencję przestrzenną jako niezbędną dla postępu AI:
„Myślę, że wszyscy jesteśmy odpowiedzialni za prowadzenie AI do lepszego stanu w miarę jak staje się potężniejsze. Wszyscy powinniśmy chcieć, by ludzkość przeważała i prosperowała".
Jej wizja wykracza poza rozrywkę. Symulacje medyczne, gdzie studenci eksplorują anatomię. Wizualizacje naukowe, gdzie badacze nawigują struktury molekularne. Środowiska treningowe dla robotów generowane na żądanie.
Marble to krok pierwszy, komercyjny dowód koncepcji. Badania trwają w kierunku bardziej dynamicznej, interaktywnej i fizycznie dokładnej generacji światów.
Rozpoczęcie pracy
World Labs oferuje darmowy plan z 4 generacjami miesięcznie. Wystarczy do oceny technologii i zrozumienia jej ograniczeń.
Dla twórców już pracujących w 3D, możliwość eksportu siatek integruje się z istniejącymi pipeline'ami. Dla producentów wideo, eksport wideo zapewnia możliwości prewizualizacji niedostępne gdzie indziej.
Powiązana lektura: nasz przewodnik po konsystencji postaci w AI-wideo omawia techniki utrzymania spójności w generowanej treści — wyzwanie, które Marble rozwiązuje przez trwałą reprezentację 3D.
Przejście od generacji 2D do tworzenia światów 3D reprezentuje fundamentalną zmianę w tym, co AI może produkować. Marble czyni tę zmianę dostępną.
Czy ten artykuł był pomocny?

Alexis
Inżynier AIInżynier AI z Lozanny łączący głębię badań z praktyczną innowacją. Dzieli czas między architekturami modeli a szczytami alpejskimi.
Powiązane artykuły
Kontynuuj eksplorację dzięki tym powiązanym wpisom

Runway GWM-1: uniwersalny model świata symulujący rzeczywistość w czasie rzeczywistym
GWM-1 od Runway to przejście od generowania wideo do symulacji światów. Zobacz, jak ten autoregresyjny model tworzy eksplorowane środowiska, fotorealistyczne awatary i symulacje treningowe dla robotów.

YouTube wprowadza Veo 3 Fast do Shorts: darmowe generowanie wideo AI dla 2,5 miliarda użytkowników
Google integruje model Veo 3 Fast bezpośrednio z YouTube Shorts, oferując darmowe generowanie wideo z tekstu z dźwiękiem dla twórców na całym świecie. Oto co to oznacza dla platformy i dostępności wideo AI.

Modele językowe wideo: Następna granica po LLM i agentach AI
Modele świata uczą AI rozumienia fizycznej rzeczywistości, pozwalając robotom planować działania i symulować wyniki przed wykonaniem jakiegokolwiek ruchu.