World Labs Marble: wizja inteligencji przestrzennej Fei-Fei Li

Badaczka, która nauczyła maszyny widzieć, teraz uczy je wyobrażać sobie całe światy. Z World Labs Marble Fei-Fei Li robi kolejny krok poza generowanie wideo — do trwałych, eksplorowanych środowisk 3D.

Od ImageNet do modeli światów

💡

Aby zrozumieć miejsce modeli światów w ewolucji AI-wideo, zobacz nasz przegląd modeli światów jako następnego rubieżu.

Fei-Fei Li dokonała rewolucji w widzeniu komputerowym dzięki ImageNet — zbiorowi danych, który umożliwił nowoczesne głębokie uczenie. Teraz, po roku pracy nad World Labs z finansowaniem $230 mln, uruchomiła Marble — pierwszy komercyjny produkt firmy.

Teza jest prosta: AI podbił tekst, potem obrazy, potem wideo. Kolejny rubież to inteligencja przestrzenna, zdolność do postrzegania, generowania i interakcji ze światami 3D.

$230M

Pozyskane

Plany taryfowe

Natywne wyjście

Co robi Marble

Marble generuje trwałe, pobieralne środowiska 3D z kilku typów danych wejściowych:

✓Prompty tekstowe
✓Pojedyncze obrazy
✓Wideo
✓Panoramy
✓Układy 3D

W przeciwieństwie do modeli światów czasu rzeczywistego od konkurentów jak Decart Oasis czy Google Genie, Marble tworzy stabilne światy z minimalnym przekształcaniem. Generujesz raz, potem swobodnie eksplorujesz bez tego, by AI "zapominało", co stworzyło.

Edytor Chisel

🔨

Edycja 3D natywna dla AI

Chisel rozdziela strukturę przestrzenną od stylu wizualnego. Najpierw definiujesz układ, potem stosujesz stylizację poprzez wskazówki tekstowe.

To hybrydowe podejście wyróżnia Marble od modeli tekst-do-sceny. Zamiast mieć nadzieję, że AI zrozumie twoje przestrzenne intencje, jawnie definiujesz geometrię. AI zajmuje się estetyką, materiałami i oświetleniem.

Pomyśl o tym jak o szkicu planu piętra zanim poprosisz projektanta wnętrz o udekorowanie. Kontrola nad relacjami przestrzennymi pozostaje twoja.

Formaty eksportu i kompatybilność

Wygenerowane światy eksportują się w trzech formatach:

Format	Zastosowanie
Gaussian Splats	Renderowanie w czasie rzeczywistym, nowe ujęcia
Siatki	Silniki gier, integracja CAD
Wideo	Tworzenie treści, prewizualizacja

💡

Wszystkie światy Marble są kompatybilne z VR przez Vision Pro i Quest 3 od razu po wyjęciu z pudełka.

Struktura cen

World Labs oferuje cztery plany:

Plan	Cena	Generacji	Kluczowe funkcje
Free	$0	4/miesiąc	Wejście przez tekst, obraz lub panoramę
Standard	$20/miesiąc	12/miesiąc	Wejście przez wiele obrazów/wideo, zaawansowana edycja
Pro	$35/miesiąc	25/miesiąc	Rozszerzanie scen, prawa komercyjne
Max	$95/miesiąc	75/miesiąc	Wszystkie funkcje, maksimum generacji

Darmowy plan pozwala ocenić technologię. Do produkcji wymagającej praw komercyjnych, plan Pro za $35/miesiąc to rozsądna cena wejściowa dla tak nowej możliwości.

Dlaczego inteligencja przestrzenna ma znaczenie

„Inteligencja przestrzenna to definiujące wyzwanie następnej dekady". — Fei-Fei Li

Li twierdzi, że obecne AI ma fundamentalne ograniczenie: słabo rozumuje o przestrzeni 3D. Modele językowe halucynują fizykę. Modele wideo tworzą niemożliwe geometrie. Generatory obrazów walczą z konsystentnymi relacjami przestrzennymi.

✗Obecne podejścia

Modele wideo generują sekwencje klatek bez prawdziwego rozumienia 3D. Ruchy kamery ujawniają niespójności. Obiekty zmieniają położenie lub znikają.

✓Inteligencja przestrzenna

Natywna reprezentacja 3D zapewnia fizycznie konsystentne światy. Swobodny ruch kamery. Środowisko trwa, bo istnieje jako geometria, nie piksele.

Dla robotyki to ma ogromne znaczenie. Robot nawigujący po kuchni potrzebuje przestrzennego rozumienia, nie predykcji klatek. Dla VFX reżyserzy potrzebują eksplorowanych środowisk, nie ustalonych ścieżek kamery.

Kształtujące się przypadki użycia

Gamedev Generowanie otoczenia i przestrzeni tła. Niezależni deweloperzy mogą tworzyć obszary eksploracji, które wymagałyby miesięcy tradycyjnej produkcji artystycznej.

Efekty wizualne Prewizualizacja staje się interaktywna. Blokujesz scenę przestrzennie, potem eksplorujesz kąty kamery przed zatwierdzeniem ujęć.

Architektura Konwersja planów pięter do eksplorowanych przestrzeni. Klienci doświadczają przestrzeni przed rozpoczęciem budowy.

Edukacja Li wyobraża sobie studentów spacerujących wewnątrz komórki, chirurgów praktykujących w symulacjach anatomicznych.

Rozszerzanie światów i tryb Composer

Dwie funkcje rozwiązują ograniczenia skali:

Rozszerzanie światów pozwala raz rozszerzyć wygenerowany świat, dodając szczegóły do obszarów brzegowych, gdzie jakość zwykle się pogarsza. To przesuwa granice eksplorowanej przestrzeni poza początkowe limity generacji.

Tryb Composer łączy wiele światów w większe środowiska. Generujesz pojedyncze pokoje, potem zszywajesz je w kompletny budynek.

Te narzędzia uznają obecne ograniczenia, zapewniając praktyczne obejścia.

Krajobraz konkurencji

Marble wchodzi na zatłoczone pole:

Produkt	Podejście	Wyróżnik
Decart Oasis	Generowanie gier w czasie rzeczywistym	Interaktywność, ale światy zmieniają się podczas eksploracji
Google Genie	Generowanie światów gier	Predykcja klatek bez prawdziwego 3D
Odyssey	Trwałe modele światów	Fokus na enterprise
World Labs Marble	Statyczna generacja 3D	Pobieralność, edytowalność, gotowość VR

Kompromis jest jasny. Modele czasu rzeczywistego jak Oasis oferują natychmiastowość, ale niestabilność. Marble priorytetyzuje trwałość i edytowalność nad interaktywnością.

Powiązanie z generowaniem wideo

💡

Kontekst dotyczący architektur dyfuzji używanych w przestrzennym AI, zobacz w naszym przeglądzie technicznym transformerów dyfuzyjnych.

Jak generowanie światów 3D wiąże się z wideo? Dzielą matematyczne podstawy w modelach dyfuzyjnych, ale rozwiązują różne problemy.

Generowanie wideo tworzy sekwencje czasowe, klatkę po klatce. Przestrzenne AI tworzy reprezentacje geometryczne, powierzchnie i objętości. Wideo odpowiada „co się stanie dalej?" Przestrzenne AI odpowiada „co tu istnieje?"

Punkt konwergencji: nawigowalne wideo. Generujesz świat 3D, potem renderujesz wideo w miarę poruszania się przez niego. To podejście oferuje kontrolę kamery niemożliwą z czystym generowaniem wideo.

Ograniczenia do rozważenia

Marble nie jest kompletnym rozwiązaniem:

○Brak animowanych postaci lub elementów dynamicznych
○Limity generacji mogą ograniczyć workflow produkcyjny
○Degradacja na krawędziach wymaga przejść rozszerzania
○Tylko statyczne środowiska

Do animowanej treści nadal potrzebne są modele generowania wideo. Marble celuje w środowiska i przestrzenie, nie w aktorów czy akcję.

Szerszy obraz

Fei-Fei Li widzi inteligencję przestrzenną jako niezbędną dla postępu AI:

„Myślę, że wszyscy jesteśmy odpowiedzialni za prowadzenie AI do lepszego stanu w miarę jak staje się potężniejsze. Wszyscy powinniśmy chcieć, by ludzkość przeważała i prosperowała".

Jej wizja wykracza poza rozrywkę. Symulacje medyczne, gdzie studenci eksplorują anatomię. Wizualizacje naukowe, gdzie badacze nawigują struktury molekularne. Środowiska treningowe dla robotów generowane na żądanie.

Marble to krok pierwszy, komercyjny dowód koncepcji. Badania trwają w kierunku bardziej dynamicznej, interaktywnej i fizycznie dokładnej generacji światów.

Rozpoczęcie pracy

World Labs oferuje darmowy plan z 4 generacjami miesięcznie. Wystarczy do oceny technologii i zrozumienia jej ograniczeń.

Dla twórców już pracujących w 3D, możliwość eksportu siatek integruje się z istniejącymi pipeline'ami. Dla producentów wideo, eksport wideo zapewnia możliwości prewizualizacji niedostępne gdzie indziej.

💡

Powiązana lektura: nasz przewodnik po konsystencji postaci w AI-wideo omawia techniki utrzymania spójności w generowanej treści — wyzwanie, które Marble rozwiązuje przez trwałą reprezentację 3D.

Przejście od generacji 2D do tworzenia światów 3D reprezentuje fundamentalną zmianę w tym, co AI może produkować. Marble czyni tę zmianę dostępną.