Meta Pixel
AlexisAlexis
6 min read
1109 słów

World Labs Marble: wizja inteligencji przestrzennej Fei-Fei Li

Pionierka AI Fei-Fei Li uruchamia Marble — komercyjną platformę do generowania eksplorowanych światów 3D z tekstu i obrazów. Nowy rubież w przestrzennym AI.

World Labs Marble: wizja inteligencji przestrzennej Fei-Fei Li
Badaczka, która nauczyła maszyny widzieć, teraz uczy je wyobrażać sobie całe światy. Z World Labs Marble Fei-Fei Li robi kolejny krok poza generowanie wideo — do trwałych, eksplorowanych środowisk 3D.

Od ImageNet do modeli światów

💡

Aby zrozumieć miejsce modeli światów w ewolucji AI-wideo, zobacz nasz przegląd modeli światów jako następnego rubieżu.

Fei-Fei Li dokonała rewolucji w widzeniu komputerowym dzięki ImageNet — zbiorowi danych, który umożliwił nowoczesne głębokie uczenie. Teraz, po roku pracy nad World Labs z finansowaniem $230 mln, uruchomiła Marble — pierwszy komercyjny produkt firmy.

Teza jest prosta: AI podbił tekst, potem obrazy, potem wideo. Kolejny rubież to inteligencja przestrzenna, zdolność do postrzegania, generowania i interakcji ze światami 3D.

$230M
Pozyskane
4
Plany taryfowe
3D
Natywne wyjście

Co robi Marble

Marble generuje trwałe, pobieralne środowiska 3D z kilku typów danych wejściowych:

  • Prompty tekstowe
  • Pojedyncze obrazy
  • Wideo
  • Panoramy
  • Układy 3D

W przeciwieństwie do modeli światów czasu rzeczywistego od konkurentów jak Decart Oasis czy Google Genie, Marble tworzy stabilne światy z minimalnym przekształcaniem. Generujesz raz, potem swobodnie eksplorujesz bez tego, by AI "zapominało", co stworzyło.

Edytor Chisel

🔨

Edycja 3D natywna dla AI

Chisel rozdziela strukturę przestrzenną od stylu wizualnego. Najpierw definiujesz układ, potem stosujesz stylizację poprzez wskazówki tekstowe.

To hybrydowe podejście wyróżnia Marble od modeli tekst-do-sceny. Zamiast mieć nadzieję, że AI zrozumie twoje przestrzenne intencje, jawnie definiujesz geometrię. AI zajmuje się estetyką, materiałami i oświetleniem.

Pomyśl o tym jak o szkicu planu piętra zanim poprosisz projektanta wnętrz o udekorowanie. Kontrola nad relacjami przestrzennymi pozostaje twoja.

Formaty eksportu i kompatybilność

Wygenerowane światy eksportują się w trzech formatach:

FormatZastosowanie
Gaussian SplatsRenderowanie w czasie rzeczywistym, nowe ujęcia
SiatkiSilniki gier, integracja CAD
WideoTworzenie treści, prewizualizacja
💡

Wszystkie światy Marble są kompatybilne z VR przez Vision Pro i Quest 3 od razu po wyjęciu z pudełka.

Struktura cen

World Labs oferuje cztery plany:

PlanCenaGeneracjiKluczowe funkcje
Free$04/miesiącWejście przez tekst, obraz lub panoramę
Standard$20/miesiąc12/miesiącWejście przez wiele obrazów/wideo, zaawansowana edycja
Pro$35/miesiąc25/miesiącRozszerzanie scen, prawa komercyjne
Max$95/miesiąc75/miesiącWszystkie funkcje, maksimum generacji

Darmowy plan pozwala ocenić technologię. Do produkcji wymagającej praw komercyjnych, plan Pro za $35/miesiąc to rozsądna cena wejściowa dla tak nowej możliwości.

Dlaczego inteligencja przestrzenna ma znaczenie

„Inteligencja przestrzenna to definiujące wyzwanie następnej dekady". — Fei-Fei Li

Li twierdzi, że obecne AI ma fundamentalne ograniczenie: słabo rozumuje o przestrzeni 3D. Modele językowe halucynują fizykę. Modele wideo tworzą niemożliwe geometrie. Generatory obrazów walczą z konsystentnymi relacjami przestrzennymi.

Obecne podejścia
Modele wideo generują sekwencje klatek bez prawdziwego rozumienia 3D. Ruchy kamery ujawniają niespójności. Obiekty zmieniają położenie lub znikają.
Inteligencja przestrzenna
Natywna reprezentacja 3D zapewnia fizycznie konsystentne światy. Swobodny ruch kamery. Środowisko trwa, bo istnieje jako geometria, nie piksele.

Dla robotyki to ma ogromne znaczenie. Robot nawigujący po kuchni potrzebuje przestrzennego rozumienia, nie predykcji klatek. Dla VFX reżyserzy potrzebują eksplorowanych środowisk, nie ustalonych ścieżek kamery.

Kształtujące się przypadki użycia

Gamedev Generowanie otoczenia i przestrzeni tła. Niezależni deweloperzy mogą tworzyć obszary eksploracji, które wymagałyby miesięcy tradycyjnej produkcji artystycznej.

Efekty wizualne Prewizualizacja staje się interaktywna. Blokujesz scenę przestrzennie, potem eksplorujesz kąty kamery przed zatwierdzeniem ujęć.

Architektura Konwersja planów pięter do eksplorowanych przestrzeni. Klienci doświadczają przestrzeni przed rozpoczęciem budowy.

Edukacja Li wyobraża sobie studentów spacerujących wewnątrz komórki, chirurgów praktykujących w symulacjach anatomicznych.

Rozszerzanie światów i tryb Composer

Dwie funkcje rozwiązują ograniczenia skali:

Rozszerzanie światów pozwala raz rozszerzyć wygenerowany świat, dodając szczegóły do obszarów brzegowych, gdzie jakość zwykle się pogarsza. To przesuwa granice eksplorowanej przestrzeni poza początkowe limity generacji.

Tryb Composer łączy wiele światów w większe środowiska. Generujesz pojedyncze pokoje, potem zszywajesz je w kompletny budynek.

Te narzędzia uznają obecne ograniczenia, zapewniając praktyczne obejścia.

Krajobraz konkurencji

Marble wchodzi na zatłoczone pole:

ProduktPodejścieWyróżnik
Decart OasisGenerowanie gier w czasie rzeczywistymInteraktywność, ale światy zmieniają się podczas eksploracji
Google GenieGenerowanie światów gierPredykcja klatek bez prawdziwego 3D
OdysseyTrwałe modele światówFokus na enterprise
World Labs MarbleStatyczna generacja 3DPobieralność, edytowalność, gotowość VR

Kompromis jest jasny. Modele czasu rzeczywistego jak Oasis oferują natychmiastowość, ale niestabilność. Marble priorytetyzuje trwałość i edytowalność nad interaktywnością.

Powiązanie z generowaniem wideo

💡

Kontekst dotyczący architektur dyfuzji używanych w przestrzennym AI, zobacz w naszym przeglądzie technicznym transformerów dyfuzyjnych.

Jak generowanie światów 3D wiąże się z wideo? Dzielą matematyczne podstawy w modelach dyfuzyjnych, ale rozwiązują różne problemy.

Generowanie wideo tworzy sekwencje czasowe, klatkę po klatce. Przestrzenne AI tworzy reprezentacje geometryczne, powierzchnie i objętości. Wideo odpowiada „co się stanie dalej?" Przestrzenne AI odpowiada „co tu istnieje?"

Punkt konwergencji: nawigowalne wideo. Generujesz świat 3D, potem renderujesz wideo w miarę poruszania się przez niego. To podejście oferuje kontrolę kamery niemożliwą z czystym generowaniem wideo.

Ograniczenia do rozważenia

Marble nie jest kompletnym rozwiązaniem:

  • Brak animowanych postaci lub elementów dynamicznych
  • Limity generacji mogą ograniczyć workflow produkcyjny
  • Degradacja na krawędziach wymaga przejść rozszerzania
  • Tylko statyczne środowiska

Do animowanej treści nadal potrzebne są modele generowania wideo. Marble celuje w środowiska i przestrzenie, nie w aktorów czy akcję.

Szerszy obraz

Fei-Fei Li widzi inteligencję przestrzenną jako niezbędną dla postępu AI:

„Myślę, że wszyscy jesteśmy odpowiedzialni za prowadzenie AI do lepszego stanu w miarę jak staje się potężniejsze. Wszyscy powinniśmy chcieć, by ludzkość przeważała i prosperowała".

Jej wizja wykracza poza rozrywkę. Symulacje medyczne, gdzie studenci eksplorują anatomię. Wizualizacje naukowe, gdzie badacze nawigują struktury molekularne. Środowiska treningowe dla robotów generowane na żądanie.

Marble to krok pierwszy, komercyjny dowód koncepcji. Badania trwają w kierunku bardziej dynamicznej, interaktywnej i fizycznie dokładnej generacji światów.

Rozpoczęcie pracy

World Labs oferuje darmowy plan z 4 generacjami miesięcznie. Wystarczy do oceny technologii i zrozumienia jej ograniczeń.

Dla twórców już pracujących w 3D, możliwość eksportu siatek integruje się z istniejącymi pipeline'ami. Dla producentów wideo, eksport wideo zapewnia możliwości prewizualizacji niedostępne gdzie indziej.

💡

Powiązana lektura: nasz przewodnik po konsystencji postaci w AI-wideo omawia techniki utrzymania spójności w generowanej treści — wyzwanie, które Marble rozwiązuje przez trwałą reprezentację 3D.

Przejście od generacji 2D do tworzenia światów 3D reprezentuje fundamentalną zmianę w tym, co AI może produkować. Marble czyni tę zmianę dostępną.

Czy ten artykuł był pomocny?

Alexis

Alexis

Inżynier AI

Inżynier AI z Lozanny łączący głębię badań z praktyczną innowacją. Dzieli czas między architekturami modeli a szczytami alpejskimi.

Powiązane artykuły

Kontynuuj eksplorację dzięki tym powiązanym wpisom

Spodobał Ci się ten artykuł?

Odkryj więcej inspiracji i bądź na bieżąco z naszymi najnowszymi treściami.

World Labs Marble: wizja inteligencji przestrzennej Fei-Fei Li