World Labs Marble: Fei-Fei Lis visjon for romlig intelligens

Forskeren som ga maskiner evnen til å se, lærer dem nå å forestille seg hele verdener. Med World Labs Marble tar Fei-Fei Li neste skritt utover videogenerering til persistente, utforskbare 3D-miljøer.

Fra ImageNet til verdensmodeller

💡

For kontekst om hvordan verdensmodeller passer inn i AI-videoutvikling, se vår oversikt over verdensmodeller som neste grense.

Fei-Fei Li revolusjonerte datasyn med ImageNet, datasettet som gjorde moderne dyp læring mulig. Nå, etter et år med å bygge World Labs med 230 millioner dollar i finansiering, har hun lansert Marble, selskapets første kommersielle produkt.

Tesen er enkel: AI har erobret tekst, deretter bilder, deretter video. Den neste grensen er romlig intelligens, evnen til å oppfatte, generere og samhandle med 3D-verdener.

$230M

Finansiering

Prisnivåer

Nativt output

Hva Marble gjør

Marble genererer persistente, nedlastbare 3D-miljøer fra flere inputtyper:

✓Tekstprompter
✓Enkeltbilder
✓Videoer
✓Panoramaer
✓3D-oppsett

I motsetning til sanntidsverdensmodeller fra konkurrenter som Decarts Oasis eller Googles Genie, skaper Marble stabile verdener med minimal forvrengning. Du genererer én gang, deretter utforsker du fritt uten at AI-en "glemmer" hva den skapte.

Chisel-editoren

🔨

AI-nativ 3D-redigering

Chisel skiller romlig struktur fra visuell stil. Planlegg oppsettet ditt først, bruk deretter tekstbasert stilguide.

Denne hybridtilnærmingen skiller Marble fra tekst-til-scene-modeller. I stedet for å håpe at AI-en forstår din romlige intensjon, definerer du geometrien eksplisitt. AI-en håndterer estetikk, materialer og belysning.

Tenk på det som å skissere en plantegning før du ber en interiørarkitekt dekorere. Kontrollen over romlige forhold forblir din.

Eksportformater og kompatibilitet

Genererte verdener eksporteres i tre formater:

Format	Bruk
Gaussian Splats	Sanntidsrendering, nye vinkler
Meshes	Spillmotorer, CAD-integrasjon
Videoer	Innholdsproduksjon, pre-vis

💡

Alle Marble-verdener er VR-kompatible med Vision Pro og Quest 3 headset uten videre.

Prisstruktur

World Labs tilbyr fire nivåer:

Nivå	Pris	Genereringer	Nøkkelfunksjoner
Gratis	$0	4/måned	Tekst-, bilde- eller panoramainput
Standard	$20/måned	12/måned	Multi-bilde/video-input, avansert redigering
Pro	$35/måned	25/måned	Sceneutvidelse, kommersielle rettigheter
Max	$95/måned	75/måned	Alle funksjoner, maksimale genereringer

Det gratis nivået lar deg evaluere teknologien. For produksjonsarbeid som krever kommersielle rettigheter, representerer Pro-nivået til $35/måned en rimelig inngang for en så ny kapasitet.

Hvorfor romlig intelligens betyr noe

"Romlig intelligens er den definerende utfordringen for neste tiår." - Fei-Fei Li

Li hevder at dagens AI har en fundamental begrensning: den resonnerer dårlig om 3D-rom. Språkmodeller hallusinerer fysikk. Videomodeller skaper umulige geometrier. Bildegeneratorer sliter med konsistente romlige forhold.

✗Nåværende tilnærminger

Videomodeller genererer bildesekvenser uten ekte 3D-forståelse. Kamerabevegelser avslører inkonsekvenser. Objekter bytter posisjon eller forsvinner.

✓Romlig intelligens

Nativ 3D-representasjon muliggjør fysisk konsistente verdener. Flytt kameraet fritt. Miljøet består fordi det eksisterer som geometri, ikke piksler.

For robotikk betyr dette enormt. En robot som navigerer i et kjøkken trenger romlig forståelse, ikke bildepredikering. For VFX trenger regissører utforskbare miljøer, ikke faste kamerabaner.

Brukstilfeller tar form

Gaming Generer omgivende miljøer og bakgrunnssteder. Indie-utviklere kan skape utforskningsområder som ville kreve måneder med tradisjonell kunstproduksjon.

Visuelle effekter Pre-visualisering blir interaktiv. Planlegg en scene romlig, utforsk deretter kameravinkler før du forplikter deg til opptak.

Arkitektur Konverter plantegninger til utforskbare gjennomganger. Kunder opplever rom før byggstart.

Utdanning Li forestiller seg studenter som vandrer inne i en celle, kirurger som trener inne i anatomiske simuleringer.

Verdensutvidelse og komponistmodus

To funksjoner håndterer skaleringsgrenser:

Verdensutvidelse lar deg utvide en generert verden én gang, legge til detaljer i kantområder hvor kvalitet typisk forringes. Dette utvider grensene for utforskbart rom utover opprinnelige genereringsbegrensninger.

Komponistmodus kombinerer flere verdener til større miljøer. Generer individuelle rom, sy dem deretter sammen til en komplett bygning.

Disse verktøyene erkjenner dagens begrensninger samtidig som de gir praktiske løsninger.

Konkurranselandskapet

Marble trer inn i et mettet felt:

Produkt	Tilnærming	Differensieringsfaktor
Decart Oasis	Sanntidsspillgenerering	Interaktiv, men verdener skifter under utforskning
Google Genie	Spillverdensgenerering	Bildepredikering uten ekte 3D
Odyssey	Persistente verdensmodeller	Virksomhetsfokus
World Labs Marble	Statisk 3D-generering	Nedlastbar, redigerbar, VR-klar

Avveiningen er klar. Sanntidsmodeller som Oasis tilbyr umiddelbarhet men ustabilitet. Marble prioriterer persistens og redigerbarhet over interaktivitet.

Kobling til videogenerering

💡

For bakgrunn om diffusjonsarkitekturer brukt i romlig AI, se vår teknisk oversikt over diffusjonstransformatorer.

Hvordan forholder 3D-verdensgenerering seg til video? De deler matematiske fundamenter i diffusjonsmodeller, men løser forskjellige problemer.

Videogenerering skaper tidsmessige sekvenser, bilde etter bilde. Romlig AI skaper geometriske representasjoner, overflater og volumer. Video svarer "hva skjer nå?" Romlig AI svarer "hva finnes her?"

Konvergenspunktet: navigerbar video. Generer en 3D-verden, render deretter video mens du beveger deg gjennom den. Denne tilnærmingen tilbyr kamerakontroll umulig med ren videogenerering.

Begrensninger å vurdere

Marble er ikke en komplett løsning:

○Ingen animerte karakterer eller dynamiske elementer
○Genereringsgrenser kan begrense produksjonsarbeidsflyter
○Kantforringelse krever utvidelsespass
○Kun statiske miljøer

For animert innhold trenger du fortsatt videogenereringsmodeller. Marble utmerker seg i miljøer og rom, ikke aktører eller handlinger.

Det større bildet

Fei-Fei Li ser romlig intelligens som essensiell for AI-fremgang:

"Jeg tror vi alle har et ansvar for å lede AI til en bedre tilstand etter hvert som den blir kraftigere. Vi burde alle ønske at menneskeheten skal seire og blomstre."

Hennes visjon strekker seg utover underholdning. Medisinske simuleringer hvor studenter utforsker anatomi. Vitenskapelige visualiseringer hvor forskere navigerer molekylære strukturer. Robotiske treningsmiljøer generert på forespørsel.

Marble er steg én, et kommersielt proof of concept. Forskningen fortsetter mot mer dynamisk, interaktiv og fysisk nøyaktig verdensgenerering.

Kom i gang

World Labs tilbyr et gratis nivå med 4 genereringer per måned. Nok til å evaluere teknologien og forstå dens begrensninger.

For skapere som allerede arbeider i 3D, integreres mesh-eksportkapasiteten med eksisterende pipelines. For videoprodusenter gir videoeksport pre-visualiseringskapasitet utilgjengelig andre steder.

💡

Relatert lesning: Vår guide til AI-videokaraktærkonsistens dekker teknikker for å opprettholde koherens på tvers av generert innhold, en utfordring Marble adresserer gjennom persistent 3D-representasjon.

Overgangen fra 2D-generering til 3D-verdensskaping representerer et fundamentalt skifte i hva AI kan produsere. Marble gjør dette skiftet tilgjengelig.