Meta Pixel
AlexisAlexis
6 min read
1054 ord

World Labs Marble: Fei-Fei Lis visjon for romlig intelligens

AI-pioner Fei-Fei Li lanserer Marble, en kommersiell plattform som genererer utforskbare 3D-verdener fra tekst og bilder, og markerer en ny grense innen romlig AI.

World Labs Marble: Fei-Fei Lis visjon for romlig intelligens
Forskeren som ga maskiner evnen til å se, lærer dem nå å forestille seg hele verdener. Med World Labs Marble tar Fei-Fei Li neste skritt utover videogenerering til persistente, utforskbare 3D-miljøer.

Fra ImageNet til verdensmodeller

💡

For kontekst om hvordan verdensmodeller passer inn i AI-videoutvikling, se vår oversikt over verdensmodeller som neste grense.

Fei-Fei Li revolusjonerte datasyn med ImageNet, datasettet som gjorde moderne dyp læring mulig. Nå, etter et år med å bygge World Labs med 230 millioner dollar i finansiering, har hun lansert Marble, selskapets første kommersielle produkt.

Tesen er enkel: AI har erobret tekst, deretter bilder, deretter video. Den neste grensen er romlig intelligens, evnen til å oppfatte, generere og samhandle med 3D-verdener.

$230M
Finansiering
4
Prisnivåer
3D
Nativt output

Hva Marble gjør

Marble genererer persistente, nedlastbare 3D-miljøer fra flere inputtyper:

  • Tekstprompter
  • Enkeltbilder
  • Videoer
  • Panoramaer
  • 3D-oppsett

I motsetning til sanntidsverdensmodeller fra konkurrenter som Decarts Oasis eller Googles Genie, skaper Marble stabile verdener med minimal forvrengning. Du genererer én gang, deretter utforsker du fritt uten at AI-en "glemmer" hva den skapte.

Chisel-editoren

🔨

AI-nativ 3D-redigering

Chisel skiller romlig struktur fra visuell stil. Planlegg oppsettet ditt først, bruk deretter tekstbasert stilguide.

Denne hybridtilnærmingen skiller Marble fra tekst-til-scene-modeller. I stedet for å håpe at AI-en forstår din romlige intensjon, definerer du geometrien eksplisitt. AI-en håndterer estetikk, materialer og belysning.

Tenk på det som å skissere en plantegning før du ber en interiørarkitekt dekorere. Kontrollen over romlige forhold forblir din.

Eksportformater og kompatibilitet

Genererte verdener eksporteres i tre formater:

FormatBruk
Gaussian SplatsSanntidsrendering, nye vinkler
MeshesSpillmotorer, CAD-integrasjon
VideoerInnholdsproduksjon, pre-vis
💡

Alle Marble-verdener er VR-kompatible med Vision Pro og Quest 3 headset uten videre.

Prisstruktur

World Labs tilbyr fire nivåer:

NivåPrisGenereringerNøkkelfunksjoner
Gratis$04/månedTekst-, bilde- eller panoramainput
Standard$20/måned12/månedMulti-bilde/video-input, avansert redigering
Pro$35/måned25/månedSceneutvidelse, kommersielle rettigheter
Max$95/måned75/månedAlle funksjoner, maksimale genereringer

Det gratis nivået lar deg evaluere teknologien. For produksjonsarbeid som krever kommersielle rettigheter, representerer Pro-nivået til $35/måned en rimelig inngang for en så ny kapasitet.

Hvorfor romlig intelligens betyr noe

"Romlig intelligens er den definerende utfordringen for neste tiår." - Fei-Fei Li

Li hevder at dagens AI har en fundamental begrensning: den resonnerer dårlig om 3D-rom. Språkmodeller hallusinerer fysikk. Videomodeller skaper umulige geometrier. Bildegeneratorer sliter med konsistente romlige forhold.

Nåværende tilnærminger
Videomodeller genererer bildesekvenser uten ekte 3D-forståelse. Kamerabevegelser avslører inkonsekvenser. Objekter bytter posisjon eller forsvinner.
Romlig intelligens
Nativ 3D-representasjon muliggjør fysisk konsistente verdener. Flytt kameraet fritt. Miljøet består fordi det eksisterer som geometri, ikke piksler.

For robotikk betyr dette enormt. En robot som navigerer i et kjøkken trenger romlig forståelse, ikke bildepredikering. For VFX trenger regissører utforskbare miljøer, ikke faste kamerabaner.

Brukstilfeller tar form

Gaming Generer omgivende miljøer og bakgrunnssteder. Indie-utviklere kan skape utforskningsområder som ville kreve måneder med tradisjonell kunstproduksjon.

Visuelle effekter Pre-visualisering blir interaktiv. Planlegg en scene romlig, utforsk deretter kameravinkler før du forplikter deg til opptak.

Arkitektur Konverter plantegninger til utforskbare gjennomganger. Kunder opplever rom før byggstart.

Utdanning Li forestiller seg studenter som vandrer inne i en celle, kirurger som trener inne i anatomiske simuleringer.

Verdensutvidelse og komponistmodus

To funksjoner håndterer skaleringsgrenser:

Verdensutvidelse lar deg utvide en generert verden én gang, legge til detaljer i kantområder hvor kvalitet typisk forringes. Dette utvider grensene for utforskbart rom utover opprinnelige genereringsbegrensninger.

Komponistmodus kombinerer flere verdener til større miljøer. Generer individuelle rom, sy dem deretter sammen til en komplett bygning.

Disse verktøyene erkjenner dagens begrensninger samtidig som de gir praktiske løsninger.

Konkurranselandskapet

Marble trer inn i et mettet felt:

ProduktTilnærmingDifferensieringsfaktor
Decart OasisSanntidsspillgenereringInteraktiv, men verdener skifter under utforskning
Google GenieSpillverdensgenereringBildepredikering uten ekte 3D
OdysseyPersistente verdensmodellerVirksomhetsfokus
World Labs MarbleStatisk 3D-genereringNedlastbar, redigerbar, VR-klar

Avveiningen er klar. Sanntidsmodeller som Oasis tilbyr umiddelbarhet men ustabilitet. Marble prioriterer persistens og redigerbarhet over interaktivitet.

Kobling til videogenerering

💡

For bakgrunn om diffusjonsarkitekturer brukt i romlig AI, se vår teknisk oversikt over diffusjonstransformatorer.

Hvordan forholder 3D-verdensgenerering seg til video? De deler matematiske fundamenter i diffusjonsmodeller, men løser forskjellige problemer.

Videogenerering skaper tidsmessige sekvenser, bilde etter bilde. Romlig AI skaper geometriske representasjoner, overflater og volumer. Video svarer "hva skjer nå?" Romlig AI svarer "hva finnes her?"

Konvergenspunktet: navigerbar video. Generer en 3D-verden, render deretter video mens du beveger deg gjennom den. Denne tilnærmingen tilbyr kamerakontroll umulig med ren videogenerering.

Begrensninger å vurdere

Marble er ikke en komplett løsning:

  • Ingen animerte karakterer eller dynamiske elementer
  • Genereringsgrenser kan begrense produksjonsarbeidsflyter
  • Kantforringelse krever utvidelsespass
  • Kun statiske miljøer

For animert innhold trenger du fortsatt videogenereringsmodeller. Marble utmerker seg i miljøer og rom, ikke aktører eller handlinger.

Det større bildet

Fei-Fei Li ser romlig intelligens som essensiell for AI-fremgang:

"Jeg tror vi alle har et ansvar for å lede AI til en bedre tilstand etter hvert som den blir kraftigere. Vi burde alle ønske at menneskeheten skal seire og blomstre."

Hennes visjon strekker seg utover underholdning. Medisinske simuleringer hvor studenter utforsker anatomi. Vitenskapelige visualiseringer hvor forskere navigerer molekylære strukturer. Robotiske treningsmiljøer generert på forespørsel.

Marble er steg én, et kommersielt proof of concept. Forskningen fortsetter mot mer dynamisk, interaktiv og fysisk nøyaktig verdensgenerering.

Kom i gang

World Labs tilbyr et gratis nivå med 4 genereringer per måned. Nok til å evaluere teknologien og forstå dens begrensninger.

For skapere som allerede arbeider i 3D, integreres mesh-eksportkapasiteten med eksisterende pipelines. For videoprodusenter gir videoeksport pre-visualiseringskapasitet utilgjengelig andre steder.

💡

Relatert lesning: Vår guide til AI-videokaraktærkonsistens dekker teknikker for å opprettholde koherens på tvers av generert innhold, en utfordring Marble adresserer gjennom persistent 3D-representasjon.

Overgangen fra 2D-generering til 3D-verdensskaping representerer et fundamentalt skifte i hva AI kan produsere. Marble gjør dette skiftet tilgjengelig.

Var denne artikkelen nyttig?

Alexis

Alexis

KI-ingeniør

KI-ingeniør fra Lausanne som kombinerer forskningsdybde med praktisk innovasjon. Deler tiden mellom modellarkitekturer og alpine topper.

Relaterte artikler

Fortsett å utforske med disse relaterte innleggene

Likte du denne artikkelen?

Oppdag mer innsikt og hold deg oppdatert på vårt nyeste innhold.

World Labs Marble: Fei-Fei Lis visjon for romlig intelligens