World Labs Marble: Fei-Fei Lis vision för rumslig intelligens

Forskaren som gav maskiner förmågan att se lär dem nu att föreställa sig hela världar. Med World Labs Marble tar Fei-Fei Li nästa steg bortom videogenerering till persistenta, utforskningsbara 3D-miljöer.

Från ImageNet till världsmodeller

💡

För kontext om hur världsmodeller passar in i AI-videoutveckling, se vår översikt över världsmodeller som nästa gräns.

Fei-Fei Li revolutionerade datorseende med ImageNet, datasetet som gjorde modern deep learning möjlig. Nu, efter ett år av att bygga World Labs med 230 miljoner dollar i finansiering, har hon lanserat Marble, företagets första kommersiella produkt.

Tesen är enkel: AI har erövrat text, sedan bilder, sedan video. Nästa gräns är rumslig intelligens, förmågan att uppfatta, generera och interagera med 3D-världar.

$230M

Finansiering

Prisnivåer

Nativ output

Vad Marble gör

Marble genererar persistenta, nedladdningsbara 3D-miljöer från flera inputtyper:

✓Textprompter
✓Enstaka bilder
✓Videor
✓Panoramor
✓3D-layouter

Till skillnad från realtidsvärldsmodeller från konkurrenter som Decarts Oasis eller Googles Genie skapar Marble stabila världar med minimal förvrängning. Du genererar en gång, sedan utforskar du fritt utan att AI:n "glömmer" vad den skapade.

Chisel-editorn

🔨

AI-nativ 3D-redigering

Chisel separerar rumslig struktur från visuell stil. Planera din layout först, applicera sedan textbaserad stilguide.

Detta hybridangreppssätt skiljer Marble från text-till-scen-modeller. Istället för att hoppas att AI:n förstår din rumsliga intention definierar du geometrin explicit. AI:n hanterar estetik, material och belysning.

Tänk på det som att skissa en planlösning innan du ber en inredningsarkitekt dekorera. Kontrollen över rumsliga relationer förblir din.

Exportformat och kompatibilitet

Genererade världar exporteras i tre format:

Format	Användning
Gaussian Splats	Realtidsrendering, nya vyer
Meshes	Spelmotorer, CAD-integration
Videor	Innehållsproduktion, pre-vis

💡

Alla Marble-världar är VR-kompatibla med Vision Pro och Quest 3 headset direkt.

Prisstruktur

World Labs erbjuder fyra nivåer:

Nivå	Pris	Genereringar	Nyckelfunktioner
Gratis	$0	4/månad	Text-, bild- eller panoramainput
Standard	$20/månad	12/månad	Multi-bild/video-input, avancerad redigering
Pro	$35/månad	25/månad	Scenutvidgning, kommersiella rättigheter
Max	$95/månad	75/månad	Alla funktioner, maximala genereringar

Den kostnadsfria nivån låter dig utvärdera tekniken. För produktionsarbete som kräver kommersiella rättigheter representerar Pro-nivån på $35/månad ett rimligt inträde för en så ny kapacitet.

Varför rumslig intelligens spelar roll

"Rumslig intelligens är den avgörande utmaningen för nästa decennium." - Fei-Fei Li

Li menar att nuvarande AI har en fundamental begränsning: den resonerar dåligt om 3D-rum. Språkmodeller hallucinerar fysik. Videomodeller skapar omöjliga geometrier. Bildgenererare kämpar med konsekventa rumsliga relationer.

✗Nuvarande tillvägagångssätt

Videomodeller genererar bildsekvenser utan äkta 3D-förståelse. Kamerarörelser avslöjar inkonsekvenser. Objekt byter position eller försvinner.

✓Rumslig intelligens

Nativ 3D-representation möjliggör fysiskt konsekventa världar. Flytta kameran fritt. Miljön består eftersom den existerar som geometri, inte pixlar.

För robotik spelar detta en enorm roll. En robot som navigerar i ett kök behöver rumslig förståelse, inte bildprediktering. För VFX behöver regissörer utforskningsbara miljöer, inte fasta kamerabanor.

Användningsfall tar form

Gaming Generera omgivande miljöer och bakgrundsplatser. Indie-utvecklare kan skapa utforskningsområden som skulle kräva månader av traditionell konstproduktion.

Visuella effekter Pre-visualisering blir interaktiv. Planera en scen rumsligt, utforska sedan kameravinklar innan du förbinder dig till tagningar.

Arkitektur Konvertera planlösningar till utforskningsbara genomgångar. Kunder upplever utrymmen innan byggstart.

Utbildning Li föreställer sig studenter som vandrar inne i en cell, kirurger som tränar inne i anatomiska simuleringar.

Världsutvidgning och kompositionsläge

Två funktioner hanterar skalningsbegränsningar:

Världsutvidgning låter dig utöka en genererad värld en gång, lägga till detaljer i kantområden där kvalitet typiskt försämras. Detta driver gränserna för utforskningsbart rum bortom initiala genereringsgränser.

Kompositionsläge kombinerar flera världar till större miljöer. Generera enskilda rum, sy sedan ihop dem till en komplett byggnad.

Dessa verktyg erkänner nuvarande begränsningar samtidigt som de tillhandahåller praktiska lösningar.

Konkurrenslandskapet

Marble träder in i ett fyllt fält:

Produkt	Tillvägagångssätt	Differentieringsfaktor
Decart Oasis	Realtidsspelgenerering	Interaktiv, men världar skiftar under utforskning
Google Genie	Spelvärldsgenererering	Bildprediktion utan äkta 3D
Odyssey	Persistenta världsmodeller	Företagsfokus
World Labs Marble	Statisk 3D-generering	Nedladdningsbar, redigerbar, VR-redo

Avvägningen är tydlig. Realtidsmodeller som Oasis erbjuder omedelbarhet men instabilitet. Marble prioriterar persistens och redigerbarhet över interaktivitet.

Koppling till videogenerering

💡

För bakgrund om diffusionsarkitekturer som används i rumslig AI, se vår tekniska översikt över diffusionstransformatorer.

Hur förhåller sig 3D-världsgenerering till video? De delar matematiska grunder i diffusionsmodeller, men löser olika problem.

Videogenerering skapar tidsmässiga sekvenser, bild efter bild. Rumslig AI skapar geometriska representationer, ytor och volymer. Video besvarar "vad händer härnäst?" Rumslig AI besvarar "vad finns här?"

Konvergenspunkten: navigerbar video. Generera en 3D-värld, rendera sedan video medan du rör dig genom den. Detta tillvägagångssätt erbjuder kamerakontroll omöjlig med ren videogenerering.

Begränsningar att överväga

Marble är inte en komplett lösning:

○Inga animerade karaktärer eller dynamiska element
○Genereringsgränser kan begränsa produktionsarbetsflöden
○Kantförsämring kräver utvidgningspass
○Endast statiska miljöer

För animerat innehåll behöver du fortfarande videogenereringsmodeller. Marble excellerar i miljöer och rum, inte aktörer eller handlingar.

Den större bilden

Fei-Fei Li ser rumslig intelligens som väsentlig för AI-framsteg:

"Jag tror vi alla har ett ansvar för att leda AI till ett bättre tillstånd när den blir kraftfullare. Vi borde alla vilja att mänskligheten ska segra och blomstra."

Hennes vision sträcker sig bortom underhållning. Medicinska simuleringar där studenter utforskar anatomi. Vetenskapliga visualiseringar där forskare navigerar molekylära strukturer. Robotiska träningsmiljöer genererade på begäran.

Marble är steg ett, ett kommersiellt proof of concept. Forskningen fortsätter mot mer dynamisk, interaktiv och fysiskt noggrann världsgenerering.

Kom igång

World Labs erbjuder en gratis nivå med 4 genereringar per månad. Tillräckligt för att utvärdera tekniken och förstå dess begränsningar.

För skapare som redan arbetar i 3D integreras mesh-exportkapaciteten med befintliga pipelines. För videoproducenter ger videoexport pre-visualiseringskapacitet otillgänglig någon annanstans.

💡

Relaterad läsning: Vår guide till AI-videokaraktärskonsistens täcker tekniker för att upprätthålla koherens över genererat innehåll, en utmaning Marble adresserar genom persistent 3D-representation.

Övergången från 2D-generering till 3D-världsskapande representerar ett fundamentalt skifte i vad AI kan producera. Marble gör detta skifte tillgängligt.