World Labs Marble: Fei-Fei Lis vision for rumlig intelligens

Forskeren der gav maskiner evnen til at se, lærer dem nu at forestille sig hele verdener. Med World Labs Marble tager Fei-Fei Li næste skridt ud over videogenerering til persistente, udforskelige 3D-miljøer.

Fra ImageNet til verdensmodeller

💡

For kontekst om hvordan verdensmodeller passer ind i AI-videoudvikling, se vores oversigt over verdensmodeller som den næste grænse.

Fei-Fei Li revolutionerede computersyn med ImageNet, datasættet der gjorde moderne deep learning muligt. Nu, efter et år med at bygge World Labs med 230 millioner dollars i finansiering, har hun lanceret Marble, virksomhedens første kommercielle produkt.

Tesen er enkel: AI har erobret tekst, derefter billeder, derefter video. Den næste grænse er rumlig intelligens, evnen til at opfatte, generere og interagere med 3D-verdener.

$230M

Rejst finansiering

Prisniveauer

Nativt output

Hvad Marble gør

Marble genererer persistente, downloadbare 3D-miljøer fra flere inputtyper:

✓Tekstprompts
✓Enkelte billeder
✓Videoer
✓Panoramaer
✓3D-layouts

I modsætning til realtids-verdensmodeller fra konkurrenter som Decarts Oasis eller Googles Genie, skaber Marble stabile verdener med minimal forvrængning. Du genererer én gang, derefter udforsker du frit uden at AI'en "glemmer" hvad den skabte.

Chisel-editoren

🔨

AI-native 3D-redigering

Chisel adskiller rumlig struktur fra visuel stil. Planlæg dit layout først, anvend derefter tekstbaseret stilguide.

Denne hybridtilgang adskiller Marble fra tekst-til-scene-modeller. I stedet for at håbe på at AI'en forstår din rumlige hensigt, definerer du geometrien eksplicit. AI'en håndterer æstetik, materialer og belysning.

Tænk på det som at skitsere en grundplan før du beder en indretningsarkitekt om at dekorere. Kontrollen over rumlige forhold forbliver din.

Eksportformater og kompatibilitet

Genererede verdener eksporteres i tre formater:

Format	Anvendelse
Gaussian Splats	Realtidsrendering, nye vinkler
Meshes	Spilmotorer, CAD-integration
Videoer	Indholdsproduktion, pre-vis

💡

Alle Marble-verdener er VR-kompatible med Vision Pro og Quest 3 headsets uden videre.

Prisstruktur

World Labs tilbyder fire niveauer:

Niveau	Pris	Genereringer	Nøglefunktioner
Gratis	$0	4/måned	Tekst-, billed- eller panoramainput
Standard	$20/måned	12/måned	Multi-billed/video-input, avanceret redigering
Pro	$35/måned	25/måned	Sceneudvidelse, kommercielle rettigheder
Max	$95/måned	75/måned	Alle funktioner, maksimale genereringer

Det gratis niveau lader dig evaluere teknologien. For produktionsarbejde der kræver kommercielle rettigheder, repræsenterer Pro-niveauet til $35/måned en rimelig indgangspris for en så ny kapabilitet.

Hvorfor rumlig intelligens betyder noget

"Rumlig intelligens er den definerende udfordring i det næste årti." - Fei-Fei Li

Li argumenterer for at nuværende AI har en fundamental begrænsning: den ræsonnerer dårligt om 3D-rum. Sprogmodeller hallucinerer fysik. Videomodeller skaber umulige geometrier. Billedgeneratorer kæmper med konsistente rumlige forhold.

✗Nuværende tilgange

Videomodeller genererer billede-sekvenser uden ægte 3D-forståelse. Kamerabevægelser afslører inkonsistenser. Objekter skifter position eller forsvinder.

✓Rumlig intelligens

Nativ 3D-repræsentation muliggør fysisk konsistente verdener. Bevæg kameraet frit. Miljøet består fordi det eksisterer som geometri, ikke pixels.

For robotik betyder dette enormt. En robot der navigerer i et køkken har brug for rumlig forståelse, ikke billedprædiktion. For VFX har instruktører brug for udforskelige miljøer, ikke faste kamerabaner.

Brugssager tager form

Gaming Generer omgivende miljøer og baggrundslokationer. Indie-udviklere kan skabe udforskningsmuligheder der ville kræve måneder af traditionel kunstproduktion.

Visuelle effekter Pre-visualisering bliver interaktiv. Planlæg en scene rumligt, udforsker derefter kameravinkler før du forpligter dig til optagelser.

Arkitektur Konverter grundplaner til udforskelige gennemgange. Kunder oplever rum før byggeri begynder.

Uddannelse Li forestiller sig studerende der vandrer inde i en celle, kirurger der træner inde i anatomiske simuleringer.

Verdensudvidelse og komponisttilstand

To funktioner håndterer skalagrænser:

Verdensudvidelse lader dig udvide en genereret verden én gang, tilføje detaljer til kantområder hvor kvalitet typisk forringes. Dette skubber grænserne for udforskeligt rum ud over oprindelige genereringsgrænser.

Komponisttilstand kombinerer flere verdener til større miljøer. Generer individuelle rum, sy dem derefter sammen til en komplet bygning.

Disse værktøjer anerkender nuværende begrænsninger samtidig med at de giver praktiske løsninger.

Konkurrencelandskabet

Marble træder ind i et overfyldt felt:

Produkt	Tilgang	Differentieringsfaktor
Decart Oasis	Realtids-spilgenerering	Interaktiv, men verdener skifter under udforskning
Google Genie	Spilverdensgenerering	Billedprædiktion uden ægte 3D
Odyssey	Persistente verdensmodeller	Virksomhedsfokus
World Labs Marble	Statisk 3D-generering	Downloadbar, redigerbar, VR-klar

Kompromisset er klart. Realtidsmodeller som Oasis tilbyder umiddelbarhed men ustabilitet. Marble prioriterer persistens og redigerbarhed over interaktivitet.

Forbindelse til videogenerering

💡

For baggrund om diffusionsarkitekturer brugt i rumlig AI, se vores teknisk oversigt over diffusionstransformere.

Hvordan forholder 3D-verdensgenerering sig til video? De deler matematiske fundamenter i diffusionsmodeller, men løser forskellige problemer.

Videogenerering skaber tidsmæssige sekvenser, billede efter billede. Rumlig AI skaber geometriske repræsentationer, overflader og volumener. Video besvarer "hvad sker der nu?" Rumlig AI besvarer "hvad eksisterer her?"

Konvergenspunktet: navigerbar video. Generer en 3D-verden, render derefter video mens du bevæger dig gennem den. Denne tilgang tilbyder kamerakontrol umulig med ren videogenerering.

Begrænsninger at overveje

Marble er ikke en komplet løsning:

○Ingen animerede karakterer eller dynamiske elementer
○Genereringsgrænser kan begrænse produktionsworkflows
○Kantforringelse kræver udvidelsesgange
○Kun statiske miljøer

For animeret indhold har du stadig brug for videogenereringsmodeller. Marble udmærker sig ved miljøer og rum, ikke aktører eller handlinger.

Det større billede

Fei-Fei Li ser rumlig intelligens som essentiel for AI-fremskridt:

"Jeg tror vi alle har et ansvar for at føre AI til en bedre tilstand efterhånden som den bliver mere kraftfuld. Vi burde alle ønske at menneskeheden sejrer og trives."

Hendes vision strækker sig ud over underholdning. Medicinske simuleringer hvor studerende udforsker anatomi. Videnskabelige visualiseringer hvor forskere navigerer molekylære strukturer. Robotiske treningsmiljøer genereret på efterspørgsel.

Marble er trin ét, et kommercielt proof of concept. Forskningen fortsætter mod mere dynamisk, interaktiv og fysisk nøjagtig verdensgenerering.

Kom i gang

World Labs tilbyder et gratis niveau med 4 genereringer per måned. Nok til at evaluere teknologien og forstå dens begrænsninger.

For skabere der allerede arbejder i 3D, integreres mesh-eksportkapabiliteten med eksisterende pipelines. For videoproducenter giver videoeksport pre-visualiseringskapabiliteter utilgængelige andre steder.

💡

Relateret læsning: Vores guide til AI-videotegnkonsistens dækker teknikker til at opretholde koherens på tværs af genereret indhold, en udfordring Marble adresserer gennem persistent 3D-repræsentation.

Overgangen fra 2D-generering til 3D-verdensskabelse repræsenterer et fundamentalt skift i hvad AI kan producere. Marble gør dette skift tilgængeligt.