World Labs Marble: La visió de Fei-Fei Li per a la intel·ligència espacial

La investigadora que va donar les màquines la capacitat de veure ara els està ensenyant a imaginar mons sencers. Amb World Labs Marble, Fei-Fei Li dóna el següent pas més enllà de la generació de vídeo cap a entorns 3D persistents i explorables.

De ImageNet als models del món

💡

Per a context sobre com els models del món encaixen en l'evolució del vídeo amb IA, consulta la nostra visió general dels models del món com la propera frontera.

Fei-Fei Li va revolucionar la visió per computador amb ImageNet, el conjunt de dades que va fer possible l'aprenentatge profund modern. Ara, després d'un any de construir World Labs amb $230 milions de finançament, ha llançat Marble, el primer producte comercial de l'empresa.

La tesi és simple: l'IA ha conquistat el text, després les imatges, després el vídeo. La propera frontera és la intel·ligència espacial, la capacitat de percebre, generar i interactuar amb mons 3D.

$230M

Finançament obtingut

Nivells de preus

Sortida nativa

Què fa Marble

Marble genera entorns 3D persistents i descarregables a partir de múltiples tipus d'entrada:

✓Prompts de text
✓Imatges individuals
✓Vídeos
✓Panoràmiques
✓Dissenys 3D

A diferència dels models del món en temps real de competidors com Oasis de Decart o Genie de Google, Marble crea mons estables amb transformació mínima. Generes una vegada, després explores lliurement sense que l'IA "oblidi" el que va crear.

L'editor Chisel

🔨

Edició 3D nativa d'IA

Chisel desacobla l'estructura espacial de l'estil visual. Esbossa primer el teu disseny, després aplica orientació d'estil basada en text.

Aquest enfocament híbrid distingeix Marble dels models text-a-escena. En lloc d'esperar que l'IA entengui la teva intenció espacial, defineixes la geometria explícitament. L'IA s'encarrega de l'estètica, materials i il·luminació.

Pensa-ho com esbossar un plànol d'habitatge abans de demanar a un dissenyador d'interiors que el decorin. El control sobre les relacions espacials continua sent teu.

Formats d'exportació i compatibilitat

Els mons generats s'exporten en tres formats:

Format	Cas d'ús
Gaussian Splats	Renderització en temps real, vistes noves
Malles	Motors de jocs, integració CAD
Vídeos	Creació de contingut, pre-visualització

💡

Tots els mons Marble són compatibles amb VR amb auriculars Vision Pro i Quest 3 des del primer moment.

Estructura de preus

World Labs ofereix quatre nivells:

Nivell	Preu	Generacions	Característiques clau
Gratuït	$0	4/mes	Entrada de text, imatge o panoràmica
Estàndard	$20/mes	12/mes	Entrada multi-imatge/vídeo, edició avançada
Pro	$35/mes	25/mes	Expansió d'escena, drets comercials
Max	$95/mes	75/mes	Totes les característiques, màxim de generacions

El nivell gratuït et permet avaluar la tecnologia. Per a treball de producció que requereix drets comercials, el nivell Pro a $35/mes representa un preu d'entrada raonable per a una capacitat tan nova.

Per què importa la intel·ligència espacial

"La intel·ligència espacial és el desafiament definitiu de la propera dècada." - Fei-Fei Li

Li argumenta que l'IA actual té una limitació fonamental: raona malament sobre l'espai 3D. Els models de llenguatge al·lucinen física. Els models de vídeo creen geometries impossibles. Els generadors d'imatges tenen dificultats amb relacions espacials consistents.

✗Enfocaments actuals

Els models de vídeo generen seqüències de fotogrames sense comprensió 3D real. Els moviments de càmera revelen inconsistències. Els objectes canvien de posició o desapareixen.

✓Intel·ligència espacial

La representació 3D nativa permet mons físicament consistents. Mou la càmera lliurement. L'entorn persisteix perquè existeix com a geometria, no píxels.

Per a la robòtica, això importa enormement. Un robot navegant una cuina necessita comprensió espacial, no predicció de fotogrames. Per a VFX, els directors necessiten entorns explorables, no camins de càmera fixos.

Casos d'ús prenent forma

Jocs Genera entorns ambientals i espais de fons. Els desenvolupadors independents poden crear àrees d'exploració que requeririen mesos de producció d'art tradicional.

Efectes visuals La pre-visualització es fa interactiva. Esbossa una escena espacialment, després explora angles de càmera abans de comprometre't amb plans.

Arquitectura Converteix plànols en passejos explorables. Els clients experimenten espais abans que comenci la construcció.

Educació Li imagina estudiants caminant dins d'una cèl·lula, cirurgians practicant dins de simulacions anatòmiques.

Expansió del món i mode compositor

Dues característiques aborden les limitacions d'escala:

L'expansió del món et permet estendre un món generat una vegada, afegint detall a regions de vora on la qualitat típicament es degrada. Això empeny els límits de l'espai explorable més enllà dels límits de generació inicial.

El mode compositor combina múltiples mons en entorns més grans. Genera habitacions individuals, després uneix-les en un edifici complet.

Aquestes eines reconeixen les restriccions actuals mentre proporcionen solucions pràctiques.

El panorama de la competència

Marble entra en un camp concorregut:

Producte	Enfocament	Diferenciador
Decart Oasis	Generació de jocs en temps real	Interactiu, però els mons canvien durant l'exploració
Google Genie	Generació de mons de joc	Predicció de fotogrames sense 3D real
Odyssey	Models del món persistents	Focus empresarial
World Labs Marble	Generació 3D estàtica	Descarregable, editable, preparat per a VR

La compensació és clara. Els models en temps real com Oasis ofereixen immediatesa però inestabilitat. Marble prioritza la persistència i l'editabilitat sobre la interactivitat.

Connexió amb la generació de vídeo

💡

Per a antecedents sobre arquitectures de difusió utilitzades en IA espacial, consulta la nostra visió general tècnica dels transformadors de difusió.

Com es relaciona la generació de mons 3D amb el vídeo? Comparteixen fonaments matemàtics en models de difusió, però resolen problemes diferents.

La generació de vídeo crea seqüències temporals, fotograma rere fotograma. L'IA espacial crea representacions geomètriques, superfícies i volums. El vídeo respon "què passa després?" L'IA espacial respon "què existeix aquí?"

El punt de convergència: vídeo navegable. Genera un món 3D, després renderitza vídeo mentre t'hi mous. Aquest enfocament ofereix control de càmera impossible amb generació de vídeo pura.

Limitacions a considerar

Marble no és una solució completa:

○No hi ha personatges animats ni elements dinàmics
○Els límits de generació poden limitar els fluxos de treball de producció
○La degradació de vora requereix passos d'expansió
○Només entorns estàtics

Per a contingut animat, encara necessites models de generació de vídeo. Marble destaca en entorns i espais, no actors o accions.

La imatge més gran

Fei-Fei Li veu la intel·ligència espacial com essencial per al progrés de l'IA:

"Crec que tots nosaltres tenim una responsabilitat en portar l'IA a un estat millor a mesura que es fa més poderosa. Tots hauríem de voler que la humanitat prevalgui i prosperi."

La seva visió s'estén més enllà de l'entreteniment. Simulacions mèdiques on els estudiants exploren l'anatomia. Visualitzacions científiques on els investigadors naveguen estructures moleculars. Entorns d'entrenament robòtic generats sota demanda.

Marble és el pas u, una prova de concepte comercial. La investigació continua cap a una generació de mons més dinàmica, interactiva i físicament precisa.

Començant

World Labs ofereix un nivell gratuït amb 4 generacions al mes. Suficient per avaluar la tecnologia i entendre les seves restriccions.

Per als creadors que ja treballen en 3D, la capacitat d'exportació de malla s'integra amb pipelines existents. Per als productors de vídeo, l'exportació de vídeo proporciona capacitats de pre-visualització no disponibles en altres llocs.

💡

Lectura relacionada: La nostra guia de consistència de personatge de vídeo amb IA cobreix tècniques per mantenir la coherència en contingut generat, un desafiament que Marble aborda mitjançant la representació 3D persistent.

La transició de generació 2D a creació de mons 3D representa un canvi fonamental en el que l'IA pot produir. Marble fa aquest canvi accessible.