World Labs Marble: La visió de Fei-Fei Li per a la intel·ligència espacial
La pionera de l'IA Fei-Fei Li llança Marble, una plataforma comercial que genera mons 3D explorables a partir de text i imatges, marcant una nova frontera en IA espacial.

De ImageNet als models del món
Per a context sobre com els models del món encaixen en l'evolució del vídeo amb IA, consulta la nostra visió general dels models del món com la propera frontera.
Fei-Fei Li va revolucionar la visió per computador amb ImageNet, el conjunt de dades que va fer possible l'aprenentatge profund modern. Ara, després d'un any de construir World Labs amb $230 milions de finançament, ha llançat Marble, el primer producte comercial de l'empresa.
La tesi és simple: l'IA ha conquistat el text, després les imatges, després el vídeo. La propera frontera és la intel·ligència espacial, la capacitat de percebre, generar i interactuar amb mons 3D.
Què fa Marble
Marble genera entorns 3D persistents i descarregables a partir de múltiples tipus d'entrada:
- ✓Prompts de text
- ✓Imatges individuals
- ✓Vídeos
- ✓Panoràmiques
- ✓Dissenys 3D
A diferència dels models del món en temps real de competidors com Oasis de Decart o Genie de Google, Marble crea mons estables amb transformació mínima. Generes una vegada, després explores lliurement sense que l'IA "oblidi" el que va crear.
L'editor Chisel
Edició 3D nativa d'IA
Chisel desacobla l'estructura espacial de l'estil visual. Esbossa primer el teu disseny, després aplica orientació d'estil basada en text.
Aquest enfocament híbrid distingeix Marble dels models text-a-escena. En lloc d'esperar que l'IA entengui la teva intenció espacial, defineixes la geometria explícitament. L'IA s'encarrega de l'estètica, materials i il·luminació.
Pensa-ho com esbossar un plànol d'habitatge abans de demanar a un dissenyador d'interiors que el decorin. El control sobre les relacions espacials continua sent teu.
Formats d'exportació i compatibilitat
Els mons generats s'exporten en tres formats:
| Format | Cas d'ús |
|---|---|
| Gaussian Splats | Renderització en temps real, vistes noves |
| Malles | Motors de jocs, integració CAD |
| Vídeos | Creació de contingut, pre-visualització |
Tots els mons Marble són compatibles amb VR amb auriculars Vision Pro i Quest 3 des del primer moment.
Estructura de preus
World Labs ofereix quatre nivells:
| Nivell | Preu | Generacions | Característiques clau |
|---|---|---|---|
| Gratuït | $0 | 4/mes | Entrada de text, imatge o panoràmica |
| Estàndard | $20/mes | 12/mes | Entrada multi-imatge/vídeo, edició avançada |
| Pro | $35/mes | 25/mes | Expansió d'escena, drets comercials |
| Max | $95/mes | 75/mes | Totes les característiques, màxim de generacions |
El nivell gratuït et permet avaluar la tecnologia. Per a treball de producció que requereix drets comercials, el nivell Pro a $35/mes representa un preu d'entrada raonable per a una capacitat tan nova.
Per què importa la intel·ligència espacial
"La intel·ligència espacial és el desafiament definitiu de la propera dècada." - Fei-Fei Li
Li argumenta que l'IA actual té una limitació fonamental: raona malament sobre l'espai 3D. Els models de llenguatge al·lucinen física. Els models de vídeo creen geometries impossibles. Els generadors d'imatges tenen dificultats amb relacions espacials consistents.
Per a la robòtica, això importa enormement. Un robot navegant una cuina necessita comprensió espacial, no predicció de fotogrames. Per a VFX, els directors necessiten entorns explorables, no camins de càmera fixos.
Casos d'ús prenent forma
Jocs Genera entorns ambientals i espais de fons. Els desenvolupadors independents poden crear àrees d'exploració que requeririen mesos de producció d'art tradicional.
Efectes visuals La pre-visualització es fa interactiva. Esbossa una escena espacialment, després explora angles de càmera abans de comprometre't amb plans.
Arquitectura Converteix plànols en passejos explorables. Els clients experimenten espais abans que comenci la construcció.
Educació Li imagina estudiants caminant dins d'una cèl·lula, cirurgians practicant dins de simulacions anatòmiques.
Expansió del món i mode compositor
Dues característiques aborden les limitacions d'escala:
L'expansió del món et permet estendre un món generat una vegada, afegint detall a regions de vora on la qualitat típicament es degrada. Això empeny els límits de l'espai explorable més enllà dels límits de generació inicial.
El mode compositor combina múltiples mons en entorns més grans. Genera habitacions individuals, després uneix-les en un edifici complet.
Aquestes eines reconeixen les restriccions actuals mentre proporcionen solucions pràctiques.
El panorama de la competència
Marble entra en un camp concorregut:
| Producte | Enfocament | Diferenciador |
|---|---|---|
| Decart Oasis | Generació de jocs en temps real | Interactiu, però els mons canvien durant l'exploració |
| Google Genie | Generació de mons de joc | Predicció de fotogrames sense 3D real |
| Odyssey | Models del món persistents | Focus empresarial |
| World Labs Marble | Generació 3D estàtica | Descarregable, editable, preparat per a VR |
La compensació és clara. Els models en temps real com Oasis ofereixen immediatesa però inestabilitat. Marble prioritza la persistència i l'editabilitat sobre la interactivitat.
Connexió amb la generació de vídeo
Per a antecedents sobre arquitectures de difusió utilitzades en IA espacial, consulta la nostra visió general tècnica dels transformadors de difusió.
Com es relaciona la generació de mons 3D amb el vídeo? Comparteixen fonaments matemàtics en models de difusió, però resolen problemes diferents.
La generació de vídeo crea seqüències temporals, fotograma rere fotograma. L'IA espacial crea representacions geomètriques, superfícies i volums. El vídeo respon "què passa després?" L'IA espacial respon "què existeix aquí?"
El punt de convergència: vídeo navegable. Genera un món 3D, després renderitza vídeo mentre t'hi mous. Aquest enfocament ofereix control de càmera impossible amb generació de vídeo pura.
Limitacions a considerar
Marble no és una solució completa:
- ○No hi ha personatges animats ni elements dinàmics
- ○Els límits de generació poden limitar els fluxos de treball de producció
- ○La degradació de vora requereix passos d'expansió
- ○Només entorns estàtics
Per a contingut animat, encara necessites models de generació de vídeo. Marble destaca en entorns i espais, no actors o accions.
La imatge més gran
Fei-Fei Li veu la intel·ligència espacial com essencial per al progrés de l'IA:
"Crec que tots nosaltres tenim una responsabilitat en portar l'IA a un estat millor a mesura que es fa més poderosa. Tots hauríem de voler que la humanitat prevalgui i prosperi."
La seva visió s'estén més enllà de l'entreteniment. Simulacions mèdiques on els estudiants exploren l'anatomia. Visualitzacions científiques on els investigadors naveguen estructures moleculars. Entorns d'entrenament robòtic generats sota demanda.
Marble és el pas u, una prova de concepte comercial. La investigació continua cap a una generació de mons més dinàmica, interactiva i físicament precisa.
Començant
World Labs ofereix un nivell gratuït amb 4 generacions al mes. Suficient per avaluar la tecnologia i entendre les seves restriccions.
Per als creadors que ja treballen en 3D, la capacitat d'exportació de malla s'integra amb pipelines existents. Per als productors de vídeo, l'exportació de vídeo proporciona capacitats de pre-visualització no disponibles en altres llocs.
Lectura relacionada: La nostra guia de consistència de personatge de vídeo amb IA cobreix tècniques per mantenir la coherència en contingut generat, un desafiament que Marble aborda mitjançant la representació 3D persistent.
La transició de generació 2D a creació de mons 3D representa un canvi fonamental en el que l'IA pot produir. Marble fa aquest canvi accessible.
T'ha resultat útil aquest article?

Alexis
Enginyer d'IAEnginyer d'IA de Lausana que combina profunditat investigadora amb innovació pràctica. Divideix el seu temps entre arquitectures de models i cims alpins.
Articles relacionats
Continua explorant amb aquests articles relacionats

SAM 3D de Meta: 3D instantani des de qualsevol imatge
Meta ha publicat SAM 3D de codi obert, un model que genera representacions 3D completament texturitzades des d'imatges 2D individuals en menys de 0.2 segons. Després de provar-lo extensivament, aquí tens el que realment significa per als fluxos de treball creatius.

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real
El GWM-1 de Runway marca un canvi de paradigma des de generar vídeos fins a simular mons. Descobreix com aquest model autoregressiu crea entorns explorables, avatars fotorealistes i simulacions d'entrenament de robots.

YouTube porta Veo 3 Fast als Shorts: Generació de vídeo amb IA gratuïta per a 2.500 milions d'usuaris
Google integra el seu model Veo 3 Fast directament a YouTube Shorts, oferint generació de vídeo a partir de text amb àudio de manera gratuïta per a creadors de tot el món. Això és el que significa per a la plataforma i l'accessibilitat del vídeo amb IA.