World Labs Marble: La Visión de Fei-Fei Li para la Inteligencia Espacial
La pionera de la IA Fei-Fei Li lanza Marble, una plataforma comercial que genera mundos 3D explorables desde texto e imágenes, marcando una nueva frontera en la IA espacial.

De ImageNet a Modelos del Mundo
Para entender cómo los modelos del mundo encajan en la evolución del video con IA, consulta nuestra visión general de los modelos del mundo como la próxima frontera.
Fei-Fei Li revolucionó la visión por computadora con ImageNet, el conjunto de datos que hizo posible el aprendizaje profundo moderno. Ahora, después de un año construyendo World Labs con $230 millones en financiamiento, ha lanzado Marble, el primer producto comercial de la compañía.
La tesis es simple: la IA conquistó el texto, luego las imágenes, luego el video. La próxima frontera es la inteligencia espacial, la capacidad de percibir, generar e interactuar con mundos 3D.
Qué Hace Marble
Marble genera entornos 3D persistentes y descargables a partir de múltiples tipos de entrada:
- ✓Prompts de texto
- ✓Imágenes individuales
- ✓Videos
- ✓Panoramas
- ✓Diseños 3D
A diferencia de los modelos del mundo en tiempo real de competidores como Oasis de Decart o Genie de Google, Marble crea mundos estables con una deformación mínima. Generas una vez, luego exploras libremente sin que la IA "olvide" lo que creó.
El Editor Chisel
Edición 3D Nativa con IA
Chisel separa la estructura espacial del estilo visual. Primero defines tu diseño en bloques, luego aplicas orientación de estilo basada en texto.
Este enfoque híbrido distingue a Marble de los modelos de texto a escena. En lugar de esperar que la IA entienda tu intención espacial, defines la geometría explícitamente. La IA maneja la estética, los materiales y la iluminación.
Piénsalo como hacer un boceto de planta arquitectónica antes de pedirle a un diseñador de interiores que decore. El control sobre las relaciones espaciales sigue siendo tuyo.
Formatos de Exportación y Compatibilidad
Los mundos generados se exportan en tres formatos:
| Formato | Caso de Uso |
|---|---|
| Gaussian Splats | Renderizado en tiempo real, vistas novedosas |
| Mallas | Motores de juego, integración CAD |
| Videos | Creación de contenido, pre-visualización |
Todos los mundos de Marble son compatibles con VR para cascos Vision Pro y Quest 3 desde el inicio.
Estructura de Precios
World Labs ofrece cuatro niveles:
| Nivel | Precio | Generaciones | Características Clave |
|---|---|---|---|
| Gratis | $0 | 4/mes | Entrada de texto, imagen o panorama |
| Estándar | $20/mes | 12/mes | Entrada de múltiples imágenes/video, edición avanzada |
| Pro | $35/mes | 25/mes | Expansión de escenas, derechos comerciales |
| Max | $95/mes | 75/mes | Todas las características, máximas generaciones |
El nivel gratuito te permite evaluar la tecnología. Para trabajo de producción que requiere derechos comerciales, el nivel Pro a $35/mes representa un precio de entrada razonable para una capacidad tan novedosa.
Por Qué Importa la Inteligencia Espacial
"La inteligencia espacial es el desafío definitorio de la próxima década." - Fei-Fei Li
Li argumenta que la IA actual tiene una limitación fundamental: razona pobremente sobre el espacio 3D. Los modelos de lenguaje alucinan física. Los modelos de video crean geometrías imposibles. Los generadores de imágenes luchan con relaciones espaciales consistentes.
Para la robótica, esto importa enormemente. Un robot navegando una cocina necesita comprensión espacial, no predicción de cuadros. Para efectos visuales, los directores necesitan entornos explorables, no trayectorias de cámara fijas.
Casos de Uso Tomando Forma
Videojuegos Genera entornos ambientales y espacios de fondo. Los desarrolladores independientes pueden crear áreas de exploración que requerirían meses de producción artística tradicional.
Efectos Visuales La pre-visualización se vuelve interactiva. Define una escena espacialmente, luego explora ángulos de cámara antes de comprometerte con las tomas.
Arquitectura Convierte planos arquitectónicos en recorridos explorables. Los clientes experimentan espacios antes de que comience la construcción.
Educación Li imagina estudiantes caminando dentro de una célula, cirujanos practicando dentro de simulaciones anatómicas.
Expansión del Mundo y Modo Compositor
Dos características abordan las limitaciones de escala:
Expansión del Mundo te permite extender un mundo generado una vez, agregando detalle a las regiones de borde donde la calidad típicamente se degrada. Esto empuja los límites del espacio explorable más allá de los límites de generación inicial.
Modo Compositor combina múltiples mundos en entornos más grandes. Genera habitaciones individuales, luego únelas en un edificio completo.
Estas herramientas reconocen las limitaciones actuales mientras proporcionan soluciones prácticas.
El Panorama de la Competencia
Marble entra en un campo abarrotado:
| Producto | Enfoque | Diferenciador |
|---|---|---|
| Decart Oasis | Generación de juegos en tiempo real | Interactivo, pero los mundos cambian durante la exploración |
| Google Genie | Generación de mundos de juego | Predicción de cuadros sin verdadero 3D |
| Odyssey | Modelos de mundo persistentes | Enfoque empresarial |
| World Labs Marble | Generación 3D estática | Descargable, editable, listo para VR |
El compromiso es claro. Los modelos en tiempo real como Oasis ofrecen inmediatez pero inestabilidad. Marble prioriza la persistencia y editabilidad sobre la interactividad.
Conexión con la Generación de Video
Para conocer las arquitecturas de difusión utilizadas en IA espacial, consulta nuestra visión técnica de los transformadores de difusión.
¿Cómo se relaciona la generación de mundos 3D con el video? Comparten fundamentos matemáticos en modelos de difusión, pero resuelven problemas diferentes.
La generación de video crea secuencias temporales, cuadro tras cuadro. La IA espacial crea representaciones geométricas, superficies y volúmenes. El video responde "¿qué sucede después?" La IA espacial responde "¿qué existe aquí?"
El punto de convergencia: video navegable. Genera un mundo 3D, luego renderiza video mientras te mueves a través de él. Este enfoque ofrece control de cámara imposible con la generación pura de video.
Limitaciones a Considerar
Marble no es una solución completa:
- ○Sin personajes animados o elementos dinámicos
- ○Los límites de generación pueden limitar los flujos de trabajo de producción
- ○La degradación de bordes requiere pases de expansión
- ○Solo entornos estáticos
Para contenido animado, aún necesitas modelos de generación de video. Marble sobresale en entornos y espacios, no en actores o acciones.
El Panorama General
Fei-Fei Li ve la inteligencia espacial como esencial para el progreso de la IA:
"Creo que todos tenemos la responsabilidad de llevar la IA a un mejor estado a medida que se vuelve más poderosa. Todos deberíamos querer que la humanidad prevalezca y prospere."
Su visión se extiende más allá del entretenimiento. Simulaciones médicas donde los estudiantes exploran la anatomía. Visualizaciones científicas donde los investigadores navegan estructuras moleculares. Entornos de entrenamiento robótico generados bajo demanda.
Marble es el primer paso, una prueba de concepto comercial. La investigación continúa hacia la generación de mundos más dinámica, interactiva y físicamente precisa.
Comenzando
World Labs ofrece un nivel gratuito con 4 generaciones por mes. Suficiente para evaluar la tecnología y entender sus limitaciones.
Para creadores que ya trabajan en 3D, la capacidad de exportación de mallas se integra con los flujos de trabajo existentes. Para productores de video, la exportación de video proporciona capacidades de pre-visualización no disponibles en otro lugar.
Lectura relacionada: Nuestra guía sobre consistencia de personajes en video con IA cubre técnicas para mantener coherencia a través del contenido generado, un desafío que Marble aborda mediante la representación 3D persistente.
La transición de la generación 2D a la creación de mundos 3D representa un cambio fundamental en lo que la IA puede producir. Marble hace ese cambio accesible.
¿Te resultó útil este artículo?

Alexis
Ingeniero de IAIngeniero de IA de Lausana que combina profundidad investigadora con innovación práctica. Divide su tiempo entre arquitecturas de modelos y picos alpinos.
Artículos relacionados
Continúa explorando con estos artículos relacionados

Runway GWM-1: El modelo mundial general que simula la realidad en tiempo real
El GWM-1 de Runway marca un cambio de paradigma desde generar videos a simular mundos. Descubre cómo este modelo autorregresivo crea entornos explorables, avatares fotorrealistas y simulaciones de entrenamiento robótico.

YouTube trae Veo 3 Fast a Shorts: generación de video con IA gratis para 2.500 millones de usuarios
Google integra su modelo Veo 3 Fast directamente en YouTube Shorts, ofreciendo generación de video desde texto con audio para creadores de todo el mundo, completamente gratis. Esto es lo que significa para la plataforma y la accesibilidad del video con IA.

Modelos de lenguaje de video: la próxima frontera después de los LLM y los agentes de IA
Los modelos del mundo están enseñando a la IA a comprender la realidad física, permitiendo que los robots planifiquen acciones y simulen resultados antes de mover un solo actuador.