Meta Pixel
AlexisAlexis
7 min read
1369 palabras

World Labs Marble: La Visión de Fei-Fei Li para la Inteligencia Espacial

La pionera de la IA Fei-Fei Li lanza Marble, una plataforma comercial que genera mundos 3D explorables desde texto e imágenes, marcando una nueva frontera en la IA espacial.

World Labs Marble: La Visión de Fei-Fei Li para la Inteligencia Espacial
La investigadora que dio a las máquinas la capacidad de ver ahora les enseña a imaginar mundos enteros. Con World Labs Marble, Fei-Fei Li da el siguiente paso más allá de la generación de video hacia entornos 3D persistentes y explorables.

De ImageNet a Modelos del Mundo

💡

Para entender cómo los modelos del mundo encajan en la evolución del video con IA, consulta nuestra visión general de los modelos del mundo como la próxima frontera.

Fei-Fei Li revolucionó la visión por computadora con ImageNet, el conjunto de datos que hizo posible el aprendizaje profundo moderno. Ahora, después de un año construyendo World Labs con $230 millones en financiamiento, ha lanzado Marble, el primer producto comercial de la compañía.

La tesis es simple: la IA conquistó el texto, luego las imágenes, luego el video. La próxima frontera es la inteligencia espacial, la capacidad de percibir, generar e interactuar con mundos 3D.

$230M
Financiamiento Obtenido
4
Niveles de Precios
3D
Salida Nativa

Qué Hace Marble

Marble genera entornos 3D persistentes y descargables a partir de múltiples tipos de entrada:

  • Prompts de texto
  • Imágenes individuales
  • Videos
  • Panoramas
  • Diseños 3D

A diferencia de los modelos del mundo en tiempo real de competidores como Oasis de Decart o Genie de Google, Marble crea mundos estables con una deformación mínima. Generas una vez, luego exploras libremente sin que la IA "olvide" lo que creó.

El Editor Chisel

🔨

Edición 3D Nativa con IA

Chisel separa la estructura espacial del estilo visual. Primero defines tu diseño en bloques, luego aplicas orientación de estilo basada en texto.

Este enfoque híbrido distingue a Marble de los modelos de texto a escena. En lugar de esperar que la IA entienda tu intención espacial, defines la geometría explícitamente. La IA maneja la estética, los materiales y la iluminación.

Piénsalo como hacer un boceto de planta arquitectónica antes de pedirle a un diseñador de interiores que decore. El control sobre las relaciones espaciales sigue siendo tuyo.

Formatos de Exportación y Compatibilidad

Los mundos generados se exportan en tres formatos:

FormatoCaso de Uso
Gaussian SplatsRenderizado en tiempo real, vistas novedosas
MallasMotores de juego, integración CAD
VideosCreación de contenido, pre-visualización
💡

Todos los mundos de Marble son compatibles con VR para cascos Vision Pro y Quest 3 desde el inicio.

Estructura de Precios

World Labs ofrece cuatro niveles:

NivelPrecioGeneracionesCaracterísticas Clave
Gratis$04/mesEntrada de texto, imagen o panorama
Estándar$20/mes12/mesEntrada de múltiples imágenes/video, edición avanzada
Pro$35/mes25/mesExpansión de escenas, derechos comerciales
Max$95/mes75/mesTodas las características, máximas generaciones

El nivel gratuito te permite evaluar la tecnología. Para trabajo de producción que requiere derechos comerciales, el nivel Pro a $35/mes representa un precio de entrada razonable para una capacidad tan novedosa.

Por Qué Importa la Inteligencia Espacial

"La inteligencia espacial es el desafío definitorio de la próxima década." - Fei-Fei Li

Li argumenta que la IA actual tiene una limitación fundamental: razona pobremente sobre el espacio 3D. Los modelos de lenguaje alucinan física. Los modelos de video crean geometrías imposibles. Los generadores de imágenes luchan con relaciones espaciales consistentes.

Enfoques Actuales
Los modelos de video generan secuencias de cuadros sin verdadera comprensión 3D. Los movimientos de cámara revelan inconsistencias. Los objetos cambian de posición o desaparecen.
Inteligencia Espacial
La representación 3D nativa permite mundos físicamente consistentes. Mueve la cámara libremente. El entorno persiste porque existe como geometría, no como píxeles.

Para la robótica, esto importa enormemente. Un robot navegando una cocina necesita comprensión espacial, no predicción de cuadros. Para efectos visuales, los directores necesitan entornos explorables, no trayectorias de cámara fijas.

Casos de Uso Tomando Forma

Videojuegos Genera entornos ambientales y espacios de fondo. Los desarrolladores independientes pueden crear áreas de exploración que requerirían meses de producción artística tradicional.

Efectos Visuales La pre-visualización se vuelve interactiva. Define una escena espacialmente, luego explora ángulos de cámara antes de comprometerte con las tomas.

Arquitectura Convierte planos arquitectónicos en recorridos explorables. Los clientes experimentan espacios antes de que comience la construcción.

Educación Li imagina estudiantes caminando dentro de una célula, cirujanos practicando dentro de simulaciones anatómicas.

Expansión del Mundo y Modo Compositor

Dos características abordan las limitaciones de escala:

Expansión del Mundo te permite extender un mundo generado una vez, agregando detalle a las regiones de borde donde la calidad típicamente se degrada. Esto empuja los límites del espacio explorable más allá de los límites de generación inicial.

Modo Compositor combina múltiples mundos en entornos más grandes. Genera habitaciones individuales, luego únelas en un edificio completo.

Estas herramientas reconocen las limitaciones actuales mientras proporcionan soluciones prácticas.

El Panorama de la Competencia

Marble entra en un campo abarrotado:

ProductoEnfoqueDiferenciador
Decart OasisGeneración de juegos en tiempo realInteractivo, pero los mundos cambian durante la exploración
Google GenieGeneración de mundos de juegoPredicción de cuadros sin verdadero 3D
OdysseyModelos de mundo persistentesEnfoque empresarial
World Labs MarbleGeneración 3D estáticaDescargable, editable, listo para VR

El compromiso es claro. Los modelos en tiempo real como Oasis ofrecen inmediatez pero inestabilidad. Marble prioriza la persistencia y editabilidad sobre la interactividad.

Conexión con la Generación de Video

💡

Para conocer las arquitecturas de difusión utilizadas en IA espacial, consulta nuestra visión técnica de los transformadores de difusión.

¿Cómo se relaciona la generación de mundos 3D con el video? Comparten fundamentos matemáticos en modelos de difusión, pero resuelven problemas diferentes.

La generación de video crea secuencias temporales, cuadro tras cuadro. La IA espacial crea representaciones geométricas, superficies y volúmenes. El video responde "¿qué sucede después?" La IA espacial responde "¿qué existe aquí?"

El punto de convergencia: video navegable. Genera un mundo 3D, luego renderiza video mientras te mueves a través de él. Este enfoque ofrece control de cámara imposible con la generación pura de video.

Limitaciones a Considerar

Marble no es una solución completa:

  • Sin personajes animados o elementos dinámicos
  • Los límites de generación pueden limitar los flujos de trabajo de producción
  • La degradación de bordes requiere pases de expansión
  • Solo entornos estáticos

Para contenido animado, aún necesitas modelos de generación de video. Marble sobresale en entornos y espacios, no en actores o acciones.

El Panorama General

Fei-Fei Li ve la inteligencia espacial como esencial para el progreso de la IA:

"Creo que todos tenemos la responsabilidad de llevar la IA a un mejor estado a medida que se vuelve más poderosa. Todos deberíamos querer que la humanidad prevalezca y prospere."

Su visión se extiende más allá del entretenimiento. Simulaciones médicas donde los estudiantes exploran la anatomía. Visualizaciones científicas donde los investigadores navegan estructuras moleculares. Entornos de entrenamiento robótico generados bajo demanda.

Marble es el primer paso, una prueba de concepto comercial. La investigación continúa hacia la generación de mundos más dinámica, interactiva y físicamente precisa.

Comenzando

World Labs ofrece un nivel gratuito con 4 generaciones por mes. Suficiente para evaluar la tecnología y entender sus limitaciones.

Para creadores que ya trabajan en 3D, la capacidad de exportación de mallas se integra con los flujos de trabajo existentes. Para productores de video, la exportación de video proporciona capacidades de pre-visualización no disponibles en otro lugar.

💡

Lectura relacionada: Nuestra guía sobre consistencia de personajes en video con IA cubre técnicas para mantener coherencia a través del contenido generado, un desafío que Marble aborda mediante la representación 3D persistente.

La transición de la generación 2D a la creación de mundos 3D representa un cambio fundamental en lo que la IA puede producir. Marble hace ese cambio accesible.

¿Te resultó útil este artículo?

Alexis

Alexis

Ingeniero de IA

Ingeniero de IA de Lausana que combina profundidad investigadora con innovación práctica. Divide su tiempo entre arquitecturas de modelos y picos alpinos.

Artículos relacionados

Continúa explorando con estos artículos relacionados

¿Te gustó este artículo?

Descubre más ideas y mantente al día con nuestro contenido más reciente.

World Labs Marble: La Visión de Fei-Fei Li para la Inteligencia Espacial