Meta Pixel
AlexisAlexis
6 min read
1087 слов

World Labs Marble: видение пространственного интеллекта от Фей-Фей Ли

Пионер ИИ Фей-Фей Ли запускает Marble — коммерческую платформу для генерации исследуемых 3D-миров из текста и изображений. Новый рубеж в пространственном ИИ.

World Labs Marble: видение пространственного интеллекта от Фей-Фей Ли
Исследователь, научивший машины видеть, теперь учит их представлять целые миры. С World Labs Marble Фей-Фей Ли делает следующий шаг за пределы генерации видео — к постоянным, исследуемым 3D-средам.

От ImageNet к моделям миров

💡

Чтобы понять место моделей миров в эволюции ИИ-видео, см. наш обзор моделей миров как следующего рубежа.

Фей-Фей Ли совершила революцию в компьютерном зрении с ImageNet — датасетом, который сделал возможным современное глубокое обучение. Теперь, после года работы над World Labs с финансированием $230 млн, она запустила Marble — первый коммерческий продукт компании.

Тезис прост: ИИ покорил текст, затем изображения, затем видео. Следующий рубеж — пространственный интеллект, способность воспринимать, генерировать и взаимодействовать с 3D-мирами.

$230M
Привлечено
4
Тарифов
3D
Нативный вывод

Что делает Marble

Marble генерирует постоянные, загружаемые 3D-среды из нескольких типов входных данных:

  • Текстовые промпты
  • Одиночные изображения
  • Видео
  • Панорамы
  • 3D-макеты

В отличие от моделей миров реального времени от конкурентов вроде Decart Oasis или Google Genie, Marble создаёт стабильные миры с минимальными трансформациями. Генерируешь один раз, затем свободно исследуешь без того, чтобы ИИ «забывал», что создал.

Редактор Chisel

🔨

3D-редактирование, нативное для ИИ

Chisel разделяет пространственную структуру и визуальный стиль. Сначала задаёшь компоновку, затем применяешь стилизацию через текстовые указания.

Этот гибридный подход отличает Marble от моделей текст-в-сцену. Вместо надежды, что ИИ поймёт твои пространственные намерения, ты явно определяешь геометрию. ИИ занимается эстетикой, материалами и освещением.

Представь это как набросок плана этажа перед тем, как попросить дизайнера интерьера оформить. Контроль над пространственными отношениями остаётся за тобой.

Форматы экспорта и совместимость

Сгенерированные миры экспортируются в трёх форматах:

ФорматПрименение
Gaussian SplatsРендеринг в реальном времени, новые ракурсы
МешиИгровые движки, интеграция с CAD
ВидеоСоздание контента, превизуализация
💡

Все миры Marble совместимы с VR через Vision Pro и Quest 3 из коробки.

Структура цен

World Labs предлагает четыре тарифа:

ТарифЦенаГенерацийКлючевые функции
Free$04/месяцВход через текст, изображение или панораму
Standard$20/месяц12/месяцВход через несколько изображений/видео, расширенное редактирование
Pro$35/месяц25/месяцРасширение сцен, коммерческие права
Max$95/месяц75/месяцВсе функции, максимум генераций

Бесплатный тариф позволяет оценить технологию. Для продакшена, требующего коммерческих прав, Pro-тариф за $35/месяц — разумная входная цена для такой новой возможности.

Почему пространственный интеллект важен

«Пространственный интеллект — определяющий вызов следующего десятилетия». — Фей-Фей Ли

Ли утверждает, что у современного ИИ есть фундаментальное ограничение: он плохо рассуждает о 3D-пространстве. Языковые модели галлюцинируют физику. Видеомодели создают невозможные геометрии. Генераторы изображений борются с консистентными пространственными отношениями.

Текущие подходы
Видеомодели генерируют последовательности кадров без истинного 3D-понимания. Движения камеры выявляют несоответствия. Объекты меняют положение или исчезают.
Пространственный интеллект
Нативное 3D-представление обеспечивает физически консистентные миры. Свободное движение камеры. Среда сохраняется, потому что существует как геометрия, а не пиксели.

Для робототехники это критически важно. Робот, навигирующий по кухне, нуждается в пространственном понимании, а не предсказании кадров. Для VFX режиссёрам нужны исследуемые среды, а не фиксированные траектории камеры.

Формирующиеся варианты применения

Геймдев Генерация фоновых сред и пространств. Инди-разработчики могут создавать области для исследования, на которые ушли бы месяцы традиционного арт-продакшена.

Визуальные эффекты Превизуализация становится интерактивной. Задаёшь сцену пространственно, затем исследуешь ракурсы камеры перед фиксацией кадров.

Архитектура Конвертация планов этажей в исследуемые пространства. Клиенты испытывают пространства до начала строительства.

Образование Ли представляет студентов, гуляющих внутри клетки, хирургов, практикующихся в анатомических симуляциях.

Расширение миров и режим Composer

Две функции решают ограничения масштаба:

Расширение миров позволяет один раз расширить сгенерированный мир, добавляя детали к краевым регионам, где качество обычно деградирует. Это расширяет границы исследуемого пространства за пределы начальных ограничений генерации.

Режим Composer объединяет несколько миров в более крупные среды. Генерируешь отдельные комнаты, затем сшиваешь их в целое здание.

Эти инструменты признают текущие ограничения, предоставляя практические обходные пути.

Конкурентный ландшафт

Marble входит на переполненное поле:

ПродуктПодходОтличие
Decart OasisГенерация игр в реальном времениИнтерактивность, но миры меняются при исследовании
Google GenieГенерация игровых мировПредсказание кадров без истинного 3D
OdysseyПостоянные модели мировФокус на энтерпрайз
World Labs MarbleСтатическая 3D-генерацияЗагружаемость, редактируемость, готовность к VR

Компромисс очевиден. Модели реального времени вроде Oasis предлагают немедленность, но нестабильность. Marble приоритизирует постоянство и редактируемость над интерактивностью.

Связь с генерацией видео

💡

Фон по архитектурам диффузии, используемым в пространственном ИИ, см. в нашем техническом обзоре диффузионных трансформеров.

Как генерация 3D-миров связана с видео? Они разделяют математические основы в диффузионных моделях, но решают разные проблемы.

Генерация видео создаёт временные последовательности, кадр за кадром. Пространственный ИИ создаёт геометрические представления, поверхности и объёмы. Видео отвечает «что случится дальше?» Пространственный ИИ отвечает «что существует здесь?»

Точка конвергенции: навигируемое видео. Генерируешь 3D-мир, затем рендеришь видео по мере движения через него. Этот подход даёт контроль над камерой, невозможный с чистой генерацией видео.

Ограничения к рассмотрению

Marble не полное решение:

  • Нет анимированных персонажей или динамических элементов
  • Лимиты генераций могут ограничить продакшн-воркфлоу
  • Деградация на краях требует проходов расширения
  • Только статические среды

Для анимированного контента всё ещё нужны модели генерации видео. Marble силён в средах и пространствах, не в актёрах или действиях.

Большая картина

Фей-Фей Ли видит пространственный интеллект как необходимый для прогресса ИИ:

«Я думаю, все мы ответственны за направление ИИ к лучшему состоянию по мере роста его мощи. Все мы должны хотеть, чтобы человечество преуспевало и процветало».

Её видение выходит за пределы развлечений. Медицинские симуляции, где студенты исследуют анатомию. Научные визуализации, где исследователи навигируют молекулярные структуры. Среды для обучения роботов, генерируемые по требованию.

Marble — шаг первый, коммерческое доказательство концепции. Исследование продолжается к более динамичной, интерактивной и физически точной генерации миров.

Начало работы

World Labs предлагает бесплатный тариф с 4 генерациями в месяц. Достаточно для оценки технологии и понимания её ограничений.

Для создателей, уже работающих в 3D, возможность экспорта мешей интегрируется с существующими пайплайнами. Для продюсеров видео экспорт видео предоставляет возможности превизуализации, недоступные в других местах.

💡

Связанное чтение: наш гайд по консистентности персонажей в ИИ-видео покрывает техники поддержания когерентности в сгенерированном контенте — вызов, который Marble решает через постоянное 3D-представление.

Переход от 2D-генерации к созданию 3D-миров представляет фундаментальный сдвиг в том, что может производить ИИ. Marble делает этот сдвиг доступным.

Была ли эта статья полезной?

Alexis

Alexis

Инженер ИИ

Инженер ИИ из Лозанны, сочетающий глубину исследований с практическими инновациями. Делит время между архитектурами моделей и альпийскими вершинами.

Похожие статьи

Продолжите изучение с этими статьями

Понравилась статья?

Откройте для себя больше идей и будьте в курсе наших последних публикаций.

World Labs Marble: видение пространственного интеллекта от Фей-Фей Ли