World Labs Marble: бачення просторового інтелекту від Фей-Фей Лі
Піонер ШІ Фей-Фей Лі запускає Marble — комерційну платформу для генерації досліджуваних 3D-світів з тексту та зображень. Новий рубіж у просторовому ШІ.

Від ImageNet до моделей світів
Щоб зрозуміти місце моделей світів в еволюції ШІ-відео, див. наш огляд моделей світів як наступного рубежу.
Фей-Фей Лі зробила революцію в комп'ютерному зорі з ImageNet — датасетом, що зробив можливим сучасне глибоке навчання. Тепер, після року роботи над World Labs з фінансуванням $230 млн, вона запустила Marble — перший комерційний продукт компанії.
Теза проста: ШІ підкорив текст, потім зображення, потім відео. Наступний рубіж — просторовий інтелект, здатність сприймати, генерувати та взаємодіяти з 3D-світами.
Що робить Marble
Marble генерує постійні, завантажувані 3D-середовища з кількох типів вхідних даних:
- ✓Текстові промпти
- ✓Одиночні зображення
- ✓Відео
- ✓Панорами
- ✓3D-макети
На відміну від моделей світів реального часу від конкурентів на кшталт Decart Oasis чи Google Genie, Marble створює стабільні світи з мінімальною морфологією. Генеруєш один раз, потім вільно досліджуєш без того, щоб ШІ «забував», що створив.
Редактор Chisel
3D-редагування, нативне для ШІ
Chisel розділяє просторову структуру та візуальний стиль. Спочатку задаєш компонування, потім застосовуєш стилізацію через текстові вказівки.
Цей гібридний підхід відрізняє Marble від моделей текст-у-сцену. Замість надії, що ШІ зрозуміє твої просторові наміри, ти явно визначаєш геометрію. ШІ займається естетикою, матеріалами та освітленням.
Уяви це як начерк плану поверху перед тим, як попросити дизайнера інтер'єру оформити. Контроль над просторовими відносинами залишається за тобою.
Формати експорту та сумісність
Згенеровані світи експортуються в трьох форматах:
| Формат | Застосування |
|---|---|
| Gaussian Splats | Рендеринг у реальному часі, нові ракурси |
| Меші | Ігрові рушії, інтеграція з CAD |
| Відео | Створення контенту, превізуалізація |
Усі світи Marble сумісні з VR через Vision Pro та Quest 3 з коробки.
Структура цін
World Labs пропонує чотири тарифи:
| Тариф | Ціна | Генерацій | Ключові функції |
|---|---|---|---|
| Free | $0 | 4/місяць | Вхід через текст, зображення або панораму |
| Standard | $20/місяць | 12/місяць | Вхід через кілька зображень/відео, розширене редагування |
| Pro | $35/місяць | 25/місяць | Розширення сцен, комерційні права |
| Max | $95/місяць | 75/місяць | Усі функції, максимум генерацій |
Безкоштовний тариф дозволяє оцінити технологію. Для продакшену, що вимагає комерційних прав, Pro-тариф за $35/місяць — розумна вхідна ціна для такої нової можливості.
Чому просторовий інтелект важливий
«Просторовий інтелект — визначальний виклик наступного десятиліття». — Фей-Фей Лі
Лі стверджує, що в сучасного ШІ є фундаментальне обмеження: він погано міркує про 3D-простір. Мовні моделі галюцинують фізику. Відеомоделі створюють неможливі геометрії. Генератори зображень борються з консистентними просторовими відносинами.
Для робототехніки це критично важливо. Робот, що навігує по кухні, потребує просторового розуміння, а не передбачення кадрів. Для VFX режисерам потрібні досліджувані середовища, а не фіксовані траєкторії камери.
Формуються варіанти застосування
Геймдев Генерація фонових середовищ та просторів. Інді-розробники можуть створювати області для дослідження, на які пішли б місяці традиційного арт-продакшену.
Візуальні ефекти Превізуалізація стає інтерактивною. Задаєш сцену просторово, потім досліджуєш ракурси камери перед фіксацією кадрів.
Архітектура Конвертація планів поверхів у досліджувані простори. Клієнти відчувають простори до початку будівництва.
Освіта Лі уявляє студентів, що гуляють усередині клітини, хірургів, що практикуються в анатомічних симуляціях.
Розширення світів та режим Composer
Дві функції вирішують обмеження масштабу:
Розширення світів дозволяє один раз розширити згенерований світ, додаючи деталі до крайових регіонів, де якість зазвичай деградує. Це розширює межі досліджуваного простору за межі початкових обмежень генерації.
Режим Composer об'єднує кілька світів у більші середовища. Генеруєш окремі кімнати, потім зшиваєш їх у ціле будинок.
Ці інструменти визнають поточні обмеження, надаючи практичні обхідні шляхи.
Конкурентний ландшафт
Marble входить на переповнене поле:
| Продукт | Підхід | Відмінність |
|---|---|---|
| Decart Oasis | Генерація ігор у реальному часі | Інтерактивність, але світи змінюються при дослідженні |
| Google Genie | Генерація ігрових світів | Передбачення кадрів без справжнього 3D |
| Odyssey | Постійні моделі світів | Фокус на ентерпрайз |
| World Labs Marble | Статична 3D-генерація | Завантажуваність, редагованість, готовність до VR |
Компроміс очевидний. Моделі реального часу на кшталт Oasis пропонують негайність, але нестабільність. Marble пріоритизує постійність та редагованість над інтерактивністю.
Зв'язок з генерацією відео
Фон щодо архітектур дифузії, що використовуються в просторовому ШІ, див. у нашому технічному огляді дифузійних трансформерів.
Як генерація 3D-світів пов'язана з відео? Вони поділяють математичні основи в дифузійних моделях, але вирішують різні проблеми.
Генерація відео створює часові послідовності, кадр за кадром. Просторовий ШІ створює геометричні представлення, поверхні та об'єми. Відео відповідає «що станеться далі?» Просторовий ШІ відповідає «що існує тут?»
Точка конвергенції: навіговане відео. Генеруєш 3D-світ, потім рендериш відео у міру руху через нього. Цей підхід дає контроль над камерою, неможливий з чистою генерацією відео.
Обмеження до розгляду
Marble не повне рішення:
- ○Немає анімованих персонажів або динамічних елементів
- ○Ліміти генерацій можуть обмежити продакшн-воркфлоу
- ○Деградація на краях вимагає проходів розширення
- ○Лише статичні середовища
Для анімованого контенту все ще потрібні моделі генерації відео. Marble сильний у середовищах та просторах, не в акторах чи діях.
Велика картина
Фей-Фей Лі бачить просторовий інтелект як необхідний для прогресу ШІ:
«Я думаю, всі ми відповідальні за направлення ШІ до кращого стану у міру зростання його потужності. Всі ми маємо хотіти, щоб людство переважало і процвітало».
Її бачення виходить за межі розваг. Медичні симуляції, де студенти досліджують анатомію. Наукові візуалізації, де дослідники навігують молекулярні структури. Середовища для навчання роботів, що генеруються на вимогу.
Marble — крок перший, комерційне доведення концепції. Дослідження продовжується до більш динамічної, інтерактивної та фізично точної генерації світів.
Початок роботи
World Labs пропонує безкоштовний тариф з 4 генераціями на місяць. Достатньо для оцінки технології та розуміння її обмежень.
Для творців, що вже працюють у 3D, можливість експорту мешів інтегрується з наявними пайплайнами. Для продюсерів відео експорт відео надає можливості превізуалізації, недоступні в інших місцях.
Пов'язане читання: наш гайд щодо консистентності персонажів у ШІ-відео покриває техніки підтримання когерентності в згенерованому контенті — виклик, який Marble вирішує через постійне 3D-представлення.
Перехід від 2D-генерації до створення 3D-світів представляє фундаментальний зсув у тому, що може виробляти ШІ. Marble робить цей зсув доступним.
Ця стаття була корисною?

Alexis
Інженер ШІІнженер ШІ з Лозанни, що поєднує глибину досліджень з практичними інноваціями. Ділить час між архітектурами моделей та альпійськими вершинами.
Схожі статті
Продовжуйте дослідження з цими схожими публікаціями

Runway GWM-1: універсальна модель світу з симуляцією реальності в реальному часі
GWM-1 від Runway, це перехід від генерації відео до симуляції світів. Дізнайтесь, як ця авторегресивна модель створює досліджувані середовища, фотореалістичні аватари та симуляції для навчання роботів.

YouTube додає Veo 3 Fast у Shorts: безкоштовна генерація AI-відео для 2,5 мільярда користувачів
Google інтегрує модель Veo 3 Fast безпосередньо в YouTube Shorts, пропонуючи безкоштовну генерацію відео з тексту зі звуком для авторів по всьому світу. Що це означає для платформи та доступності AI-відео.

Відео мовні моделі: Наступний рубіж після LLM та AI агентів
Світові моделі навчають штучний інтелект розуміти фізичну реальність, дозволяючи роботам планувати дії та симулювати результати перед тим, як зрушити хоча б один актуатор.