World Labs Marble: Визията за пространствена интелигентност на Фей-Фей Ли
Пионерката на изкуствения интелект Фей-Фей Ли пуска Marble, комерсиална платформа, която генерира изследваеми 3D светове от текст и изображения, отбелязвайки нова граница в пространствения изкуствен интелект.

От ImageNet до модели на света
За контекст как моделите на света се вписват в еволюцията на видеото с изкуствен интелект, вижте нашия преглед на моделите на света като следваща граница.
Фей-Фей Ли революционизира компютърното зрение с ImageNet, наборът от данни, който направи възможно модерното дълбоко обучение. Сега, след година изграждане на World Labs с финансиране от 230 милиона долара, тя пусна Marble, първия комерсиален продукт на компанията.
Тезата е проста: изкуственият интелект завладя текста, след това изображенията, след това видеото. Следващата граница е пространствената интелигентност, способността за възприемане, генериране и взаимодействие с 3D светове.
Какво прави Marble
Marble генерира постоянни, изтегляеми 3D среди от множество типове входове:
- ✓Текстови подкани
- ✓Отделни изображения
- ✓Видеоклипове
- ✓Панорами
- ✓3D оформления
За разлика от моделите на света в реално време на конкуренти като Decart Oasis или Google Genie, Marble създава стабилни светове с минимален морфинг. Генерирате веднъж, след това изследвате свободно, без изкуственият интелект да "забрави" какво е създал.
Редакторът Chisel
Изкуствен интелект-нативно 3D редактиране
Chisel разделя пространствената структура от визуалния стил. Първо скицирайте оформлението, след това приложете текстово стилово насочване.
Този хибриден подход отличава Marble от моделите текст-в-сцена. Вместо да се надявате, че изкуственият интелект ще разбере вашето пространствено намерение, дефинирате геометрията изрично. Изкуственият интелект се справя с естетиката, материалите и осветлението.
Представете си го като скициране на план, преди да помолите интериорен дизайнер за декорация. Контролът над пространствените отношения остава ваш.
Формати за експорт и съвместимост
Генерираните светове се експортират в три формата:
| Формат | Случай на употреба |
|---|---|
| Гаусови сплатове | Рендиране в реално време, нови изгледи |
| Мрежи | Игрални двигатели, CAD интеграция |
| Видеоклипове | Създаване на съдържание, пред-визуализация |
Всички Marble светове са VR-съвместими с Vision Pro и Quest 3 слушалки директно от кутията.
Структура на цените
World Labs предлага четири нива:
| Ниво | Цена | Генерирания | Ключови характеристики |
|---|---|---|---|
| Free | $0 | 4/месец | Текст, изображение или панорамен вход |
| Standard | $20/месец | 12/месец | Множество изображения/видео вход, разширено редактиране |
| Pro | $35/месец | 25/месец | Разширение на сцена, комерсиални права |
| Max | $95/месец | 75/месец | Всички характеристики, максимум генерирания |
Безплатното ниво ви позволява да оцените технологията. За продукционна работа, изискваща комерсиални права, Pro нивото за $35/месец представлява разумна входна цена за толкова нова способност.
Защо пространствената интелигентност има значение
"Пространствената интелигентност е определящото предизвикателство на следващото десетилетие." - Фей-Фей Ли
Ли твърди, че настоящият изкуствен интелект има фундаментално ограничение: зле разсъждава за 3D пространството. Езиковите модели халюцинират физика. Видео моделите създават невъзможни геометрии. Генераторите на изображения се борят с последователни пространствени отношения.
За роботиката това има огромно значение. Робот, навигиращ в кухня, се нуждае от пространствено разбиране, не от предвиждане на кадри. За VFX режисьорите се нуждаят от изследваеми среди, не от фиксирани пътища на камери.
Случаи на употреба, които се оформят
Игри Генерирайте амбиентни среди и фонови пространства. Независимите разработчици могат да създадат изследователски области, които биха изисквали месеци традиционна художествена продукция.
Визуални ефекти Пред-визуализацията става интерактивна. Скицирайте сцена пространствено, след това изследвайте ъглите на камерата преди да се ангажирате със снимки.
Архитектура Преобразувайте планове в изследваеми обиколки. Клиентите изпитват пространствата преди да започне строителството.
Образование Ли си представя студенти, които ходят вътре в клетка, хирурзи, които практикуват вътре в анатомични симулации.
Разширение на света и режим Composer
Две характеристики адресират ограниченията на мащаба:
Разширение на света ви позволява да разширите генерирания свет веднъж, добавяйки детайли към крайните области, където качеството обикновено се влошава. Това разширява границите на изследваемото пространство отвъд началните ограничения на генерирането.
Режим Composer комбинира множество светове в по-големи среди. Генерирайте отделни стаи, след това ги съединете в цялостна сграда.
Тези инструменти признават настоящите ограничения, като същевременно предоставят практични решения.
Конкурентен пейзаж
Marble влиза в претъпкано поле:
| Продукт | Подход | Отличителна черта |
|---|---|---|
| Decart Oasis | Генериране на игри в реално време | Интерактивно, но световете се местят по време на изследването |
| Google Genie | Генериране на игрални светове | Предвиждане на кадри без истинско 3D |
| Odyssey | Постоянни модели на света | Корпоративен фокус |
| World Labs Marble | Статично 3D генериране | Изтегляемо, редактируемо, VR-готово |
Компромисът е ясен. Моделите в реално време като Oasis предлагат незабавност, но нестабилност. Marble дава приоритет на постоянството и редактируемостта пред интерактивността.
Свързване с генерирането на видео
За фон за дифузионните архитектури, използвани в пространствения изкуствен интелект, вижте нашия технически преглед на дифузионните трансформатори.
Как генерирането на 3D свят се отнася до видеото? Те споделят математически основи в дифузионните модели, но решават различни проблеми.
Генерирането на видео създава временни последователности, кадър след кадър. Пространственият изкуствен интелект създава геометрични репрезентации, повърхности и обеми. Видеото отговаря "какво се случва след това?" Пространственият изкуствен интелект отговаря "какво съществува тук?"
Точка на конвергенция: навигируемо видео. Генерирайте 3D свят, след това рендирайте видео, докато се движите през него. Този подход предлага контрол на камерата, невъзможен с чисто генериране на видео.
Ограничения за обмисляне
Marble не е пълно решение:
- ○Няма анимирани герои или динамични елементи
- ○Ограниченията на генерирането могат да ограничат продукционните работни процеси
- ○Влошаването на ръбовете изисква разширителни проходи
- ○Само статични среди
За анимирано съдържание все още се нуждаете от модели за генериране на видео. Marble се отличава в среди и пространства, не в актьори или действия.
По-голямата картина
Фей-Фей Ли вижда пространствената интелигентност като съществена за напредъка на изкуствения интелект:
"Мисля, че всички ние имаме отговорност за въвеждането на изкуствения интелект в по-добро състояние, докато става по-мощен. Всички трябва да искаме човечеството да надделее и да процъфтява."
Нейната визия надхвърля развлечението. Медицински симулации, където студентите изследват анатомия. Научни визуализации, където изследователите навигират в молекулярни структури. Роботични тренировъчни среди, генерирани при поискване.
Marble е първа стъпка, комерсиално доказателство за концепция. Изследването продължава към по-динамично, интерактивно и физически точно генериране на светове.
Начало
World Labs предлага безплатно ниво с 4 генерирания месечно. Достатъчно за оценка на технологията и разбиране на нейните ограничения.
За създателите, които вече работят в 3D, възможността за експорт на мрежи се интегрира с съществуващите тръбопроводи. За видео продуцентите експортът на видео предоставя възможности за пред-визуализация, недостъпни другаде.
Свързано четене: Нашият ръководство за последователност на героите в видео с изкуствен интелект покрива техники за поддържане на кохерентност в генерираното съдържание, предизвикателство, което Marble решава чрез постоянна 3D репрезентация.
Преходът от 2D генериране към създаване на 3D светове представлява фундаментална промяна в това, което изкуственият интелект може да произведе. Marble прави тази промяна достъпна.
Беше ли полезна тази статия?

Alexis
Инженер по изкуствен интелектИнженер по изкуствен интелект от Лозана, съчетаващ изследователска дълбочина с практични иновации. Разделя времето си между модели архитектури и алпийски върхове.
Свързани статии
Продължете да изследвате със свързаните публикации

Runway GWM-1: Общият световен модел, който симулира реалността в реално време
GWM-1 на Runway означава промяна в парадигмата от генериране на видеоклипове към симулиране на светове. Открийте как този авторегресивен модел създава изследваеми среди, фотореалистични аватари и симулации за обучение на роботи.

YouTube Въвежда Veo 3 Fast в Shorts: Безплатно AI Генериране на Видео за 2,5 Милиарда Потребители
Google интегрира своя модел Veo 3 Fast директно в YouTube Shorts, предлагайки безплатно генериране на видео от текст с аудио за създатели по целия свят. Ето какво означава това за платформата и достъпността на AI видео.

Видео езикови модели: следващата граница след LLM и AI агентите
Световните модели учат AI да разбира физическата реалност, позволявайки на роботите да планират действия и симулират резултати преди първото движение.