World Labs Marble: бачанне прасторавага інтэлекту ад Фей-Фей Лі
Піянер ШІ Фей-Фей Лі запускае Marble — камерцыйную платформу для генерацыі даследуемых 3D-светаў з тэксту і выяваў. Новы рубеж у прасторавым ШІ.

Ад ImageNet да мадэляў светаў
Каб зразумець месца мадэляў светаў у эвалюцыі ШІ-відэа, гл. наш агляд мадэляў светаў як наступнага рубяжа.
Фей-Фей Лі зрабіла рэвалюцыю ў кампутарным зроку з ImageNet — датасетам, які зрабіў магчымым сучаснае глыбокае навучанне. Цяпер, пасля года працы над World Labs з фінансаваннем $230 млн, яна запусціла Marble — першы камерцыйны прадукт кампаніі.
Тэза простая: ШІ падкарыў тэкст, потым выявы, потым відэа. Наступны рубеж — прасторавы інтэлект, здольнасць успрымаць, генераваць і ўзаемадзейнічаць з 3D-светамі.
Што робіць Marble
Marble генеруе пастаянныя, загружаемыя 3D-асяроддзі з некалькіх тыпаў уваходных дадзеных:
- ✓Тэкставыя промпты
- ✓Адзіночныя выявы
- ✓Відэа
- ✓Панарамы
- ✓3D-макеты
На адрозненне ад мадэляў светаў рэальнага часу ад канкурэнтаў накшталт Decart Oasis ці Google Genie, Marble стварае стабільныя светы з мінімальнай марфалогіяй. Генеруеш адзін раз, потым свабодна даследуеш без таго, каб ШІ «забываў», што стварыў.
Рэдактар Chisel
3D-рэдагаванне, натыўнае для ШІ
Chisel раздзяляе прасторавую структуру і візуальны стыль. Спачатку задаеш кампаноўку, потым прымяняеш стылізацыю праз тэкставыя ўказанні.
Гэты гібрыдны падыход адрознівае Marble ад мадэляў тэкст-у-сцэну. Замест надзеі, што ШІ зразумее твае прасторавыя намеры, ты яўна вызначаеш геаметрыю. ШІ займаецца эстэтыкай, матэрыяламі і асвятленнем.
Уяві гэта як начарк плана паверха перад тым, як папрасіць дызайнера інтэр'ера аформіць. Кантроль над прасторавымі адносінамі застаецца за табой.
Фарматы экспарту і сумяшчальнасць
Згенераваныя светы экспартуюцца ў трох фарматах:
| Фармат | Прымяненне |
|---|---|
| Gaussian Splats | Рэндэрынг у рэальным часе, новыя ракурсы |
| Мешы | Гульнявыя рухавікі, інтэграцыя з CAD |
| Відэа | Стварэнне кантэнту, прэвізуалізацыя |
Усе светы Marble сумяшчальныя з VR праз Vision Pro і Quest 3 з каробкі.
Структура цэн
World Labs прапануе чатыры тарыфы:
| Тарыф | Цана | Генерацый | Ключавыя функцыі |
|---|---|---|---|
| Free | $0 | 4/месяц | Уваход праз тэкст, выяву або панараму |
| Standard | $20/месяц | 12/месяц | Уваход праз некалькі выяваў/відэа, пашыранае рэдагаванне |
| Pro | $35/месяц | 25/месяц | Пашырэнне сцэн, камерцыйныя правы |
| Max | $95/месяц | 75/месяц | Усе функцыі, максімум генерацый |
Бясплатны тарыф дазваляе ацаніць тэхналогію. Для продакшэну, які патрабуе камерцыйных правоў, Pro-тарыф за $35/месяц — разумная ўваходная цана для такой новай магчымасці.
Чаму прасторавы інтэлект важны
«Прасторавы інтэлект — вызначальны выклік наступнага дзесяцігоддзя». — Фей-Фей Лі
Лі сцвярджае, што ў сучаснага ШІ ёсць фундаментальнае абмежаванне: ён дрэнна меркуе пра 3D-прастору. Моўныя мадэлі галюцынуюць фізіку. Відэамадэлі ствараюць немагчымыя геаметрыі. Генератары выяваў змагаюцца з кансістэнтнымі прасторавымі адносінамі.
Для робататэхнікі гэта крытычна важна. Робат, які навігуе па кухні, патрабуе прасторавага разумення, а не прадказання кадраў. Для VFX рэжысёрам патрэбныя даследуемыя асяроддзі, а не фіксаваныя траекторыі камеры.
Фармоўныя варыянты прымянення
Геймдэў Генерацыя фонавых асяроддзяў і прастораў. Інды-распрацоўшчыкі могуць ствараць вобласці для даследавання, на якія пайшлі б месяцы традыцыйнага арт-продакшэну.
Візуальныя эфекты Прэвізуалізацыя становіцца інтэрактыўнай. Задаеш сцэну прасторава, потым даследуеш ракурсы камеры перад фіксацыяй кадраў.
Архітэктура Канвертацыя планаў паверхаў у даследуемыя прасторы. Кліенты адчуваюць прасторы да пачатку будаўніцтва.
Адукацыя Лі ўяўляе студэнтаў, што гуляюць унутры клеткі, хірургаў, што практыкуюцца ў анатамічных сімуляцыях.
Пашырэнне светаў і рэжым Composer
Дзве функцыі вырашаюць абмежаванні маштабу:
Пашырэнне светаў дазваляе адзін раз пашырыць згенераваны свет, дадаючы дэталі да крайніх рэгіёнаў, дзе якасць звычайна дэградуе. Гэта пашырае межы даследуемай прасторы за межы пачатковых абмежаванняў генерацыі.
Рэжым Composer аб'ядноўвае некалькі светаў у большыя асяроддзі. Генеруеш асобныя пакоі, потым зшываеш іх у цэлы будынак.
Гэтыя інструменты прызнаюць бягучыя абмежаванні, даючы практычныя абходныя шляхі.
Канкурэнтны ландшафт
Marble уваходзіць на перапоўненае поле:
| Прадукт | Падыход | Адрозненне |
|---|---|---|
| Decart Oasis | Генерацыя гульняў у рэальным часе | Інтэрактыўнасць, але светы змяняюцца пры даследаванні |
| Google Genie | Генерацыя гульнявых светаў | Прадказанне кадраў без сапраўднага 3D |
| Odyssey | Пастаянныя мадэлі светаў | Фокус на энтэрпрайз |
| World Labs Marble | Статычная 3D-генерацыя | Загружаемасць, рэдагаванасць, гатоўнасць да VR |
Кампраміс відавочны. Мадэлі рэальнага часу накшталт Oasis прапануюць неадкладнасць, але нестабільнасць. Marble прыярытэтызуе пастаяннасць і рэдагаванасць над інтэрактыўнасцю.
Сувязь з генерацыяй відэа
Фон па архітэктурах дыфузіі, якія выкарыстоўваюцца ў прасторавым ШІ, гл. у нашым тэхнічным аглядзе дыфузійных трансфармераў.
Як генерацыя 3D-светаў звязана з відэа? Яны падзяляюць матэматычныя асновы ў дыфузійных мадэлях, але вырашаюць розныя праблемы.
Генерацыя відэа стварае часавыя паслядоўнасці, кадр за кадрам. Прасторавы ШІ стварае геаметрычныя прадстаўленні, паверхні і аб'ёмы. Відэа адказвае «што адбудзецца далей?» Прасторавы ШІ адказвае «што існуе тут?»
Кропка канвергенцыі: навіговае відэа. Генеруеш 3D-свет, потым рэндэрыш відэа па меры руху праз яго. Гэты падыход дае кантроль над камерай, немагчымы з чыстай генерацыяй відэа.
Абмежаванні да разгляду
Marble не поўнае рашэнне:
- ○Няма анімаваных персанажаў або дынамічных элементаў
- ○Ліміты генерацый могуць абмежаваць продакшн-воркфлоў
- ○Дэградацыя на краях патрабуе праходаў пашырэння
- ○Толькі статычныя асяроддзі
Для анімаванага кантэнту ўсё яшчэ патрэбны мадэлі генерацыі відэа. Marble моцны ў асяроддзях і прасторах, не ў акцёрах ці дзеяннях.
Вялікая карціна
Фей-Фей Лі бачыць прасторавы інтэлект як неабходны для прагрэсу ШІ:
«Я думаю, усе мы адказныя за накіраванне ШІ да лепшага стану па меры росту яго магутнасці. Усе мы павінны хацець, каб чалавецтва пераважала і квітнела».
Яе бачанне выходзіць за межы забаў. Медыцынскія сімуляцыі, дзе студэнты даследуюць анатомію. Навуковыя візуалізацыі, дзе даследчыкі навігуюць малекулярныя структуры. Асяроддзі для навучання робатаў, якія генеруюцца па патрабаванні.
Marble — крок першы, камерцыйнае даказанне канцэпцыі. Даследаванне працягваецца да больш дынамічнай, інтэрактыўнай і фізічна дакладнай генерацыі светаў.
Пачатак працы
World Labs прапануе бясплатны тарыф з 4 генерацыямі на месяц. Дастаткова для ацэнкі тэхналогіі і разумення яе абмежаванняў.
Для стваральнікаў, якія ўжо працуюць у 3D, магчымасць экспарту мешаў інтэгруецца з наяўнымі пайплайнамі. Для прадзюсэраў відэа экспарт відэа дае магчымасці прэвізуалізацыі, недаступныя ў іншых месцах.
Звязанае чытанне: наш гайд па кансістэнтнасці персанажаў у ШІ-відэа пакрывае тэхнікі падтрымання кагерэнтнасці ў згенераваным кантэнце — выклік, які Marble вырашае праз пастаяннае 3D-прадстаўленне.
Пераход ад 2D-генерацыі да стварэння 3D-светаў прадстаўляе фундаментальны зрух у тым, што можа вырабляць ШІ. Marble робіць гэты зрух даступным.
Гэты артыкул быў карысны?

Alexis
Інжынер ШІІнжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе
GWM-1 ад Runway, гэта пераход ад генерацыі відэа да сімуляцыі светаў. Вывучыце, як гэтая аўтарэгрэсіўная мадэль стварае даследуемыя асяроддзі, фотарэалістычныя аватары і сімуляцыі для навучання робатаў.

YouTube Прыносіць Veo 3 Fast у Shorts: Бясплатная Генерацыя AI Відэа для 2,5 Мільярдаў Карыстальнікаў
Google інтэгруе сваю мадэль Veo 3 Fast непасрэдна ў YouTube Shorts, прапаноўваючы бясплатную генерацыю відэа з тэксту з гукам для стваральнікаў па ўсім свеце. Вось што гэта азначае для платформы і даступнасці AI відэа.

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў
Мадэлі свету вучаць AI разумець фізічную рэальнасць, дазваляючы робатам планаваць дзеянні і мадэляваць вынікі яшчэ да першага руху.