Meta Pixel
AlexisAlexis
6 min read
1092 слоў

World Labs Marble: бачанне прасторавага інтэлекту ад Фей-Фей Лі

Піянер ШІ Фей-Фей Лі запускае Marble — камерцыйную платформу для генерацыі даследуемых 3D-светаў з тэксту і выяваў. Новы рубеж у прасторавым ШІ.

World Labs Marble: бачанне прасторавага інтэлекту ад Фей-Фей Лі
Даследчыца, якая навучыла машыны бачыць, цяпер вучыць іх уяўляць цэлыя светы. З World Labs Marble Фей-Фей Лі робіць наступны крок за межы генерацыі відэа — да пастаянных, даследуемых 3D-асяроддзяў.

Ад ImageNet да мадэляў светаў

💡

Каб зразумець месца мадэляў светаў у эвалюцыі ШІ-відэа, гл. наш агляд мадэляў светаў як наступнага рубяжа.

Фей-Фей Лі зрабіла рэвалюцыю ў кампутарным зроку з ImageNet — датасетам, які зрабіў магчымым сучаснае глыбокае навучанне. Цяпер, пасля года працы над World Labs з фінансаваннем $230 млн, яна запусціла Marble — першы камерцыйны прадукт кампаніі.

Тэза простая: ШІ падкарыў тэкст, потым выявы, потым відэа. Наступны рубеж — прасторавы інтэлект, здольнасць успрымаць, генераваць і ўзаемадзейнічаць з 3D-светамі.

$230M
Прыцягнута
4
Тарыфы
3D
Натыўны вывад

Што робіць Marble

Marble генеруе пастаянныя, загружаемыя 3D-асяроддзі з некалькіх тыпаў уваходных дадзеных:

  • Тэкставыя промпты
  • Адзіночныя выявы
  • Відэа
  • Панарамы
  • 3D-макеты

На адрозненне ад мадэляў светаў рэальнага часу ад канкурэнтаў накшталт Decart Oasis ці Google Genie, Marble стварае стабільныя светы з мінімальнай марфалогіяй. Генеруеш адзін раз, потым свабодна даследуеш без таго, каб ШІ «забываў», што стварыў.

Рэдактар Chisel

🔨

3D-рэдагаванне, натыўнае для ШІ

Chisel раздзяляе прасторавую структуру і візуальны стыль. Спачатку задаеш кампаноўку, потым прымяняеш стылізацыю праз тэкставыя ўказанні.

Гэты гібрыдны падыход адрознівае Marble ад мадэляў тэкст-у-сцэну. Замест надзеі, што ШІ зразумее твае прасторавыя намеры, ты яўна вызначаеш геаметрыю. ШІ займаецца эстэтыкай, матэрыяламі і асвятленнем.

Уяві гэта як начарк плана паверха перад тым, як папрасіць дызайнера інтэр'ера аформіць. Кантроль над прасторавымі адносінамі застаецца за табой.

Фарматы экспарту і сумяшчальнасць

Згенераваныя светы экспартуюцца ў трох фарматах:

ФарматПрымяненне
Gaussian SplatsРэндэрынг у рэальным часе, новыя ракурсы
МешыГульнявыя рухавікі, інтэграцыя з CAD
ВідэаСтварэнне кантэнту, прэвізуалізацыя
💡

Усе светы Marble сумяшчальныя з VR праз Vision Pro і Quest 3 з каробкі.

Структура цэн

World Labs прапануе чатыры тарыфы:

ТарыфЦанаГенерацыйКлючавыя функцыі
Free$04/месяцУваход праз тэкст, выяву або панараму
Standard$20/месяц12/месяцУваход праз некалькі выяваў/відэа, пашыранае рэдагаванне
Pro$35/месяц25/месяцПашырэнне сцэн, камерцыйныя правы
Max$95/месяц75/месяцУсе функцыі, максімум генерацый

Бясплатны тарыф дазваляе ацаніць тэхналогію. Для продакшэну, які патрабуе камерцыйных правоў, Pro-тарыф за $35/месяц — разумная ўваходная цана для такой новай магчымасці.

Чаму прасторавы інтэлект важны

«Прасторавы інтэлект — вызначальны выклік наступнага дзесяцігоддзя». — Фей-Фей Лі

Лі сцвярджае, што ў сучаснага ШІ ёсць фундаментальнае абмежаванне: ён дрэнна меркуе пра 3D-прастору. Моўныя мадэлі галюцынуюць фізіку. Відэамадэлі ствараюць немагчымыя геаметрыі. Генератары выяваў змагаюцца з кансістэнтнымі прасторавымі адносінамі.

Бягучыя падыходы
Відэамадэлі генеруюць паслядоўнасці кадраў без сапраўднага 3D-разумення. Рухі камеры выяўляюць неадпаведнасці. Аб'екты змяняюць становішча або знікаюць.
Прасторавы інтэлект
Натыўнае 3D-прадстаўленне забяспечвае фізічна кансістэнтныя светы. Свабоднае перамяшчэнне камеры. Асяроддзе захоўваецца, бо існуе як геаметрыя, а не пікселі.

Для робататэхнікі гэта крытычна важна. Робат, які навігуе па кухні, патрабуе прасторавага разумення, а не прадказання кадраў. Для VFX рэжысёрам патрэбныя даследуемыя асяроддзі, а не фіксаваныя траекторыі камеры.

Фармоўныя варыянты прымянення

Геймдэў Генерацыя фонавых асяроддзяў і прастораў. Інды-распрацоўшчыкі могуць ствараць вобласці для даследавання, на якія пайшлі б месяцы традыцыйнага арт-продакшэну.

Візуальныя эфекты Прэвізуалізацыя становіцца інтэрактыўнай. Задаеш сцэну прасторава, потым даследуеш ракурсы камеры перад фіксацыяй кадраў.

Архітэктура Канвертацыя планаў паверхаў у даследуемыя прасторы. Кліенты адчуваюць прасторы да пачатку будаўніцтва.

Адукацыя Лі ўяўляе студэнтаў, што гуляюць унутры клеткі, хірургаў, што практыкуюцца ў анатамічных сімуляцыях.

Пашырэнне светаў і рэжым Composer

Дзве функцыі вырашаюць абмежаванні маштабу:

Пашырэнне светаў дазваляе адзін раз пашырыць згенераваны свет, дадаючы дэталі да крайніх рэгіёнаў, дзе якасць звычайна дэградуе. Гэта пашырае межы даследуемай прасторы за межы пачатковых абмежаванняў генерацыі.

Рэжым Composer аб'ядноўвае некалькі светаў у большыя асяроддзі. Генеруеш асобныя пакоі, потым зшываеш іх у цэлы будынак.

Гэтыя інструменты прызнаюць бягучыя абмежаванні, даючы практычныя абходныя шляхі.

Канкурэнтны ландшафт

Marble уваходзіць на перапоўненае поле:

ПрадуктПадыходАдрозненне
Decart OasisГенерацыя гульняў у рэальным часеІнтэрактыўнасць, але светы змяняюцца пры даследаванні
Google GenieГенерацыя гульнявых светаўПрадказанне кадраў без сапраўднага 3D
OdysseyПастаянныя мадэлі светаўФокус на энтэрпрайз
World Labs MarbleСтатычная 3D-генерацыяЗагружаемасць, рэдагаванасць, гатоўнасць да VR

Кампраміс відавочны. Мадэлі рэальнага часу накшталт Oasis прапануюць неадкладнасць, але нестабільнасць. Marble прыярытэтызуе пастаяннасць і рэдагаванасць над інтэрактыўнасцю.

Сувязь з генерацыяй відэа

💡

Фон па архітэктурах дыфузіі, якія выкарыстоўваюцца ў прасторавым ШІ, гл. у нашым тэхнічным аглядзе дыфузійных трансфармераў.

Як генерацыя 3D-светаў звязана з відэа? Яны падзяляюць матэматычныя асновы ў дыфузійных мадэлях, але вырашаюць розныя праблемы.

Генерацыя відэа стварае часавыя паслядоўнасці, кадр за кадрам. Прасторавы ШІ стварае геаметрычныя прадстаўленні, паверхні і аб'ёмы. Відэа адказвае «што адбудзецца далей?» Прасторавы ШІ адказвае «што існуе тут?»

Кропка канвергенцыі: навіговае відэа. Генеруеш 3D-свет, потым рэндэрыш відэа па меры руху праз яго. Гэты падыход дае кантроль над камерай, немагчымы з чыстай генерацыяй відэа.

Абмежаванні да разгляду

Marble не поўнае рашэнне:

  • Няма анімаваных персанажаў або дынамічных элементаў
  • Ліміты генерацый могуць абмежаваць продакшн-воркфлоў
  • Дэградацыя на краях патрабуе праходаў пашырэння
  • Толькі статычныя асяроддзі

Для анімаванага кантэнту ўсё яшчэ патрэбны мадэлі генерацыі відэа. Marble моцны ў асяроддзях і прасторах, не ў акцёрах ці дзеяннях.

Вялікая карціна

Фей-Фей Лі бачыць прасторавы інтэлект як неабходны для прагрэсу ШІ:

«Я думаю, усе мы адказныя за накіраванне ШІ да лепшага стану па меры росту яго магутнасці. Усе мы павінны хацець, каб чалавецтва пераважала і квітнела».

Яе бачанне выходзіць за межы забаў. Медыцынскія сімуляцыі, дзе студэнты даследуюць анатомію. Навуковыя візуалізацыі, дзе даследчыкі навігуюць малекулярныя структуры. Асяроддзі для навучання робатаў, якія генеруюцца па патрабаванні.

Marble — крок першы, камерцыйнае даказанне канцэпцыі. Даследаванне працягваецца да больш дынамічнай, інтэрактыўнай і фізічна дакладнай генерацыі светаў.

Пачатак працы

World Labs прапануе бясплатны тарыф з 4 генерацыямі на месяц. Дастаткова для ацэнкі тэхналогіі і разумення яе абмежаванняў.

Для стваральнікаў, якія ўжо працуюць у 3D, магчымасць экспарту мешаў інтэгруецца з наяўнымі пайплайнамі. Для прадзюсэраў відэа экспарт відэа дае магчымасці прэвізуалізацыі, недаступныя ў іншых месцах.

💡

Звязанае чытанне: наш гайд па кансістэнтнасці персанажаў у ШІ-відэа пакрывае тэхнікі падтрымання кагерэнтнасці ў згенераваным кантэнце — выклік, які Marble вырашае праз пастаяннае 3D-прадстаўленне.

Пераход ад 2D-генерацыі да стварэння 3D-светаў прадстаўляе фундаментальны зрух у тым, што можа вырабляць ШІ. Marble робіць гэты зрух даступным.

Гэты артыкул быў карысны?

Alexis

Alexis

Інжынер ШІ

Інжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.

Звязаныя артыкулы

Працягвайце даследаванне з гэтымі звязанымі допісамі

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

World Labs Marble: бачанне прасторавага інтэлекту ад Фей-Фей Лі