Meta Pixel
AlexisAlexis
7 min read
1220 думи

World Labs Marble: Визията за пространствена интелигентност на Фей-Фей Ли

Пионерката на изкуствения интелект Фей-Фей Ли пуска Marble, комерсиална платформа, която генерира изследваеми 3D светове от текст и изображения, отбелязвайки нова граница в пространствения изкуствен интелект.

World Labs Marble: Визията за пространствена интелигентност на Фей-Фей Ли
Изследователката, която даде на машините способността да виждат, сега ги учи да си представят цели светове. С World Labs Marble, Фей-Фей Ли прави следващата стъпка отвъд генерирането на видео към постоянни, изследваеми 3D среди.

От ImageNet до модели на света

💡

За контекст как моделите на света се вписват в еволюцията на видеото с изкуствен интелект, вижте нашия преглед на моделите на света като следваща граница.

Фей-Фей Ли революционизира компютърното зрение с ImageNet, наборът от данни, който направи възможно модерното дълбоко обучение. Сега, след година изграждане на World Labs с финансиране от 230 милиона долара, тя пусна Marble, първия комерсиален продукт на компанията.

Тезата е проста: изкуственият интелект завладя текста, след това изображенията, след това видеото. Следващата граница е пространствената интелигентност, способността за възприемане, генериране и взаимодействие с 3D светове.

$230M
Събрано финансиране
4
Ценови нива
3D
Изходен изход

Какво прави Marble

Marble генерира постоянни, изтегляеми 3D среди от множество типове входове:

  • Текстови подкани
  • Отделни изображения
  • Видеоклипове
  • Панорами
  • 3D оформления

За разлика от моделите на света в реално време на конкуренти като Decart Oasis или Google Genie, Marble създава стабилни светове с минимален морфинг. Генерирате веднъж, след това изследвате свободно, без изкуственият интелект да "забрави" какво е създал.

Редакторът Chisel

🔨

Изкуствен интелект-нативно 3D редактиране

Chisel разделя пространствената структура от визуалния стил. Първо скицирайте оформлението, след това приложете текстово стилово насочване.

Този хибриден подход отличава Marble от моделите текст-в-сцена. Вместо да се надявате, че изкуственият интелект ще разбере вашето пространствено намерение, дефинирате геометрията изрично. Изкуственият интелект се справя с естетиката, материалите и осветлението.

Представете си го като скициране на план, преди да помолите интериорен дизайнер за декорация. Контролът над пространствените отношения остава ваш.

Формати за експорт и съвместимост

Генерираните светове се експортират в три формата:

ФорматСлучай на употреба
Гаусови сплатовеРендиране в реално време, нови изгледи
МрежиИгрални двигатели, CAD интеграция
ВидеоклиповеСъздаване на съдържание, пред-визуализация
💡

Всички Marble светове са VR-съвместими с Vision Pro и Quest 3 слушалки директно от кутията.

Структура на цените

World Labs предлага четири нива:

НивоЦенаГенериранияКлючови характеристики
Free$04/месецТекст, изображение или панорамен вход
Standard$20/месец12/месецМножество изображения/видео вход, разширено редактиране
Pro$35/месец25/месецРазширение на сцена, комерсиални права
Max$95/месец75/месецВсички характеристики, максимум генерирания

Безплатното ниво ви позволява да оцените технологията. За продукционна работа, изискваща комерсиални права, Pro нивото за $35/месец представлява разумна входна цена за толкова нова способност.

Защо пространствената интелигентност има значение

"Пространствената интелигентност е определящото предизвикателство на следващото десетилетие." - Фей-Фей Ли

Ли твърди, че настоящият изкуствен интелект има фундаментално ограничение: зле разсъждава за 3D пространството. Езиковите модели халюцинират физика. Видео моделите създават невъзможни геометрии. Генераторите на изображения се борят с последователни пространствени отношения.

Настоящи подходи
Видео моделите генерират последователности от кадри без истинско 3D разбиране. Движенията на камерата разкриват несъответствия. Обектите променят позиция или изчезват.
Пространствена интелигентност
Изходната 3D репрезентация позволява физически последователни светове. Движете камерата свободно. Средата съществува, защото съществува като геометрия, не пиксели.

За роботиката това има огромно значение. Робот, навигиращ в кухня, се нуждае от пространствено разбиране, не от предвиждане на кадри. За VFX режисьорите се нуждаят от изследваеми среди, не от фиксирани пътища на камери.

Случаи на употреба, които се оформят

Игри Генерирайте амбиентни среди и фонови пространства. Независимите разработчици могат да създадат изследователски области, които биха изисквали месеци традиционна художествена продукция.

Визуални ефекти Пред-визуализацията става интерактивна. Скицирайте сцена пространствено, след това изследвайте ъглите на камерата преди да се ангажирате със снимки.

Архитектура Преобразувайте планове в изследваеми обиколки. Клиентите изпитват пространствата преди да започне строителството.

Образование Ли си представя студенти, които ходят вътре в клетка, хирурзи, които практикуват вътре в анатомични симулации.

Разширение на света и режим Composer

Две характеристики адресират ограниченията на мащаба:

Разширение на света ви позволява да разширите генерирания свет веднъж, добавяйки детайли към крайните области, където качеството обикновено се влошава. Това разширява границите на изследваемото пространство отвъд началните ограничения на генерирането.

Режим Composer комбинира множество светове в по-големи среди. Генерирайте отделни стаи, след това ги съединете в цялостна сграда.

Тези инструменти признават настоящите ограничения, като същевременно предоставят практични решения.

Конкурентен пейзаж

Marble влиза в претъпкано поле:

ПродуктПодходОтличителна черта
Decart OasisГенериране на игри в реално времеИнтерактивно, но световете се местят по време на изследването
Google GenieГенериране на игрални световеПредвиждане на кадри без истинско 3D
OdysseyПостоянни модели на светаКорпоративен фокус
World Labs MarbleСтатично 3D генериранеИзтегляемо, редактируемо, VR-готово

Компромисът е ясен. Моделите в реално време като Oasis предлагат незабавност, но нестабилност. Marble дава приоритет на постоянството и редактируемостта пред интерактивността.

Свързване с генерирането на видео

💡

За фон за дифузионните архитектури, използвани в пространствения изкуствен интелект, вижте нашия технически преглед на дифузионните трансформатори.

Как генерирането на 3D свят се отнася до видеото? Те споделят математически основи в дифузионните модели, но решават различни проблеми.

Генерирането на видео създава временни последователности, кадър след кадър. Пространственият изкуствен интелект създава геометрични репрезентации, повърхности и обеми. Видеото отговаря "какво се случва след това?" Пространственият изкуствен интелект отговаря "какво съществува тук?"

Точка на конвергенция: навигируемо видео. Генерирайте 3D свят, след това рендирайте видео, докато се движите през него. Този подход предлага контрол на камерата, невъзможен с чисто генериране на видео.

Ограничения за обмисляне

Marble не е пълно решение:

  • Няма анимирани герои или динамични елементи
  • Ограниченията на генерирането могат да ограничат продукционните работни процеси
  • Влошаването на ръбовете изисква разширителни проходи
  • Само статични среди

За анимирано съдържание все още се нуждаете от модели за генериране на видео. Marble се отличава в среди и пространства, не в актьори или действия.

По-голямата картина

Фей-Фей Ли вижда пространствената интелигентност като съществена за напредъка на изкуствения интелект:

"Мисля, че всички ние имаме отговорност за въвеждането на изкуствения интелект в по-добро състояние, докато става по-мощен. Всички трябва да искаме човечеството да надделее и да процъфтява."

Нейната визия надхвърля развлечението. Медицински симулации, където студентите изследват анатомия. Научни визуализации, където изследователите навигират в молекулярни структури. Роботични тренировъчни среди, генерирани при поискване.

Marble е първа стъпка, комерсиално доказателство за концепция. Изследването продължава към по-динамично, интерактивно и физически точно генериране на светове.

Начало

World Labs предлага безплатно ниво с 4 генерирания месечно. Достатъчно за оценка на технологията и разбиране на нейните ограничения.

За създателите, които вече работят в 3D, възможността за експорт на мрежи се интегрира с съществуващите тръбопроводи. За видео продуцентите експортът на видео предоставя възможности за пред-визуализация, недостъпни другаде.

💡

Свързано четене: Нашият ръководство за последователност на героите в видео с изкуствен интелект покрива техники за поддържане на кохерентност в генерираното съдържание, предизвикателство, което Marble решава чрез постоянна 3D репрезентация.

Преходът от 2D генериране към създаване на 3D светове представлява фундаментална промяна в това, което изкуственият интелект може да произведе. Marble прави тази промяна достъпна.

Беше ли полезна тази статия?

Alexis

Alexis

Инженер по изкуствен интелект

Инженер по изкуствен интелект от Лозана, съчетаващ изследователска дълбочина с практични иновации. Разделя времето си между модели архитектури и алпийски върхове.

Свързани статии

Продължете да изследвате със свързаните публикации

Runway GWM-1: Общият световен модел, който симулира реалността в реално време
RunwayWorld Models

Runway GWM-1: Общият световен модел, който симулира реалността в реално време

GWM-1 на Runway означава промяна в парадигмата от генериране на видеоклипове към симулиране на светове. Открийте как този авторегресивен модел създава изследваеми среди, фотореалистични аватари и симулации за обучение на роботи.

Read
YouTube Въвежда Veo 3 Fast в Shorts: Безплатно AI Генериране на Видео за 2,5 Милиарда Потребители
YouTubeVeo 3

YouTube Въвежда Veo 3 Fast в Shorts: Безплатно AI Генериране на Видео за 2,5 Милиарда Потребители

Google интегрира своя модел Veo 3 Fast директно в YouTube Shorts, предлагайки безплатно генериране на видео от текст с аудио за създатели по целия свят. Ето какво означава това за платформата и достъпността на AI видео.

Read
Видео езикови модели: следващата граница след LLM и AI агентите
World ModelsVideo Language Models

Видео езикови модели: следващата граница след LLM и AI агентите

Световните модели учат AI да разбира физическата реалност, позволявайки на роботите да планират действия и симулират резултати преди първото движение.

Read

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

World Labs Marble: Визията за пространствена интелигентност на Фей-Фей Ли