AlexisAlexis
5 min read
912 слоў

Meta SAM 3D: ад плоскіх відарысаў да поўных 3D-мадэляў за секунды

Meta выпусціла SAM 3 і SAM 3D, ператвараючы адзінкавыя 2D-відарысы ў дэталёвыя 3D-сеткі за секунды. Растлумачым, што гэта азначае для стваральнікаў і распрацоўшчыкаў.

Meta SAM 3D: ад плоскіх відарысаў да поўных 3D-мадэляў за секунды

19 лістапада 2025 года Meta выпусціла нешта сур'ёзнае. SAM 3D цяпер можа генераваць поўныя 3D-сеткі з адзінкавых 2D-відарысаў за секунды. Тое, што раней патрабавала гадзін ручной працы або дарагога фотаграметрычнага абсталявання, цяпер адбываецца адным клікам.

Праблема, якую вырашае SAM 3D

Стварэнне 3D-рэсурсаў заўсёды было вузкім месцам. Ці будуеце вы гульню, дызайнуеце візуалізацыю прадукту, ці запаўняеце AR-досвед, працэс звычайна выглядае так:

Традыцыйны

Ручное мадэляванне

Мастак траціць 4-8 гадзін на вылепліванне аднаго аб'екта ў Blender ці Maya

Фотаграметрыя

Здымкі з розных ракурсаў

Зрабіць 50-200 фотаздымкаў з усіх бакоў, апрацоўка ноччу, ручная ачыстка артэфактаў

SAM 3D

Адзін відарыс

Загрузіць адну фатаграфію, атрымаць тэкстураваную 3D-сетку за секунды

Наступствы істотныя. Стварэнне 3D-кантэнту стала даступным для ўсіх, у каго ёсць камера.

Як працуе SAM 3D

SAM 3D пабудаваны на архітэктуры Segment Anything Model ад Meta, але пашыраецца да трох вымярэнняў. Сістэма прадстаўлена ў двух спецыялізаваных варыянтах:

SAM 3D Objects

  • Аптымізаваны для аб'ектаў і сцэн
  • Апрацоўвае складаную геаметрыю
  • Працуе з любымі формамі
  • Найлепшы для прадуктаў, мэблі, асяроддзяў

SAM 3D Body

  • Спецыялізаваны для чалавечых форм
  • Дакладна захоўвае прапорцыі цела
  • Апрацоўвае вопратку і аксесуары
  • Найлепшы для аватараў, стварэння персанажаў

Архітэктура выкарыстоўвае трансфармерны кадавальнік, які прагназуе глыбіню, нармалі паверхні і геаметрыю адначасова. На адрозненне ад папярэдніх метадаў 3D з аднаго відарыса, якія часта ствараюць размытыя, прыблізныя формы, SAM 3D захоўвае рэзкія краі і дробныя геаметрычныя дэталі.

💡

SAM 3D выдае стандартныя фарматы сетак, сумяшчальныя з Unity, Unreal Engine, Blender і большасцю 3D-праграм. Ніякай прапрыетарнай блакіроўкі.

SAM 3 для відэа: вылучэнне аб'ектаў па тэкставых апісаннях

Калі SAM 3D апрацоўвае канверсію з 2D у 3D, SAM 3 засяроджаны на сегментацыі відэа з вялікім паляпшэннем: тэкставыя запыты.

Папярэднія версіі патрабавалі клікаць на аб'екты, каб іх вылучыць. SAM 3 дазваляе апісаць, што трэба выдзеліць:

  • "Вылучы ўсе чырвоныя машыны"
  • "Адсочвай чалавека ў блакітнай куртцы"
  • "Выдзелі фонавыя будынкі"
47.0
Zero-Shot mAP
22%
Паляпшэнне
100+
Адсочваных аб'ектаў

Мадэль дасягае 47.0 zero-shot mask average precision, што на 22% лепш за папярэднія сістэмы. Важней тое, што яна можа апрацоўваць больш за 100 аб'ектаў адначасова ў адным кадры відэа.

🎬

Інтэграцыя з Meta Edits

SAM 3 ужо інтэграваны ў прыкладанне для стварэння відэа Meta Edits. Стваральнікі могуць прымяняць эфекты, змены колеру і трансфармацыі да канкрэтных аб'ектаў, выкарыстоўваючы натуральныя апісанні замест ручной пакадравай маскіроўкі.

Тэхнічная архітэктура

Для тых, каго цікавяць дэталі, SAM 3D выкарыстоўвае мультыгалоўную архітэктуру, якая прагназуе некалькі ўласцівасцяў адначасова:

Прагнастычныя галовы:

  • Карта глыбіні: адлегласць ад камеры для кожнага пікселя
  • Нармалі паверхні: 3D-арыентацыя ў кожнай кропцы
  • Семантычная сегментацыя: межы і катэгорыі аб'ектаў
  • Тапалогія сеткі: злучэнне трохкутнікаў для 3D-вываду

Мадэль вучылася на камбінацыі рэальных 3D-сканаў і сінтэтычных даных. Meta не раскрыла дакладны памер набору даных, але згадвае "мільёны асобнікаў аб'ектаў" у тэхнічнай дакументацыі.

SAM 3D апрацоўвае відарысы на некалькіх дазволах адначасова, што дазваляе захопліваць і дробныя дэталі (тэкстуры, краі), і агульную структуру (агульная форма, прапорцыі) за адзін прамы праход.

Практычныя прымяненні

Хуткае выкарыстанне
  • Візуалізацыя прадуктаў для электроннай камерцыі
  • AR-досвед прымеркі
  • Прататыпаванне рэсурсаў для гульняў
  • Архітэктурная візуалізацыя
  • Адукацыйныя 3D-мадэлі
Абмежаванні
  • Рэканструкцыя з аднаго ракурса мае ўнутраную неадназначнасць
  • Зваротныя бакі аб'ектаў вылічаюцца, а не назіраюцца
  • Моцна адбівальныя ці празрыстыя паверхні ствараюць праблемы
  • Вельмі тонкія структуры могуць не рэканструявацца добра

Абмежаванне аднаго ракурса фундаментальнае: мадэль бачыць толькі адзін бок аб'екта. Яна вылічае схаваную геаметрыю на аснове вывучаных прыяроў, што добра працуе для распаўсюджаных аб'ектаў, але можа даваць нечаканыя вынікі для незвычайных формаў.

Даступнасць

SAM 3D ужо даступны праз Segment Anything Playground на сайце Meta. Для распрацоўшчыкаў Roboflow ужо пабудавала інтэграцыю для наладкі пад канкрэтныя аб'екты.

  • Вэб-плошчадка: даступна зараз
  • Доступ да API: даступны для распрацоўшчыкаў
  • Інтэграцыя Roboflow: гатова для наладкі
  • Лакальнае разгортванне: вагі хутка

API бясплатны для даследаванняў і абмежаванага камерцыйнага выкарыстання. Вялікааб'ёмныя камерцыйныя прымяненні патрабуюць асобнай дамовы з Meta.

Што гэта значыць для індустрыі

Бар'ер для стварэння 3D-кантэнту моцна зніжаны. Разгледзім наступствы:

Для распрацоўшчыкаў гульняў: хуткае прататыпаванне становіцца трывіяльным. Сфатаграфаваў рэальныя аб'екты, атрымаў выкарыстоўныя 3D-рэсурсы за секунды, далей працуй з імі.

Для электроннай камерцыі: фатаграфіі прадуктаў могуць аўтаматычна генераваць 3D-мадэлі для функцый AR-прагляду. Асобны 3D-канвеер не патрэбны.

Для педагогаў: гістарычныя артэфакты, біялагічныя ўзоры ці інжынерныя кампаненты могуць стацца інтэрактыўнымі 3D-мадэлямі з наяўных фотаздымкаў.

Для стваральнікаў AR/VR: запаўненне віртуальных асяроддзяў рэалістычнымі аб'ектамі больш не патрабуе вялікага вопыту 3D-мадэлявання.

💡

Камбінацыя SAM 3 (сегментацыя відэа) і SAM 3D (3D-рэканструкцыя) дазваляе працоўны працэс, дзе можна вылучыць аб'ект з відэа, потым ператварыць яго ў 3D-мадэль. Выманне і рэканструкцыя ў адным канвееры.

Шырокая перспектыва

SAM 3D адлюстроўвае больш шырокую тэндэнцыю: ШІ сістэматычна ліквідуе перашкоды ў творчых працэсах. Гэта было з генерацыяй відарысаў, потым відэа, цяпер 3D-мадэляванне.

Тэхналогія не ідэальная. Складаныя сцэны з перакрыццямі, незвычайнымі матэрыяламі ці складанай геаметрыяй усё яшчэ ствараюць праблемы. Але базавая магчымасць, ператварэнне любой фатаграфіі ў выкарыстоўную 3D-сетку, цяпер даступная кожнаму.

Для прафесійных 3D-майстроў гэта не замена, а інструмент. Генеруй базавую сетку за секунды, потым дапрацоўвай уручную. Стомная пачатковая фаза мадэлявання сціскаецца з гадзін да секунд, застаючы больш часу для творчай працы, якая сапраўды патрабуе чалавечага меркавання.

Выпуск ад Meta паказвае, што бар'ер паміж 2D і 3D разбураецца. Зараз пытанне не ў тым, ці можа ШІ ствараць 3D-кантэнт з відарысаў. А ў тым, колькі часу, пакуль гэта стане стандартнай функцыяй у кожным творчым інструменце.

Alexis

Alexis

Інжынер ШІ

Інжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

Meta SAM 3D: ад плоскіх відарысаў да поўных 3D-мадэляў за секунды