Meta SAM 3D: 단일 이미지에서 완전한 3D 모델로, 수 초 만에
Meta가 SAM 3과 SAM 3D를 출시했습니다. 단일 2D 이미지를 수 초 만에 세밀한 3D 메시로 변환합니다. 크리에이터와 개발자에게 이것이 무엇을 의미하는지 살펴봅니다.

Meta가 2025년 11월 19일에 중요한 발표를 했습니다. SAM 3D는 이제 단일 2D 이미지에서 완전한 3D 메시를 수 초 만에 생성할 수 있습니다. 수 시간의 수동 모델링이나 비싼 포토그래메트리 장비가 필요했던 작업이 이제 클릭 한 번으로 가능합니다.
SAM 3D가 해결하는 문제
3D 자산 제작은 항상 병목 현상이었습니다. 게임을 제작하든, 제품 시각화를 디자인하든, AR 경험을 구축하든, 일반적으로 프로세스는 다음과 같습니다.
수동 모델링
아티스트가 Blender 또는 Maya에서 단일 오브젝트를 조각하는 데 4~8시간 소요
다중 이미지 캡처
모든 각도에서 50~200장의 사진 촬영, 밤새 처리, 수동으로 아티팩트 정리
단일 이미지
사진 한 장 업로드, 수 초 만에 텍스처가 적용된 3D 메시 수령
이것이 의미하는 바는 상당합니다. 3D 콘텐츠 제작이 카메라를 가진 누구나 접근할 수 있게 되었습니다.
SAM 3D의 작동 방식
SAM 3D는 Meta의 Segment Anything Model 아키텍처를 기반으로 하지만 이를 3차원으로 확장합니다. 시스템은 두 가지 특화된 변형으로 제공됩니다.
SAM 3D Objects
- 오브젝트와 장면에 최적화
- 복잡한 지오메트리 처리
- 임의의 형태에 대응
- 제품, 가구, 환경에 최적
SAM 3D Body
- 인체 형태에 특화
- 신체 비율을 정확하게 캡처
- 의류 및 액세서리 처리
- 아바타, 캐릭터 생성에 최적
이 아키텍처는 깊이, 표면 노멀, 지오메트리를 동시에 예측하는 트랜스포머 기반 인코더를 사용합니다. 종종 뭉툭하고 대략적인 형태를 생성했던 이전의 단일 이미지 3D 방법과 달리, SAM 3D는 날카로운 가장자리와 미세한 지오메트리 세부 사항을 유지합니다.
SAM 3D는 Unity, Unreal Engine, Blender 및 대부분의 3D 소프트웨어와 호환되는 표준 메시 형식을 출력합니다. 독점적인 종속성이 없습니다.
비디오용 SAM 3: 텍스트 기반 오브젝트 분리
SAM 3D가 2D에서 3D로의 변환을 처리하는 동안, SAM 3은 주요 업그레이드와 함께 비디오 세그먼테이션에 중점을 둡니다. 텍스트 기반 쿼리입니다.
이전 버전에서는 오브젝트를 선택하기 위해 클릭해야 했습니다. SAM 3은 분리하고 싶은 것을 설명할 수 있게 해줍니다.
- "모든 빨간색 자동차 선택"
- "파란색 재킷을 입은 사람 추적"
- "배경 건물 분리"
모델은 47.0의 제로샷 마스크 평균 정밀도를 달성하며, 이는 이전 시스템보다 22% 개선된 것입니다. 더 중요한 것은 단일 비디오 프레임에서 100개 이상의 오브젝트를 동시에 처리할 수 있다는 것입니다.
Meta Edits와의 통합
SAM 3은 이미 Meta의 Edits 비디오 제작 앱에 통합되었습니다. 크리에이터는 수동 프레임별 마스킹 대신 자연어 설명을 사용하여 특정 오브젝트에 효과, 색상 변경 및 변환을 적용할 수 있습니다.
기술 아키텍처
세부 사항에 관심이 있는 분들을 위해, SAM 3D는 여러 속성을 동시에 예측하는 다중 헤드 아키텍처를 사용합니다.
예측 헤드:
- 깊이 맵: 카메라로부터의 픽셀당 거리
- 표면 노멀: 각 지점에서의 3D 방향
- 의미론적 세그먼테이션: 오브젝트 경계 및 범주
- 메시 토폴로지: 3D 출력을 위한 삼각형 연결성
모델은 실제 3D 스캔과 합성 데이터의 조합으로 학습되었습니다. Meta는 정확한 데이터셋 크기를 공개하지 않았지만, 기술 문서에서 "수백만 개의 오브젝트 인스턴스"를 언급합니다.
SAM 3D는 여러 해상도에서 동시에 이미지를 처리하여, 단일 순방향 패스에서 미세한 세부 사항(텍스처, 가장자리)과 전역 구조(전체 형태, 비율)를 모두 캡처할 수 있습니다.
실용적인 응용 분야
- 전자상거래 제품 시각화
- AR 착용 체험
- 게임 자산 프로토타이핑
- 건축 시각화
- 교육용 3D 모델
- 단일 뷰 재구성에는 본질적인 모호성이 있음
- 오브젝트의 뒷면은 관찰되지 않고 추론됨
- 매우 반사적이거나 투명한 표면은 어려움
- 매우 얇은 구조는 잘 재구성되지 않을 수 있음
단일 뷰 제한은 근본적입니다. 모델은 오브젝트의 한 면만 볼 수 있습니다. 학습된 사전 지식을 기반으로 숨겨진 지오메트리를 추론하는데, 이는 일반적인 오브젝트에서는 잘 작동하지만 특이한 형태에서는 예상치 못한 결과를 생성할 수 있습니다.
가용성 및 접근
SAM 3D는 현재 Meta 웹사이트의 Segment Anything Playground를 통해 이용 가능합니다. 개발자를 위해 Roboflow는 이미 도메인별 오브젝트에 대한 사용자 정의 미세 조정을 위한 통합을 구축했습니다.
- ✓웹 플레이그라운드: 현재 이용 가능
- ✓API 액세스: 개발자에게 제공
- ✓Roboflow 통합: 미세 조정 준비 완료
- ○로컬 배포: 가중치 곧 제공 예정
API는 연구 및 제한적인 상업적 사용에 무료입니다. 대규모 상업적 애플리케이션에는 Meta와의 별도 계약이 필요합니다.
이것이 업계에 의미하는 바
3D 콘텐츠 제작의 장벽이 크게 낮아졌습니다. 다음과 같은 의미를 고려해 보십시오.
게임 개발자를 위해: 신속한 프로토타이핑이 간단해집니다. 실제 오브젝트를 촬영하고, 수 초 만에 사용 가능한 3D 자산을 얻고, 거기서부터 반복합니다.
전자상거래를 위해: 제품 사진이 자동으로 AR 미리보기 기능을 위한 3D 모델을 생성할 수 있습니다. 별도의 3D 제작 파이프라인이 필요하지 않습니다.
교육자를 위해: 역사적 유물, 생물학적 표본 또는 엔지니어링 구성 요소가 기존 사진에서 상호작용 가능한 3D 모델이 될 수 있습니다.
AR/VR 크리에이터를 위해: 가상 환경을 사실적인 오브젝트로 채우는 것이 더 이상 광범위한 3D 모델링 전문 지식을 필요로 하지 않습니다.
SAM 3(비디오 세그먼테이션)와 SAM 3D(3D 재구성)의 조합은 비디오 영상에서 오브젝트를 세그먼트하고, 그 세그먼트된 오브젝트를 3D 모델로 변환할 수 있는 워크플로우를 가능하게 합니다. 추출과 재구성이 하나의 파이프라인에서 이루어집니다.
더 큰 그림
SAM 3D는 더 넓은 트렌드를 나타냅니다. AI가 크리에이티브 워크플로우에서 마찰을 체계적으로 제거하고 있습니다. 이미지 생성, 비디오 생성, 그리고 이제 3D 모델링에서 이를 보았습니다.
기술이 완벽하지는 않습니다. 가림, 특이한 재료 또는 복잡한 지오메트리가 있는 복잡한 장면은 여전히 시스템에 도전 과제입니다. 그러나 모든 사진을 사용 가능한 3D 메시로 변환하는 기본 기능은 이제 누구나 이용할 수 있습니다.
전문 3D 아티스트에게 이것은 대체가 아니라 도구입니다. 수 초 만에 기본 메시를 생성한 다음 수동으로 다듬습니다. 지루한 초기 모델링 단계가 수 시간에서 수 초로 압축되어, 실제로 인간의 판단이 필요한 크리에이티브 작업에 더 많은 시간을 할애할 수 있습니다.
Meta의 출시는 2D에서 3D로의 장벽이 무너지고 있다는 신호입니다. 이제 질문은 AI가 이미지에서 3D 콘텐츠를 만들 수 있는지가 아닙니다. 이 기능이 모든 크리에이티브 도구의 표준 기능이 되기까지 얼마나 걸릴지입니다.

Alexis
AI 엔지니어연구 깊이와 실용적 혁신을 결합하는 로잔 출신 AI 엔지니어입니다. 모델 아키텍처와 알프스 산봉우리 사이에서 시간을 보냅니다.