SAM 3D de Meta: 3D instantani des de qualsevol imatge
Meta ha publicat SAM 3D de codi obert, un model que genera representacions 3D completament texturitzades des d'imatges 2D individuals en menys de 0.2 segons. Després de provar-lo extensivament, aquí tens el que realment significa per als fluxos de treball creatius.

Meta va deixar anar silenciosament SAM 3D el novembre de 2025, i vaig passar la setmana passada trencant-lo. Això és el que fa de manera diferent: puja una imatge, obtens una malla 3D completament texturitzada en menys de 200 mil·lisegons. Sense vistes múltiples. Sense escaneig. Una foto, sortida instantània.
Per què SAM 3D és important
La generació 3D anteriorment requeria una de tres coses:
- Múltiples fotos des de molts angles (fotogrametria)
- Equip d'escaneig especialitzat (LIDAR, escàners estructurats)
- Hores de generació per IA per a mètodes de vista única (NeRF, Gaussian Splatting)
SAM 3D col·lapsa els tres camins en un: una imatge, subegon de processament, 3D completament texturitzat. No és perfecte, però és prou bo per a la majoria dels fluxos de treball de previsualització i prototipat.
"SAM 3D" segueix el patró de denominació de Segment Anything Model de Meta. Igual que el SAM original segmenta imatges 2D instantàniament, SAM 3D "segmenta" l'estructura 3D des de la percepció 2D.
L'arquitectura: com funciona
Transformer d'imatge a 3D
SAM 3D utilitza una arquitectura d'encoder transformer que mapeja característiques d'imatge directament a un espai de triplanar 3D. El model prediu geometria i textura simultàniament en lloc d'estimar profunditat i després reconstruir.
La innovació clau és la representació triplanar, un mètode que codifica la informació 3D en tres plans 2D ortogonals. Imagineu tallar un cub amb tres fulles planes (una horitzontal, dues verticals i perpendiculars). El model prediu el que veuria en cada pla i després reconstrueix el volum 3D des d'aquesta representació comprimida.
# Arquitectura conceptual SAM3D (simplificada)
class SAM3DEncoder(nn.Module):
def __init__(self):
self.image_encoder = ViTLargeEncoder() # Backbone ViT pre-entrenat
self.triplane_decoder = TriplaneDecoder()
self.texture_head = TexturePredictor()
self.geometry_head = GeometryPredictor()
def forward(self, image):
# Extreure característiques d'imatge
features = self.image_encoder(image)
# Decodificar a representació triplanar
triplane = self.triplane_decoder(features)
# Predir geometria i textura simultàniament
geometry = self.geometry_head(triplane)
texture = self.texture_head(triplane, features)
return Mesh(geometry, texture)La velocitat prové d'evitar la generació de NeRF/Gaussian Splatting iterativa. En lloc de milers de passos de difusió refinant gradualment una representació 3D, SAM 3D fa una sola passada endavant.
Benchmarks i rendiment real
He executat SAM 3D en una RTX 4090 amb una varietat de tipus d'imatge:
- Objectes senzills amb geometria clara
- Productes i articles
- Objectes amb formes distintives
- Subjectes amb vistes frontals o lleugerament angulades
- Qualsevol cosa amb límits clars contra el fons
- Escenes complexes amb múltiples objectes
- Regions altament ocluïdes
- Geometria molt fina (cabell, fulles)
- Superfícies transparents o reflectants
- Vistes amb orientacions extremes
L'avaluació quantitativa del document de recerca de Meta mostra millores significatives sobre enfocaments anteriors en el benchmark Objaverse:
| Mètrica | SAM 3D | Zero-1-to-3 (Anterior) | Millora |
|---|---|---|---|
| Chamfer Distance | 0.042 | 0.089 | 2.1x millor |
| F-Score (τ=0.01) | 0.78 | 0.52 | 50% millor |
| Temps d'inferència | 0.18s | 45s+ | >200x més ràpid |
Però els benchmarks són benchmarks. En imatges reals del món real, espera qualitat variable. La regla general: com més neta sigui la teva imatge d'entrada i més senzilla sigui la geometria, millors resultats obtindràs.
Aplicacions pràctiques
Prototipat de productes
Abans de SAM 3D:
- Contractar fotògraf per a fotos de múltiples angles
- Processar a través de software de fotogrametria (hores)
- Neteja manual de la malla (més hores)
- Aplicar textures i materials
Amb SAM 3D:
- Fer foto amb el telèfon
- Executar a través de SAM 3D (0.2 segons)
- Refinar si cal
Per a prototipat d'etapa inicial, la qualitat és més que suficient. Pots visualitzar ràpidament com es veurà un producte des de tots els angles abans d'invertir en treball 3D adequat.
Generació de recursos de jocs
Per a desenvolupadors de jocs independents, SAM 3D ofereix una manera d'accelerar significativament la creació de recursos:
# Pipeline de processament per lots
for img in product_photos/*.jpg; do
sam3d generate --input "$img" --output "meshes/$(basename "$img" .jpg).glb"
done
# 100 imatges → 100 malles en ~20 segonsLa sortida sovint necessita neteja, sobretot per a jocs on la topologia importa. Però com a punt de partida, estalvia hores de modelatge.
Comerç electrònic i AR
Previsualitzacions 3D de productes
Converteix fotografia de productes existent en previsualitzacions 3D interactives. No és prou bo per a AR detallat, però perfecte per a pàgines de productes "mira-ho des de tots els angles".
Els requisits mínims per a experiències de prova d'AR encara superen el que SAM 3D produeix sol. Però com a entrada per a refinament de malles amb IA posterior, és un punt de partida valuós.
Formats de sortida i integració
SAM 3D produeix múltiples formats de sortida:
- ✓GLB/glTF: preparat per a visors web i motors de jocs
- ✓OBJ: compatible amb la majoria de programari 3D
- ✓PLY: per a pipelines de núvol de punts
- ✓USDZ: per a AR d'Apple (requereix conversió)
La sortida per defecte és un fitxer GLB amb textures integrades. Per a la majoria de fluxos de treball, pots anar directament a Three.js, Unity o Blender.
Comparació amb enfocaments existents
SAM 3D no substitueix cada eina 3D. És excel·lent per a velocitat i accessibilitat, però altres enfocaments guanyen quan la qualitat és primordial.
| Enfocament | Temps | Qualitat | Imatges d'entrada |
|---|---|---|---|
| SAM 3D | ≤1s | Bona | 1 |
| Fotogrametria | Hores | Excel·lent | 50-200 |
| Escaneig LIDAR | Minuts | Excel·lent | N/A (maquinari) |
| Modelatge manual | Dies | Control perfecte | Imatges de referència |
| Eines 3D IA anteriors | Minuts-Hores | Variable | 1-few |
Preparació de les teves imatges per als millors resultats
Després de centenars de generacions, aquí tens el que he après sobre la preparació d'imatges d'entrada:
Fes:
- Utilitza fons nets (blanc/gris funciona millor)
- Assegura una il·luminació uniforme
- Captura en l'orientació més informativa
- Elimina fons ocupats primer
- Utilitza imatges d'alta resolució (1024px+ ajuda)
No facis:
- Angles extremes (directament a dalt/sota)
- Oclusions pesades
- Objectes contra fons ocupats
- Imatges molt comprimides
- Exposicions múltiples o superposicions
L'eliminació de fons abans de SAM 3D sovint millora la qualitat. Eines com SAM de Meta original (per a segmentació 2D) poden preparar imatges per a la millor entrada.
Implicacions per a la indústria
SAM 3D senyalitza un canvi més ampli: la generació 3D s'està convertint en una característica de commodity en lloc d'un procés especialitzat.
Aquesta tendència afecta:
- Estudis de jocs: Acceleració de pipelines de recursos
- Comerç electrònic: Fotografies de productes 3D per a tothom
- Xarxes socials: Filtres i efectes 3D a partir de fotos
- Manufactura: Documentació ràpida d'objectes físics
- Arxiu: Digitalització de col·leccions de museus
Cada indústria que treballa amb objectes físics és potencialment afectada quan el 3D des de fotos es converteix en trivial.
El que ve després
Meta ha suggerit que SAM 3D forma part d'una línia de recerca més àmplia sobre comprensió espacial. Com encaixa amb altres treballs:
SAM original
Segment Anything: segmentació 2D instantània
SAM 2
Segmentació de vídeo i seguiment
SAM 3D
Generació 3D instantània des de 2D
SAM 4D?
Especulació: Entendre objectes a través de l'espai i el temps
La direcció sembla clara: Meta vol construir models bàsics que entenguin i manipulin el contingut visual en qualsevol dimensió. SAM 3D és un pas cap a aquest futur.
Començant amb SAM 3D
El model és de codi obert i està disponible a GitHub. Requisits bàsics:
Requisits de maquinari:
- GPU NVIDIA amb 8GB+ VRAM (12GB recomanat)
- 16GB RAM del sistema
- CPU moderna (per a preprocessament)
Instal·lació:
git clone https://github.com/facebookresearch/sam3d
cd sam3d
pip install -e .
# Ús bàsic
python sam3d_demo.py --image your_photo.jpg --output model.glbLa documentació inclou demos de Jupyter i una interfície Gradio per a proves interactives.
La meva opinió
SAM 3D és la cosa més emocionant en 3D que he vist des que Gaussian Splatting va fer clic. No perquè sigui perfecte, sinó perquè fa que el 3D sigui finalment immediat.
Democratització del 3D
Quan qualsevol pot generar 3D des d'una foto de telèfon en el temps que es triga a parpellejar, tot tipus de fluxos de treball creatius es tornen possibles.
Espero que SAM 3D impulsi una onada de noves aplicacions que combinen fotos i contingut 3D. Filtres socials, eines de prova de productes, generadors de recursos de jocs, totes coses que eren possibles però massa lentes per ser pràctiques.
La qualitat millorarà. Els temps d'inferència baixaran. Però el canvi fonamental ja ha passat: el 3D des de 2D ja no és un procés d'hores, sinó de menys d'un segon.
I això ho canvia tot.
Fonts
T'ha resultat útil aquest article?

Damien
Desenvolupador d'IADesenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.
Articles relacionats
Continua explorant amb aquests articles relacionats

ByteDance Vidi2: IA que entén el vídeo com un editor
ByteDance acaba de publicar Vidi2 com a codi obert, un model de 12B paràmetres que entén el contingut de vídeo prou bé per editar automàticament hores de metratge en clips polits. Ja impulsa TikTok Smart Split.

World Labs Marble: La visió de Fei-Fei Li per a la intel·ligència espacial
La pionera de l'IA Fei-Fei Li llança Marble, una plataforma comercial que genera mons 3D explorables a partir de text i imatges, marcant una nova frontera en IA espacial.

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.