Meta SAM 3D: จากภาพ 2D แบน สู่โมเดล 3D สมบูรณ์ในเวลาไม่กี่วินาที

Meta ได้เปิดตัวสิ่งที่สำคัญมากเมื่อวันที่ 19 พฤศจิกายน 2025 SAM 3D ตอนนี้สามารถสร้างโครงข่าย 3D ที่สมบูรณ์จากภาพ 2D เดี่ยวในเวลาไม่กี่วินาที สิ่งที่เคยต้องใช้เวลาหลายชั่วโมงในการสร้างโมเดลด้วยมือหรืออุปกรณ์ฟอโตแกรมเมตรีที่แพง ตอนนี้เกิดขึ้นได้ด้วยการคลิกเพียงครั้งเดียว

ปัญหาที่ SAM 3D แก้ไข

การสร้างสินทรัพย์ 3D เป็นคอขวดมาโดยตลอด ไม่ว่าคุณจะกำลังสร้างเกม ออกแบบการแสดงภาพผลิตภัณฑ์ หรือเติมเต็มประสบการณ์ AR กระบวนการโดยทั่วไปจะมีลักษณะดังนี้:

แบบดั้งเดิม

การสร้างโมเดลด้วยมือ

ศิลปินใช้เวลา 4-8 ชั่วโมงในการปั้นวัตถุเดี่ยวใน Blender หรือ Maya

ฟอโตแกรมเมตรี

การจับภาพหลายภาพ

ถ่ายภาพ 50-200 ภาพจากทุกมุม ประมวลผลทั้งคืน ทำความสะอาดข้อผิดพลาดด้วยมือ

SAM 3D

ภาพเดียว

อัปโหลดภาพหนึ่งภาพ รับโครงข่าย 3D ที่มีเท็กซ์เจอร์ในเวลาไม่กี่วินาที

ผลกระทบมีความสำคัญมาก การสร้างเนื้อหา 3D เพิ่งเข้าถึงได้สำหรับทุกคนที่มีกล้อง

SAM 3D ทำงานอย่างไร

SAM 3D สร้างบนสถาปัตยกรรม Segment Anything Model ของ Meta แต่ขยายไปสู่สามมิติ ระบบมีสองรูปแบบเฉพาะทาง:

SAM 3D Objects

ปรับให้เหมาะสำหรับวัตถุและฉาก
จัดการกับเรขาคณิตที่ซับซ้อน
ทำงานกับรูปร่างใดก็ได้
เหมาะที่สุดสำหรับผลิตภัณฑ์ เฟอร์นิเจอร์ สภาพแวดล้อม

SAM 3D Body

เฉพาะทางสำหรับรูปร่างมนุษย์
จับสัดส่วนร่างกายอย่างแม่นยำ
จัดการกับเสื้อผ้าและเครื่องประดับ
เหมาะที่สุดสำหรับอวตาร การสร้างตัวละคร

สถาปัตยกรรมใช้ตัวเข้ารหัสแบบ transformer ที่ทำนายความลึก พื้นผิวปกติ และเรขาคณิตพร้อมกัน แตกต่างจากวิธี 3D จากภาพเดียวก่อนหน้านี้ที่มักสร้างรูปร่างที่คลุมเครือและเป็นค่าประมาณ SAM 3D รักษาขอบที่คมชัดและรายละเอียดเรขาคณิตที่ละเอียด

💡

SAM 3D สร้างรูปแบบโครงข่ายมาตรฐานที่เข้ากันได้กับ Unity, Unreal Engine, Blender และซอฟต์แวร์ 3D ส่วนใหญ่ ไม่มีการล็อกแบบกรรมสิทธิ์

SAM 3 สำหรับวิดีโอ: การแยกวัตถุตามข้อความ

ในขณะที่ SAM 3D จัดการกับการแปลงจาก 2D เป็น 3D SAM 3 มุ่งเน้นไปที่การแบ่งส่วนวิดีโอด้วยการอัปเกรดครั้งใหญ่: การสอบถามตามข้อความ

เวอร์ชันก่อนหน้าต้องการให้คุณคลิกที่วัตถุเพื่อเลือกพวกมัน SAM 3 ให้คุณอธิบายสิ่งที่คุณต้องการแยก:

"เลือกรถสีแดงทั้งหมด"
"ติดตามคนที่สวมเสื้อแจ็คเก็ตสีน้ำเงิน"
"แยกอาคารพื้นหลัง"

47.0

Zero-Shot mAP

22%

การปรับปรุง

100+

วัตถุที่ติดตาม

โมเดลบรรลุ 47.0 ความแม่นยำหน้ากากเฉลี่ยแบบ zero-shot ซึ่งเป็นการปรับปรุง 22% จากระบบก่อนหน้า ที่สำคัญกว่านั้น มันสามารถประมวลผลวัตถุมากกว่า 100 ชิ้นพร้อมกันในเฟรมวิดีโอเดียว

🎬

การผสานรวมกับ Meta Edits

SAM 3 ผสานรวมเข้ากับแอปสร้างวิดีโอ Edits ของ Meta แล้ว ผู้สร้างสรรค์สามารถใช้เอฟเฟกต์ การเปลี่ยนสี และการแปลงกับวัตถุเฉพาะโดยใช้คำอธิบายภาษาธรรมชาติแทนการปิดบังแบบเฟรมต่อเฟรมด้วยมือ

สถาปัตยกรรมทางเทคนิค

สำหรับผู้ที่สนใจในรายละเอียด SAM 3D ใช้สถาปัตยกรรมแบบหลายหัวที่ทำนายคุณสมบัติหลายอย่างพร้อมกัน:

หัวการทำนาย:

แผนที่ความลึก: ระยะทางต่อพิกเซลจากกล้อง
พื้นผิวปกติ: การวางแนว 3D ในแต่ละจุด
การแบ่งส่วนทางความหมาย: ขอบเขตและหมวดหมู่ของวัตถุ
โทโพโลยีโครงข่าย: การเชื่อมต่อสามเหลี่ยมสำหรับเอาต์พุต 3D

โมเดลได้รับการฝึกอบรมด้วยการผสมผสานระหว่างการสแกน 3D ในโลกจริงและข้อมูลสังเคราะห์ Meta ไม่ได้เปิดเผยขนาดชุดข้อมูลที่แน่นอน แต่กล่าวถึง "ตัวอย่างวัตถุหลายล้านชิ้น" ในเอกสารทางเทคนิคของพวกเขา

SAM 3D ประมวลผลภาพที่ความละเอียดหลายระดับพร้อมกัน ช่วยให้จับทั้งรายละเอียดละเอียด (เท็กซ์เจอร์ ขอบ) และโครงสร้างโดยรวม (รูปร่างโดยรวม สัดส่วน) ในการส่งผ่านไปข้างหน้าเดียว

การใช้งานจริง

✓กรณีการใช้งานทันที

การแสดงภาพผลิตภัณฑ์อีคอมเมิร์ซ
ประสบการณ์ AR ลองใช้
การสร้างต้นแบบสินทรัพย์เกม
การแสดงภาพสถาปัตยกรรม
โมเดล 3D ทางการศึกษา

✗ข้อจำกัดที่ควรพิจารณา

การสร้างใหม่มุมเดียวมีความคลุมเครือโดยธรรมชาติ
ด้านหลังของวัตถุถูกอนุมาน ไม่ได้สังเกต
พื้นผิวที่สะท้อนแสงหรือโปร่งใสมากมีปัญหา
โครงสร้างบางมากอาจสร้างใหม่ได้ไม่ดี

ข้อจำกัดมุมเดียวเป็นพื้นฐาน: โมเดลสามารถเห็นได้เพียงด้านเดียวของวัตถุ มันอนุมานเรขาคณิตที่ซ่อนอยู่ตามสมมติฐานที่เรียนรู้ ซึ่งทำงานได้ดีสำหรับวัตถุทั่วไป แต่สามารถสร้างผลลัพธ์ที่ไม่คาดคิดสำหรับรูปร่างที่ผิดปกติ

ความพร้อมใช้งานและการเข้าถึง

SAM 3D พร้อมใช้งานแล้วผ่าน Segment Anything Playground บนเว็บไซต์ของ Meta สำหรับนักพัฒนา Roboflow ได้สร้างการผสานรวมสำหรับการปรับแต่งแบบกำหนดเองบนวัตถุเฉพาะโดเมนแล้ว

✓เว็บเพลย์กราวนด์: พร้อมใช้งานแล้ว
✓การเข้าถึง API: พร้อมใช้งานสำหรับนักพัฒนา
✓การผสานรวม Roboflow: พร้อมสำหรับการปรับแต่ง
○การติดตั้งภายในเครื่อง: น้ำหนักจะพร้อมเร็วๆ นี้

API ฟรีสำหรับการวิจัยและการใช้งานเชิงพาณิชย์แบบจำกัด แอปพลิเคชันเชิงพาณิชย์ที่มีปริมาณสูงต้องการข้อตกลงแยกกับ Meta

นี่หมายความว่าอย่างไรสำหรับอุตสาหกรรม

อุปสรรคในการสร้างเนื้อหา 3D เพิ่งลดลงอย่างมาก พิจารณาผลกระทบ:

สำหรับนักพัฒนาเกม: การสร้างต้นแบบอย่างรวดเร็วกลายเป็นเรื่องง่าย ถ่ายภาพวัตถุในโลกจริง รับสินทรัพย์ 3D ที่ใช้งานได้ในเวลาไม่กี่วินาที ทำซ้ำจากนั้น

สำหรับอีคอมเมิร์ซ: การถ่ายภาพผลิตภัณฑ์สามารถสร้างโมเดล 3D สำหรับคุณสมบัติดูตัวอย่าง AR โดยอัตโนมัติ ไม่จำเป็นต้องมีไปป์ไลน์การผลิต 3D แยกต่างหาก

สำหรับนักการศึกษา: สิ่งประดิษฐ์ทางประวัติศาสตร์ ตัวอย่างชีวภาพ หรือส่วนประกอบทางวิศวกรรมสามารถกลายเป็นโมเดล 3D เชิงโต้ตอบจากภาพถ่ายที่มีอยู่

สำหรับผู้สร้างสรรค์ AR/VR: การเติมสภาพแวดล้อมเสมือนจริงด้วยวัตถุที่สมจริงไม่ต้องการความเชี่ยวชาญในการสร้างโมเดล 3D อย่างกว้างขวางอีกต่อไป

💡

การรวมกันของ SAM 3 (การแบ่งส่วนวิดีโอ) และ SAM 3D (การสร้าง 3D ใหม่) ช่วยให้เวิร์กโฟลว์ที่คุณสามารถแบ่งส่วนวัตถุจากภาพวิดีโอ จากนั้นแปลงวัตถุที่แบ่งส่วนนั้นเป็นโมเดล 3D การสกัดและการสร้างใหม่ในไปป์ไลน์เดียว

ภาพรวมใหญ่

SAM 3D แสดงถึงแนวโน้มที่กว้างขึ้น: AI กำลังขจัดแรงเสียดทานออกจากเวิร์กโฟลว์สร้างสรรค์อย่างเป็นระบบ เราเห็นสิ่งนี้กับการสร้างภาพ จากนั้นการสร้างวิดีโอ และตอนนี้การสร้างโมเดล 3D

เทคโนโลยีไม่สมบูรณ์แบบ ฉากที่ซับซ้อนด้วยการบดบัง วัสดุที่ผิดปกติ หรือเรขาคณิตที่ซับซ้อนยังคงท้าทายระบบ แต่ความสามารถพื้นฐาน การเปลี่ยนภาพถ่ายใดๆ เป็นโครงข่าย 3D ที่ใช้งานได้ ตอนนี้พร้อมใช้งานสำหรับทุกคน

สำหรับศิลปิน 3D มืออาชีพ นี่ไม่ใช่การทดแทนแต่เป็นเครื่องมือ สร้างโครงข่ายพื้นฐานในเวลาไม่กี่วินาที จากนั้นปรับแต่งด้วยมือ ขั้นตอนการสร้างโมเดลเบื้องต้นที่น่าเบื่อถูกบีบอัดจากหลายชั่วโมงเป็นเพียงไม่กี่วินาที ทำให้เหลือเวลามากขึ้นสำหรับงานสร้างสรรค์ที่ต้องการการตัดสินใจของมนุษย์จริงๆ

การเปิดตัวของ Meta บ่งชี้ว่าอุปสรรคระหว่าง 2D และ 3D กำลังพังทลาย คำถามตอนนี้ไม่ใช่ว่า AI สามารถสร้างเนื้อหา 3D จากภาพได้หรือไม่ แต่ว่าจะใช้เวลานานแค่ไหนจนกว่าความสามารถนี้จะกลายเป็นคุณสมบัติมาตรฐานในทุกเครื่องมือสร้างสรรค์

Meta SAM 3D: จากภาพ 2D แบน สู่โมเดล 3D สมบูรณ์ในเวลาไม่กี่วินาที

ปัญหาที่ SAM 3D แก้ไข

การสร้างโมเดลด้วยมือ

การจับภาพหลายภาพ

ภาพเดียว

SAM 3D ทำงานอย่างไร

SAM 3 สำหรับวิดีโอ: การแยกวัตถุตามข้อความ

การผสานรวมกับ Meta Edits

สถาปัตยกรรมทางเทคนิค

การใช้งานจริง

ความพร้อมใช้งานและการเข้าถึง

นี่หมายความว่าอย่างไรสำหรับอุตสาหกรรม

ภาพรวมใหญ่

Alexis

Like what you read?

บทความที่เกี่ยวข้อง

Diffusion Transformers: สถาปัตยกรรมที่ปฏิวัติการสร้างวิดีโอในปี 2025

Parallelized Diffusion: การสร้างภาพ AI ทะลุกำแพงคุณภาพและความละเอียดอย่างไร

Meta Mango: เบื้องหลังโมเดล AI วิดีโอลับที่มุ่งล้ม OpenAI และ Google

ชอบบทความนี้ไหม?