Meta Pixel
AlexisAlexis
3 min read
415 คำ

Meta SAM 3D: จากภาพ 2D แบน สู่โมเดล 3D สมบูรณ์ในเวลาไม่กี่วินาที

Meta เพิ่งเปิดตัว SAM 3 และ SAM 3D ที่สามารถเปลี่ยนภาพ 2D เดี่ยวให้เป็นโครงข่าย 3D ที่มีรายละเอียดในเวลาไม่กี่วินาที เราจะอธิบายว่านี่หมายความว่าอย่างไรสำหรับผู้สร้างสรรค์และนักพัฒนา

Meta SAM 3D: จากภาพ 2D แบน สู่โมเดล 3D สมบูรณ์ในเวลาไม่กี่วินาที

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Meta ได้เปิดตัวสิ่งที่สำคัญมากเมื่อวันที่ 19 พฤศจิกายน 2025 SAM 3D ตอนนี้สามารถสร้างโครงข่าย 3D ที่สมบูรณ์จากภาพ 2D เดี่ยวในเวลาไม่กี่วินาที สิ่งที่เคยต้องใช้เวลาหลายชั่วโมงในการสร้างโมเดลด้วยมือหรืออุปกรณ์ฟอโตแกรมเมตรีที่แพง ตอนนี้เกิดขึ้นได้ด้วยการคลิกเพียงครั้งเดียว

ปัญหาที่ SAM 3D แก้ไข

การสร้างสินทรัพย์ 3D เป็นคอขวดมาโดยตลอด ไม่ว่าคุณจะกำลังสร้างเกม ออกแบบการแสดงภาพผลิตภัณฑ์ หรือเติมเต็มประสบการณ์ AR กระบวนการโดยทั่วไปจะมีลักษณะดังนี้:

แบบดั้งเดิม

การสร้างโมเดลด้วยมือ

ศิลปินใช้เวลา 4-8 ชั่วโมงในการปั้นวัตถุเดี่ยวใน Blender หรือ Maya

ฟอโตแกรมเมตรี

การจับภาพหลายภาพ

ถ่ายภาพ 50-200 ภาพจากทุกมุม ประมวลผลทั้งคืน ทำความสะอาดข้อผิดพลาดด้วยมือ

SAM 3D

ภาพเดียว

อัปโหลดภาพหนึ่งภาพ รับโครงข่าย 3D ที่มีเท็กซ์เจอร์ในเวลาไม่กี่วินาที

ผลกระทบมีความสำคัญมาก การสร้างเนื้อหา 3D เพิ่งเข้าถึงได้สำหรับทุกคนที่มีกล้อง

SAM 3D ทำงานอย่างไร

SAM 3D สร้างบนสถาปัตยกรรม Segment Anything Model ของ Meta แต่ขยายไปสู่สามมิติ ระบบมีสองรูปแบบเฉพาะทาง:

SAM 3D Objects

  • ปรับให้เหมาะสำหรับวัตถุและฉาก
  • จัดการกับเรขาคณิตที่ซับซ้อน
  • ทำงานกับรูปร่างใดก็ได้
  • เหมาะที่สุดสำหรับผลิตภัณฑ์ เฟอร์นิเจอร์ สภาพแวดล้อม

SAM 3D Body

  • เฉพาะทางสำหรับรูปร่างมนุษย์
  • จับสัดส่วนร่างกายอย่างแม่นยำ
  • จัดการกับเสื้อผ้าและเครื่องประดับ
  • เหมาะที่สุดสำหรับอวตาร การสร้างตัวละคร

สถาปัตยกรรมใช้ตัวเข้ารหัสแบบ transformer ที่ทำนายความลึก พื้นผิวปกติ และเรขาคณิตพร้อมกัน แตกต่างจากวิธี 3D จากภาพเดียวก่อนหน้านี้ที่มักสร้างรูปร่างที่คลุมเครือและเป็นค่าประมาณ SAM 3D รักษาขอบที่คมชัดและรายละเอียดเรขาคณิตที่ละเอียด

💡

SAM 3D สร้างรูปแบบโครงข่ายมาตรฐานที่เข้ากันได้กับ Unity, Unreal Engine, Blender และซอฟต์แวร์ 3D ส่วนใหญ่ ไม่มีการล็อกแบบกรรมสิทธิ์

SAM 3 สำหรับวิดีโอ: การแยกวัตถุตามข้อความ

ในขณะที่ SAM 3D จัดการกับการแปลงจาก 2D เป็น 3D SAM 3 มุ่งเน้นไปที่การแบ่งส่วนวิดีโอด้วยการอัปเกรดครั้งใหญ่: การสอบถามตามข้อความ

เวอร์ชันก่อนหน้าต้องการให้คุณคลิกที่วัตถุเพื่อเลือกพวกมัน SAM 3 ให้คุณอธิบายสิ่งที่คุณต้องการแยก:

  • "เลือกรถสีแดงทั้งหมด"
  • "ติดตามคนที่สวมเสื้อแจ็คเก็ตสีน้ำเงิน"
  • "แยกอาคารพื้นหลัง"
47.0
Zero-Shot mAP
22%
การปรับปรุง
100+
วัตถุที่ติดตาม

โมเดลบรรลุ 47.0 ความแม่นยำหน้ากากเฉลี่ยแบบ zero-shot ซึ่งเป็นการปรับปรุง 22% จากระบบก่อนหน้า ที่สำคัญกว่านั้น มันสามารถประมวลผลวัตถุมากกว่า 100 ชิ้นพร้อมกันในเฟรมวิดีโอเดียว

🎬

การผสานรวมกับ Meta Edits

SAM 3 ผสานรวมเข้ากับแอปสร้างวิดีโอ Edits ของ Meta แล้ว ผู้สร้างสรรค์สามารถใช้เอฟเฟกต์ การเปลี่ยนสี และการแปลงกับวัตถุเฉพาะโดยใช้คำอธิบายภาษาธรรมชาติแทนการปิดบังแบบเฟรมต่อเฟรมด้วยมือ

สถาปัตยกรรมทางเทคนิค

สำหรับผู้ที่สนใจในรายละเอียด SAM 3D ใช้สถาปัตยกรรมแบบหลายหัวที่ทำนายคุณสมบัติหลายอย่างพร้อมกัน:

หัวการทำนาย:

  • แผนที่ความลึก: ระยะทางต่อพิกเซลจากกล้อง
  • พื้นผิวปกติ: การวางแนว 3D ในแต่ละจุด
  • การแบ่งส่วนทางความหมาย: ขอบเขตและหมวดหมู่ของวัตถุ
  • โทโพโลยีโครงข่าย: การเชื่อมต่อสามเหลี่ยมสำหรับเอาต์พุต 3D

โมเดลได้รับการฝึกอบรมด้วยการผสมผสานระหว่างการสแกน 3D ในโลกจริงและข้อมูลสังเคราะห์ Meta ไม่ได้เปิดเผยขนาดชุดข้อมูลที่แน่นอน แต่กล่าวถึง "ตัวอย่างวัตถุหลายล้านชิ้น" ในเอกสารทางเทคนิคของพวกเขา

SAM 3D ประมวลผลภาพที่ความละเอียดหลายระดับพร้อมกัน ช่วยให้จับทั้งรายละเอียดละเอียด (เท็กซ์เจอร์ ขอบ) และโครงสร้างโดยรวม (รูปร่างโดยรวม สัดส่วน) ในการส่งผ่านไปข้างหน้าเดียว

การใช้งานจริง

กรณีการใช้งานทันที
  • การแสดงภาพผลิตภัณฑ์อีคอมเมิร์ซ
  • ประสบการณ์ AR ลองใช้
  • การสร้างต้นแบบสินทรัพย์เกม
  • การแสดงภาพสถาปัตยกรรม
  • โมเดล 3D ทางการศึกษา
ข้อจำกัดที่ควรพิจารณา
  • การสร้างใหม่มุมเดียวมีความคลุมเครือโดยธรรมชาติ
  • ด้านหลังของวัตถุถูกอนุมาน ไม่ได้สังเกต
  • พื้นผิวที่สะท้อนแสงหรือโปร่งใสมากมีปัญหา
  • โครงสร้างบางมากอาจสร้างใหม่ได้ไม่ดี

ข้อจำกัดมุมเดียวเป็นพื้นฐาน: โมเดลสามารถเห็นได้เพียงด้านเดียวของวัตถุ มันอนุมานเรขาคณิตที่ซ่อนอยู่ตามสมมติฐานที่เรียนรู้ ซึ่งทำงานได้ดีสำหรับวัตถุทั่วไป แต่สามารถสร้างผลลัพธ์ที่ไม่คาดคิดสำหรับรูปร่างที่ผิดปกติ

ความพร้อมใช้งานและการเข้าถึง

SAM 3D พร้อมใช้งานแล้วผ่าน Segment Anything Playground บนเว็บไซต์ของ Meta สำหรับนักพัฒนา Roboflow ได้สร้างการผสานรวมสำหรับการปรับแต่งแบบกำหนดเองบนวัตถุเฉพาะโดเมนแล้ว

  • เว็บเพลย์กราวนด์: พร้อมใช้งานแล้ว
  • การเข้าถึง API: พร้อมใช้งานสำหรับนักพัฒนา
  • การผสานรวม Roboflow: พร้อมสำหรับการปรับแต่ง
  • การติดตั้งภายในเครื่อง: น้ำหนักจะพร้อมเร็วๆ นี้

API ฟรีสำหรับการวิจัยและการใช้งานเชิงพาณิชย์แบบจำกัด แอปพลิเคชันเชิงพาณิชย์ที่มีปริมาณสูงต้องการข้อตกลงแยกกับ Meta

นี่หมายความว่าอย่างไรสำหรับอุตสาหกรรม

อุปสรรคในการสร้างเนื้อหา 3D เพิ่งลดลงอย่างมาก พิจารณาผลกระทบ:

สำหรับนักพัฒนาเกม: การสร้างต้นแบบอย่างรวดเร็วกลายเป็นเรื่องง่าย ถ่ายภาพวัตถุในโลกจริง รับสินทรัพย์ 3D ที่ใช้งานได้ในเวลาไม่กี่วินาที ทำซ้ำจากนั้น

สำหรับอีคอมเมิร์ซ: การถ่ายภาพผลิตภัณฑ์สามารถสร้างโมเดล 3D สำหรับคุณสมบัติดูตัวอย่าง AR โดยอัตโนมัติ ไม่จำเป็นต้องมีไปป์ไลน์การผลิต 3D แยกต่างหาก

สำหรับนักการศึกษา: สิ่งประดิษฐ์ทางประวัติศาสตร์ ตัวอย่างชีวภาพ หรือส่วนประกอบทางวิศวกรรมสามารถกลายเป็นโมเดล 3D เชิงโต้ตอบจากภาพถ่ายที่มีอยู่

สำหรับผู้สร้างสรรค์ AR/VR: การเติมสภาพแวดล้อมเสมือนจริงด้วยวัตถุที่สมจริงไม่ต้องการความเชี่ยวชาญในการสร้างโมเดล 3D อย่างกว้างขวางอีกต่อไป

💡

การรวมกันของ SAM 3 (การแบ่งส่วนวิดีโอ) และ SAM 3D (การสร้าง 3D ใหม่) ช่วยให้เวิร์กโฟลว์ที่คุณสามารถแบ่งส่วนวัตถุจากภาพวิดีโอ จากนั้นแปลงวัตถุที่แบ่งส่วนนั้นเป็นโมเดล 3D การสกัดและการสร้างใหม่ในไปป์ไลน์เดียว

ภาพรวมใหญ่

SAM 3D แสดงถึงแนวโน้มที่กว้างขึ้น: AI กำลังขจัดแรงเสียดทานออกจากเวิร์กโฟลว์สร้างสรรค์อย่างเป็นระบบ เราเห็นสิ่งนี้กับการสร้างภาพ จากนั้นการสร้างวิดีโอ และตอนนี้การสร้างโมเดล 3D

เทคโนโลยีไม่สมบูรณ์แบบ ฉากที่ซับซ้อนด้วยการบดบัง วัสดุที่ผิดปกติ หรือเรขาคณิตที่ซับซ้อนยังคงท้าทายระบบ แต่ความสามารถพื้นฐาน การเปลี่ยนภาพถ่ายใดๆ เป็นโครงข่าย 3D ที่ใช้งานได้ ตอนนี้พร้อมใช้งานสำหรับทุกคน

สำหรับศิลปิน 3D มืออาชีพ นี่ไม่ใช่การทดแทนแต่เป็นเครื่องมือ สร้างโครงข่ายพื้นฐานในเวลาไม่กี่วินาที จากนั้นปรับแต่งด้วยมือ ขั้นตอนการสร้างโมเดลเบื้องต้นที่น่าเบื่อถูกบีบอัดจากหลายชั่วโมงเป็นเพียงไม่กี่วินาที ทำให้เหลือเวลามากขึ้นสำหรับงานสร้างสรรค์ที่ต้องการการตัดสินใจของมนุษย์จริงๆ

การเปิดตัวของ Meta บ่งชี้ว่าอุปสรรคระหว่าง 2D และ 3D กำลังพังทลาย คำถามตอนนี้ไม่ใช่ว่า AI สามารถสร้างเนื้อหา 3D จากภาพได้หรือไม่ แต่ว่าจะใช้เวลานานแค่ไหนจนกว่าความสามารถนี้จะกลายเป็นคุณสมบัติมาตรฐานในทุกเครื่องมือสร้างสรรค์

บทความนี้มีประโยชน์หรือไม่?

Alexis

Alexis

วิศวกร AI

วิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Diffusion Transformers: สถาปัตยกรรมที่ปฏิวัติการสร้างวิดีโอในปี 2025
AIVideo Generation

Diffusion Transformers: สถาปัตยกรรมที่ปฏิวัติการสร้างวิดีโอในปี 2025

ลงลึกถึงการบรรจบกันของโมเดล diffusion และ transformers ที่สร้างการเปลี่ยนแปลงกระบวนทัศน์ในการสร้างวิดีโอ AI สำรวจนวัตกรรมทางเทคนิคเบื้องหลัง Sora, Veo 3 และโมเดลก้าวหน้าอื่นๆ ครับ

Read
Parallelized Diffusion: การสร้างภาพ AI ทะลุกำแพงคุณภาพและความละเอียดอย่างไร
AI Image GenerationDiffusion Models

Parallelized Diffusion: การสร้างภาพ AI ทะลุกำแพงคุณภาพและความละเอียดอย่างไร

สำรวจสถาปัตยกรรม parallelized diffusion ที่ทำให้สามารถสร้างภาพความละเอียดสูงสุดและองค์ประกอบหลายองค์ประกอบที่ซับซ้อนได้ครับ ลงลึกถึงความก้าวหน้าทางเทคนิคที่กำลังกำหนดใหม่การสังเคราะห์ภาพ AI ครับ

Read
Meta Mango: เบื้องหลังโมเดล AI วิดีโอลับที่มุ่งล้ม OpenAI และ Google
MetaAI Video

Meta Mango: เบื้องหลังโมเดล AI วิดีโอลับที่มุ่งล้ม OpenAI และ Google

Meta เปิดเผย Mango โมเดล AI วิดีโอและภาพใหม่ที่กำหนดเปิดตัวในปี 2026 ด้วย Alexandr Wang ผู้ร่วมก่อตั้ง Scale AI เป็นผู้นำ Meta จะสามารถตามทันในการแข่งขัน AI สร้างสรรค์ได้ในที่สุดหรือไม่?

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

Meta SAM 3D: จากภาพ 2D แบน สู่โมเดล 3D สมบูรณ์ในเวลาไม่กี่วินาที