World Labs Marble: วิสัยทัศน์ของ Fei-Fei Li สำหรับปัญญาเชิงพื้นที่
ผู้บุกเบิก AI Fei-Fei Li เปิดตัว Marble แพลตฟอร์มเชิงพาณิชย์ที่สร้างโลก 3D ที่สำรวจได้จากข้อความและภาพ เป็นจุดเริ่มต้นใหม่ใน AI เชิงพื้นที่

จาก ImageNet สู่โมเดลโลก
สำหรับบริบทเกี่ยวกับโมเดลโลกที่เข้ากับวิวัฒนาการของ AI วิดีโอ โปรดดูภาพรวมของเราเกี่ยวกับโมเดลโลกเป็นพรมแดนถัดไป
Fei-Fei Li ได้ปฏิวัติวิสัยทัศน์คอมพิวเตอร์ด้วย ImageNet ชุดข้อมูลที่ทำให้การเรียนรู้เชิงลึกสมัยใหม่เป็นไปได้ ตอนนี้ หลังจากสร้าง World Labs เป็นเวลาหนึ่งปีด้วยทุน $230 ล้าน เธอได้เปิดตัว Marble ซึ่งเป็นผลิตภัณฑ์เชิงพาณิชย์แรกของบริษัท
วิทยานิพนธ์นั้นง่าย: AI ได้พิชิตข้อความ จากนั้นภาพ จากนั้นวิดีโอ พรมแดนถัดไปคือปัญญาเชิงพื้นที่ ความสามารถในการรับรู้ สร้าง และโต้ตอบกับโลก 3D
Marble ทำอะไร
Marble สร้างสภาพแวดล้อม 3D ที่คงอยู่และดาวน์โหลดได้จากประเภทอินพุตหลายประเภท:
- ✓คำสั่งข้อความ
- ✓ภาพเดียว
- ✓วิดีโอ
- ✓ภาพพาโนรามา
- ✓เค้าโครง 3D
ต่างจากโมเดลโลกแบบเรียลไทม์จากคู่แข่งเช่น Decart's Oasis หรือ Google's Genie, Marble สร้างโลกที่มั่นคงด้วยการเปลี่ยนรูปที่น้อยที่สุด คุณสร้างครั้งเดียว จากนั้นสำรวจได้อย่างอิสระโดยไม่ต้องให้ AI "ลืม" สิ่งที่มันสร้างขึ้น
ตัวแก้ไข Chisel
การแก้ไข 3D แบบ AI-Native
Chisel แยกโครงสร้างเชิงพื้นที่ออกจากสไตล์ภาพ บล็อกเค้าโครงของคุณก่อน จากนั้นใช้คำแนะนำสไตล์แบบข้อความ
แนวทางแบบผสมผสานนี้ทำให้ Marble แตกต่างจากโมเดลข้อความสู่ฉาก แทนที่จะหวังว่า AI จะเข้าใจความตั้งใจเชิงพื้นที่ของคุณ คุณกำหนดรูปทรงเรขาคณิตอย่างชัดเจน AI จัดการความสวยงาม วัสดุ และแสง
คิดว่ามันเหมือนการร่างผังพื้นก่อนที่จะขอให้นักออกแบบตกแต่งภายในตกแต่ง การควบคุมความสัมพันธ์เชิงพื้นที่ยังคงเป็นของคุณ
รูปแบบการส่งออกและความเข้ากันได้
โลกที่สร้างขึ้นส่งออกในสามรูปแบบ:
| รูปแบบ | กรณีการใช้งาน |
|---|---|
| Gaussian Splats | การเรนเดอร์แบบเรียลไทม์ มุมมองใหม่ |
| Meshes | เอ็นจิ้นเกม การบูรณาการ CAD |
| วิดีโอ | การสร้างเนื้อหา การแสดงภาพล่วงหน้า |
โลก Marble ทั้งหมดเข้ากันได้กับ VR กับ headset Vision Pro และ Quest 3 ทันทีจากกล่อง
โครงสร้างราคา
World Labs เสนอสี่ระดับ:
| ระดับ | ราคา | การสร้าง | คุณสมบัติหลัก |
|---|---|---|---|
| ฟรี | $0 | 4/เดือน | อินพุตข้อความ ภาพ หรือพาโนรามา |
| มาตรฐาน | $20/เดือน | 12/เดือน | อินพุตหลายภาพ/วิดีโอ การแก้ไขขั้นสูง |
| Pro | $35/เดือน | 25/เดือน | การขยายฉาก สิทธิ์เชิงพาณิชย์ |
| Max | $95/เดือน | 75/เดือน | ทุกคุณสมบัติ การสร้างสูงสุด |
ระดับฟรีช่วยให้คุณประเมินเทคโนโลยี สำหรับงานผลิตที่ต้องการสิทธิ์เชิงพาณิชย์ ระดับ Pro ที่ $35/เดือน แสดงถึงราคาเข้าที่สมเหตุสมผลสำหรับความสามารถที่แปลกใหม่เช่นนี้
ทำไมปัญญาเชิงพื้นที่จึงสำคัญ
"ปัญญาเชิงพื้นที่คือความท้าทายที่กำหนดทศวรรษหน้า" - Fei-Fei Li
Li โต้แย้งว่า AI ปัจจุบันมีข้อจำกัดพื้นฐาน: มันให้เหตุผลได้ไม่ดีเกี่ยวกับพื้นที่ 3D โมเดลภาษาประสาทหลอนเกี่ยวกับฟิสิกส์ โมเดลวิดีโอสร้างรูปทรงเรขาคณิตที่เป็นไปไม่ได้ เครื่องมือสร้างภาพดิ้นรนกับความสัมพันธ์เชิงพื้นที่ที่สอดคล้องกัน
สำหรับหุ่นยนต์ นี่มีความสำคัญอย่างมาก หุ่นยนต์ที่นำทางในครัวต้องการความเข้าใจเชิงพื้นที่ ไม่ใช่การคาดการณ์เฟรม สำหรับ VFX ผู้กำกับต้องการสภาพแวดล้อมที่สำรวจได้ ไม่ใช่เส้นทางกล้องคงที่
กรณีการใช้งานที่กำลังเกิดขึ้น
เกม สร้างสภาพแวดล้อมบรรยากาศและพื้นที่พื้นหลัง นักพัฒนาอินดี้สามารถสร้างพื้นที่สำรวจที่จะต้องใช้เวลาการผลิตศิลปะแบบดั้งเดิมหลายเดือน
เอฟเฟกต์ภาพ การแสดงภาพล่วงหน้ากลายเป็นแบบโต้ตอบ บล็อกฉากเชิงพื้นที่ จากนั้นสำรวจมุมกล้องก่อนที่จะตัดสินใจถ่ายภาพ
สถาปัตยกรรม แปลงผังพื้นเป็นการเดินทัวร์ที่สำรวจได้ ลูกค้าสัมผัสพื้นที่ก่อนที่การก่อสร้างจะเริ่มต้น
การศึกษา Li จินตนาการว่านักเรียนเดินภายในเซลล์ ศัลยแพทย์ฝึกฝนภายในการจำลองทางกายวิภาค
การขยายโลกและโหมด Composer
คุณสมบัติสองอย่างจัดการกับข้อจำกัดด้านขนาด:
การขยายโลก ให้คุณขยายโลกที่สร้างขึ้นหนึ่งครั้ง เพิ่มรายละเอียดในภูมิภาคขอบที่คุณภาพมักจะลดลง สิ่งนี้ผลักดันขอบเขตของพื้นที่ที่สำรวจได้นอกเหนือจากข้อจำกัดการสร้างเริ่มต้น
โหมด Composer รวมหลายโลกเข้าเป็นสภาพแวดล้อมที่ใหญ่ขึ้น สร้างห้องแต่ละห้อง จากนั้นเย็บเข้าเป็นอาคารที่สมบูรณ์
เครื่องมือเหล่านี้รับทราบข้อจำกัดปัจจุบันในขณะที่ให้วิธีแก้ปัญหาที่ปฏิบัติได้
ภูมิทัศน์การแข่งขัน
Marble เข้าสู่สนามที่แออัด:
| ผลิตภัณฑ์ | แนวทาง | ความแตกต่าง |
|---|---|---|
| Decart Oasis | การสร้างเกมแบบเรียลไทม์ | โต้ตอบได้ แต่โลกเปลี่ยนแปลงระหว่างการสำรวจ |
| Google Genie | การสร้างโลกเกม | การคาดการณ์เฟรมโดยไม่มี 3D ที่แท้จริง |
| Odyssey | โมเดลโลกที่คงอยู่ | โฟกัสองค์กร |
| World Labs Marble | การสร้าง 3D แบบคงที่ | ดาวน์โหลดได้ แก้ไขได้ พร้อม VR |
การแลกเปลี่ยนชัดเจน โมเดลแบบเรียลไทม์เช่น Oasis เสนอความทันทีแต่ไม่มั่นคง Marble ให้ความสำคัญกับความคงอยู่และความสามารถในการแก้ไขมากกว่าการโต้ตอบ
การเชื่อมต่อกับการสร้างวิดีโอ
สำหรับพื้นฐานเกี่ยวกับสถาปัตยกรรมการกระจายที่ใช้ใน AI เชิงพื้นที่ ดูภาพรวมทางเทคนิคของเราเกี่ยวกับทรานสฟอร์เมอร์การกระจาย
การสร้างโลก 3D สัมพันธ์กับวิดีโออย่างไร? พวกมันแบ่งปันรากฐานทางคณิตศาสตร์ในโมเดลการกระจาย แต่แก้ปัญหาที่แตกต่างกัน
การสร้างวิดีโอสร้างลำดับเวลา เฟรมแล้วเฟรมเล่า AI เชิงพื้นที่สร้างการนำเสนอเรขาคณิต พื้นผิวและปริมาตร วิดีโอตอบคำถาม "เกิดอะไรขึ้นต่อไป?" AI เชิงพื้นที่ตอบคำถาม "มีอะไรอยู่ที่นี่?"
จุดบรรจบกัน: วิดีโอที่นำทางได้ สร้างโลก 3D จากนั้นเรนเดอร์วิดีโอขณะที่คุณเคลื่อนผ่านมัน แนวทางนี้เสนอการควบคุมกล้องที่เป็นไปไม่ได้ด้วยการสร้างวิดีโอแบบบริสุทธิ์
ข้อจำกัดที่ควรพิจารณา
Marble ไม่ใช่โซลูชันที่สมบูรณ์:
- ○ไม่มีตัวละครเคลื่อนไหวหรือองค์ประกอบแบบไดนามิก
- ○ข้อจำกัดการสร้างอาจจำกัดเวิร์กโฟลว์การผลิต
- ○การลดลงของขอบต้องการการขยาย
- ○เฉพาะสภาพแวดล้อมคงที่
สำหรับเนื้อหาเคลื่อนไหว คุณยังคงต้องการโมเดลการสร้างวิดีโอ Marble เก่งในสภาพแวดล้อมและพื้นที่ ไม่ใช่นักแสดงหรือการกระทำ
ภาพที่ใหญ่กว่า
Fei-Fei Li เห็นปัญญาเชิงพื้นที่เป็นสิ่งจำเป็นสำหรับความก้าวหน้าของ AI:
"ฉันคิดว่าพวกเราทุกคนมีความรับผิดชอบในการนำ AI ไปสู่สถานะที่ดีขึ้นเมื่อมันมีพลังมากขึ้น พวกเราทุกคนควรต้องการให้มนุษยชาติมีชัยและเจริญรุ่งเรือง"
วิสัยทัศน์ของเธอขยายนอกเหนือความบันเทิง การจำลองทางการแพทย์ที่นักเรียนสำรวจกายวิภาค การแสดงภาพทางวิทยาศาสตร์ที่นักวิจัยนำทางโครงสร้างโมเลกุล สภาพแวดล้อมการฝึกหุ่นยนต์ที่สร้างตามความต้องการ
Marble คือขั้นตอนที่หนึ่ง การพิสูจน์แนวคิดเชิงพาณิชย์ การวิจัยดำเนินต่อไปสู่การสร้างโลกที่มีพลวัตมากขึ้น โต้ตอบได้ และถูกต้องทางกายภาพ
เริ่มต้น
World Labs เสนอระดับฟรีพร้อมการสร้าง 4 ครั้งต่อเดือน เพียงพอที่จะประเมินเทคโนโลยีและเข้าใจข้อจำกัด
สำหรับผู้สร้างที่ทำงานใน 3D อยู่แล้ว ความสามารถในการส่งออกเมชรวมเข้ากับไปป์ไลน์ที่มีอยู่ สำหรับผู้ผลิตวิดีโอ การส่งออกวิดีโอให้ความสามารถในการแสดงภาพล่วงหน้าที่ไม่มีที่อื่น
การอ่านที่เกี่ยวข้อง: คู่มือของเราเกี่ยวกับความสอดคล้องของตัวละครวิดีโอ AI ครอบคลุมเทคนิคการรักษาความสอดคล้องในเนื้อหาที่สร้างขึ้น ความท้าทายที่ Marble จัดการผ่านการนำเสนอ 3D ที่คงอยู่
การเปลี่ยนจากการสร้าง 2D ไปสู่การสร้างโลก 3D แสดงถึงการเปลี่ยนแปลงพื้นฐานในสิ่งที่ AI สามารถผลิตได้ Marble ทำให้การเปลี่ยนแปลงนั้นเข้าถึงได้
บทความนี้มีประโยชน์หรือไม่?

Alexis
วิศวกร AIวิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents
World models กำลังสอนให้ AI เข้าใจความเป็นจริงทางกายภาพ ช่วยให้หุ่นยนต์สามารถวางแผนการกระทำและจำลองผลลัพธ์ก่อนที่จะขยับ actuator แม้เพียงตัวเดียว