Meta Pixel
AlexisAlexis
3 min read
481 คำ

World Labs Marble: วิสัยทัศน์ของ Fei-Fei Li สำหรับปัญญาเชิงพื้นที่

ผู้บุกเบิก AI Fei-Fei Li เปิดตัว Marble แพลตฟอร์มเชิงพาณิชย์ที่สร้างโลก 3D ที่สำรวจได้จากข้อความและภาพ เป็นจุดเริ่มต้นใหม่ใน AI เชิงพื้นที่

World Labs Marble: วิสัยทัศน์ของ Fei-Fei Li สำหรับปัญญาเชิงพื้นที่
นักวิจัยที่มอบความสามารถในการมองเห็นให้กับเครื่องจักร ตอนนี้กำลังสอนให้พวกมันจินตนาการโลกทั้งหมด ด้วย World Labs Marble, Fei-Fei Li ก้าวไปสู่ขั้นต่อไปที่เหนือกว่าการสร้างวิดีโอ สู่สภาพแวดล้อม 3D ที่คงอยู่และสำรวจได้

จาก ImageNet สู่โมเดลโลก

💡

สำหรับบริบทเกี่ยวกับโมเดลโลกที่เข้ากับวิวัฒนาการของ AI วิดีโอ โปรดดูภาพรวมของเราเกี่ยวกับโมเดลโลกเป็นพรมแดนถัดไป

Fei-Fei Li ได้ปฏิวัติวิสัยทัศน์คอมพิวเตอร์ด้วย ImageNet ชุดข้อมูลที่ทำให้การเรียนรู้เชิงลึกสมัยใหม่เป็นไปได้ ตอนนี้ หลังจากสร้าง World Labs เป็นเวลาหนึ่งปีด้วยทุน $230 ล้าน เธอได้เปิดตัว Marble ซึ่งเป็นผลิตภัณฑ์เชิงพาณิชย์แรกของบริษัท

วิทยานิพนธ์นั้นง่าย: AI ได้พิชิตข้อความ จากนั้นภาพ จากนั้นวิดีโอ พรมแดนถัดไปคือปัญญาเชิงพื้นที่ ความสามารถในการรับรู้ สร้าง และโต้ตอบกับโลก 3D

$230M
ทุนที่ได้รับ
4
ระดับราคา
3D
ผลลัพธ์ดั้งเดิม

Marble ทำอะไร

Marble สร้างสภาพแวดล้อม 3D ที่คงอยู่และดาวน์โหลดได้จากประเภทอินพุตหลายประเภท:

  • คำสั่งข้อความ
  • ภาพเดียว
  • วิดีโอ
  • ภาพพาโนรามา
  • เค้าโครง 3D

ต่างจากโมเดลโลกแบบเรียลไทม์จากคู่แข่งเช่น Decart's Oasis หรือ Google's Genie, Marble สร้างโลกที่มั่นคงด้วยการเปลี่ยนรูปที่น้อยที่สุด คุณสร้างครั้งเดียว จากนั้นสำรวจได้อย่างอิสระโดยไม่ต้องให้ AI "ลืม" สิ่งที่มันสร้างขึ้น

ตัวแก้ไข Chisel

🔨

การแก้ไข 3D แบบ AI-Native

Chisel แยกโครงสร้างเชิงพื้นที่ออกจากสไตล์ภาพ บล็อกเค้าโครงของคุณก่อน จากนั้นใช้คำแนะนำสไตล์แบบข้อความ

แนวทางแบบผสมผสานนี้ทำให้ Marble แตกต่างจากโมเดลข้อความสู่ฉาก แทนที่จะหวังว่า AI จะเข้าใจความตั้งใจเชิงพื้นที่ของคุณ คุณกำหนดรูปทรงเรขาคณิตอย่างชัดเจน AI จัดการความสวยงาม วัสดุ และแสง

คิดว่ามันเหมือนการร่างผังพื้นก่อนที่จะขอให้นักออกแบบตกแต่งภายในตกแต่ง การควบคุมความสัมพันธ์เชิงพื้นที่ยังคงเป็นของคุณ

รูปแบบการส่งออกและความเข้ากันได้

โลกที่สร้างขึ้นส่งออกในสามรูปแบบ:

รูปแบบกรณีการใช้งาน
Gaussian Splatsการเรนเดอร์แบบเรียลไทม์ มุมมองใหม่
Meshesเอ็นจิ้นเกม การบูรณาการ CAD
วิดีโอการสร้างเนื้อหา การแสดงภาพล่วงหน้า
💡

โลก Marble ทั้งหมดเข้ากันได้กับ VR กับ headset Vision Pro และ Quest 3 ทันทีจากกล่อง

โครงสร้างราคา

World Labs เสนอสี่ระดับ:

ระดับราคาการสร้างคุณสมบัติหลัก
ฟรี$04/เดือนอินพุตข้อความ ภาพ หรือพาโนรามา
มาตรฐาน$20/เดือน12/เดือนอินพุตหลายภาพ/วิดีโอ การแก้ไขขั้นสูง
Pro$35/เดือน25/เดือนการขยายฉาก สิทธิ์เชิงพาณิชย์
Max$95/เดือน75/เดือนทุกคุณสมบัติ การสร้างสูงสุด

ระดับฟรีช่วยให้คุณประเมินเทคโนโลยี สำหรับงานผลิตที่ต้องการสิทธิ์เชิงพาณิชย์ ระดับ Pro ที่ $35/เดือน แสดงถึงราคาเข้าที่สมเหตุสมผลสำหรับความสามารถที่แปลกใหม่เช่นนี้

ทำไมปัญญาเชิงพื้นที่จึงสำคัญ

"ปัญญาเชิงพื้นที่คือความท้าทายที่กำหนดทศวรรษหน้า" - Fei-Fei Li

Li โต้แย้งว่า AI ปัจจุบันมีข้อจำกัดพื้นฐาน: มันให้เหตุผลได้ไม่ดีเกี่ยวกับพื้นที่ 3D โมเดลภาษาประสาทหลอนเกี่ยวกับฟิสิกส์ โมเดลวิดีโอสร้างรูปทรงเรขาคณิตที่เป็นไปไม่ได้ เครื่องมือสร้างภาพดิ้นรนกับความสัมพันธ์เชิงพื้นที่ที่สอดคล้องกัน

แนวทางปัจจุบัน
โมเดลวิดีโอสร้างลำดับเฟรมโดยไม่มีความเข้าใจ 3D ที่แท้จริง การเคลื่อนไหวกล้องเผยความไม่สอดคล้อง วัตถุเปลี่ยนตำแหน่งหรือหายไป
ปัญญาเชิงพื้นที่
การนำเสนอ 3D แบบดั้งเดิมช่วยให้โลกที่สอดคล้องกันทางกายภาพ เคลื่อนกล้องได้อย่างอิสระ สภาพแวดล้อมคงอยู่เพราะมันมีอยู่เป็นรูปทรงเรขาคณิต ไม่ใช่พิกเซล

สำหรับหุ่นยนต์ นี่มีความสำคัญอย่างมาก หุ่นยนต์ที่นำทางในครัวต้องการความเข้าใจเชิงพื้นที่ ไม่ใช่การคาดการณ์เฟรม สำหรับ VFX ผู้กำกับต้องการสภาพแวดล้อมที่สำรวจได้ ไม่ใช่เส้นทางกล้องคงที่

กรณีการใช้งานที่กำลังเกิดขึ้น

เกม สร้างสภาพแวดล้อมบรรยากาศและพื้นที่พื้นหลัง นักพัฒนาอินดี้สามารถสร้างพื้นที่สำรวจที่จะต้องใช้เวลาการผลิตศิลปะแบบดั้งเดิมหลายเดือน

เอฟเฟกต์ภาพ การแสดงภาพล่วงหน้ากลายเป็นแบบโต้ตอบ บล็อกฉากเชิงพื้นที่ จากนั้นสำรวจมุมกล้องก่อนที่จะตัดสินใจถ่ายภาพ

สถาปัตยกรรม แปลงผังพื้นเป็นการเดินทัวร์ที่สำรวจได้ ลูกค้าสัมผัสพื้นที่ก่อนที่การก่อสร้างจะเริ่มต้น

การศึกษา Li จินตนาการว่านักเรียนเดินภายในเซลล์ ศัลยแพทย์ฝึกฝนภายในการจำลองทางกายวิภาค

การขยายโลกและโหมด Composer

คุณสมบัติสองอย่างจัดการกับข้อจำกัดด้านขนาด:

การขยายโลก ให้คุณขยายโลกที่สร้างขึ้นหนึ่งครั้ง เพิ่มรายละเอียดในภูมิภาคขอบที่คุณภาพมักจะลดลง สิ่งนี้ผลักดันขอบเขตของพื้นที่ที่สำรวจได้นอกเหนือจากข้อจำกัดการสร้างเริ่มต้น

โหมด Composer รวมหลายโลกเข้าเป็นสภาพแวดล้อมที่ใหญ่ขึ้น สร้างห้องแต่ละห้อง จากนั้นเย็บเข้าเป็นอาคารที่สมบูรณ์

เครื่องมือเหล่านี้รับทราบข้อจำกัดปัจจุบันในขณะที่ให้วิธีแก้ปัญหาที่ปฏิบัติได้

ภูมิทัศน์การแข่งขัน

Marble เข้าสู่สนามที่แออัด:

ผลิตภัณฑ์แนวทางความแตกต่าง
Decart Oasisการสร้างเกมแบบเรียลไทม์โต้ตอบได้ แต่โลกเปลี่ยนแปลงระหว่างการสำรวจ
Google Genieการสร้างโลกเกมการคาดการณ์เฟรมโดยไม่มี 3D ที่แท้จริง
Odysseyโมเดลโลกที่คงอยู่โฟกัสองค์กร
World Labs Marbleการสร้าง 3D แบบคงที่ดาวน์โหลดได้ แก้ไขได้ พร้อม VR

การแลกเปลี่ยนชัดเจน โมเดลแบบเรียลไทม์เช่น Oasis เสนอความทันทีแต่ไม่มั่นคง Marble ให้ความสำคัญกับความคงอยู่และความสามารถในการแก้ไขมากกว่าการโต้ตอบ

การเชื่อมต่อกับการสร้างวิดีโอ

💡

สำหรับพื้นฐานเกี่ยวกับสถาปัตยกรรมการกระจายที่ใช้ใน AI เชิงพื้นที่ ดูภาพรวมทางเทคนิคของเราเกี่ยวกับทรานสฟอร์เมอร์การกระจาย

การสร้างโลก 3D สัมพันธ์กับวิดีโออย่างไร? พวกมันแบ่งปันรากฐานทางคณิตศาสตร์ในโมเดลการกระจาย แต่แก้ปัญหาที่แตกต่างกัน

การสร้างวิดีโอสร้างลำดับเวลา เฟรมแล้วเฟรมเล่า AI เชิงพื้นที่สร้างการนำเสนอเรขาคณิต พื้นผิวและปริมาตร วิดีโอตอบคำถาม "เกิดอะไรขึ้นต่อไป?" AI เชิงพื้นที่ตอบคำถาม "มีอะไรอยู่ที่นี่?"

จุดบรรจบกัน: วิดีโอที่นำทางได้ สร้างโลก 3D จากนั้นเรนเดอร์วิดีโอขณะที่คุณเคลื่อนผ่านมัน แนวทางนี้เสนอการควบคุมกล้องที่เป็นไปไม่ได้ด้วยการสร้างวิดีโอแบบบริสุทธิ์

ข้อจำกัดที่ควรพิจารณา

Marble ไม่ใช่โซลูชันที่สมบูรณ์:

  • ไม่มีตัวละครเคลื่อนไหวหรือองค์ประกอบแบบไดนามิก
  • ข้อจำกัดการสร้างอาจจำกัดเวิร์กโฟลว์การผลิต
  • การลดลงของขอบต้องการการขยาย
  • เฉพาะสภาพแวดล้อมคงที่

สำหรับเนื้อหาเคลื่อนไหว คุณยังคงต้องการโมเดลการสร้างวิดีโอ Marble เก่งในสภาพแวดล้อมและพื้นที่ ไม่ใช่นักแสดงหรือการกระทำ

ภาพที่ใหญ่กว่า

Fei-Fei Li เห็นปัญญาเชิงพื้นที่เป็นสิ่งจำเป็นสำหรับความก้าวหน้าของ AI:

"ฉันคิดว่าพวกเราทุกคนมีความรับผิดชอบในการนำ AI ไปสู่สถานะที่ดีขึ้นเมื่อมันมีพลังมากขึ้น พวกเราทุกคนควรต้องการให้มนุษยชาติมีชัยและเจริญรุ่งเรือง"

วิสัยทัศน์ของเธอขยายนอกเหนือความบันเทิง การจำลองทางการแพทย์ที่นักเรียนสำรวจกายวิภาค การแสดงภาพทางวิทยาศาสตร์ที่นักวิจัยนำทางโครงสร้างโมเลกุล สภาพแวดล้อมการฝึกหุ่นยนต์ที่สร้างตามความต้องการ

Marble คือขั้นตอนที่หนึ่ง การพิสูจน์แนวคิดเชิงพาณิชย์ การวิจัยดำเนินต่อไปสู่การสร้างโลกที่มีพลวัตมากขึ้น โต้ตอบได้ และถูกต้องทางกายภาพ

เริ่มต้น

World Labs เสนอระดับฟรีพร้อมการสร้าง 4 ครั้งต่อเดือน เพียงพอที่จะประเมินเทคโนโลยีและเข้าใจข้อจำกัด

สำหรับผู้สร้างที่ทำงานใน 3D อยู่แล้ว ความสามารถในการส่งออกเมชรวมเข้ากับไปป์ไลน์ที่มีอยู่ สำหรับผู้ผลิตวิดีโอ การส่งออกวิดีโอให้ความสามารถในการแสดงภาพล่วงหน้าที่ไม่มีที่อื่น

💡

การอ่านที่เกี่ยวข้อง: คู่มือของเราเกี่ยวกับความสอดคล้องของตัวละครวิดีโอ AI ครอบคลุมเทคนิคการรักษาความสอดคล้องในเนื้อหาที่สร้างขึ้น ความท้าทายที่ Marble จัดการผ่านการนำเสนอ 3D ที่คงอยู่

การเปลี่ยนจากการสร้าง 2D ไปสู่การสร้างโลก 3D แสดงถึงการเปลี่ยนแปลงพื้นฐานในสิ่งที่ AI สามารถผลิตได้ Marble ทำให้การเปลี่ยนแปลงนั้นเข้าถึงได้

บทความนี้มีประโยชน์หรือไม่?

Alexis

Alexis

วิศวกร AI

วิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
RunwayWorld Models

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์

GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

Read
YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
YouTubeVeo 3

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน

Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Read
Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents
World ModelsVideo Language Models

Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents

World models กำลังสอนให้ AI เข้าใจความเป็นจริงทางกายภาพ ช่วยให้หุ่นยนต์สามารถวางแผนการกระทำและจำลองผลลัพธ์ก่อนที่จะขยับ actuator แม้เพียงตัวเดียว

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

World Labs Marble: วิสัยทัศน์ของ Fei-Fei Li สำหรับปัญญาเชิงพื้นที่