Meta Pixel
AlexisAlexis
10 min read
1812 từ

World Labs Marble: Tầm Nhìn Trí Tuệ Không Gian của Fei-Fei Li

Tiên phong AI Fei-Fei Li ra mắt Marble, một nền tảng thương mại tạo ra các thế giới 3D có thể khám phá từ văn bản và hình ảnh, đánh dấu biên giới mới trong AI không gian.

World Labs Marble: Tầm Nhìn Trí Tuệ Không Gian của Fei-Fei Li
Nhà nghiên cứu đã trao cho máy móc khả năng nhìn giờ đang dạy chúng tưởng tượng ra cả thế giới. Với World Labs Marble, Fei-Fei Li thực hiện bước tiếp theo vượt xa tạo video để bước vào môi trường 3D bền vững, có thể khám phá.

Từ ImageNet Đến Mô Hình Thế Giới

💡

Để hiểu bối cảnh về cách các mô hình thế giới phù hợp với sự phát triển của video AI, hãy xem tổng quan về mô hình thế giới là biên giới tiếp theo.

Fei-Fei Li đã cách mạng hóa thị giác máy tính với ImageNet, bộ dữ liệu giúp deep learning hiện đại trở nên khả thi. Giờ đây, sau một năm xây dựng World Labs với 230 triệu đô la vốn, bà đã ra mắt Marble, sản phẩm thương mại đầu tiên của công ty.

Luận điểm rất đơn giản: AI đã chinh phục văn bản, sau đó là hình ảnh, rồi video. Biên giới tiếp theo là trí tuệ không gian, khả năng cảm nhận, tạo ra và tương tác với thế giới 3D.

$230M
Vốn Huy Động
4
Bậc Giá
3D
Đầu Ra Gốc

Marble Làm Gì

Marble tạo ra các môi trường 3D bền vững, có thể tải xuống từ nhiều loại đầu vào:

  • Lời nhắc văn bản
  • Hình ảnh đơn
  • Video
  • Ảnh toàn cảnh
  • Bố cục 3D

Không giống như các mô hình thế giới thời gian thực từ đối thủ cạnh tranh như Oasis của Decart hay Genie của Google, Marble tạo ra các thế giới ổn định với biến dạng tối thiểu. Bạn tạo một lần, sau đó khám phá tự do mà không lo AI "quên" những gì nó đã tạo.

Trình Biên Tập Chisel

🔨

Chỉnh Sửa 3D Tích Hợp AI

Chisel tách cấu trúc không gian khỏi phong cách thị giác. Phác thảo bố cục trước, sau đó áp dụng hướng dẫn kiểu dáng dựa trên văn bản.

Cách tiếp cận kết hợp này làm cho Marble khác biệt với các mô hình văn bản sang cảnh. Thay vì hy vọng AI hiểu ý định không gian của bạn, bạn định nghĩa hình học một cách rõ ràng. AI xử lý thẩm mỹ, vật liệu và ánh sáng.

Hãy nghĩ về nó giống như phác thảo sơ đồ mặt bằng trước khi yêu cầu nhà thiết kế nội thất trang trí. Quyền kiểm soát các mối quan hệ không gian vẫn thuộc về bạn.

Định Dạng Xuất và Khả Năng Tương Thích

Các thế giới được tạo xuất ra ba định dạng:

Định DạngTrường Hợp Sử Dụng
Gaussian SplatsKết xuất thời gian thực, góc nhìn mới
LướiCông cụ game, tích hợp CAD
VideoSáng tạo nội dung, tiền khả thi hóa
💡

Tất cả các thế giới Marble đều tương thích VR với tai nghe Vision Pro và Quest 3 ngay từ đầu.

Cấu Trúc Giá

World Labs cung cấp bốn bậc:

BậcGiáSố Lần TạoTính Năng Chính
Free$04/thángĐầu vào văn bản, hình ảnh hoặc ảnh toàn cảnh
Standard$20/tháng12/thángĐầu vào nhiều hình ảnh/video, chỉnh sửa nâng cao
Pro$35/tháng25/thángMở rộng cảnh, quyền thương mại
Max$95/tháng75/thángTất cả tính năng, số lần tạo tối đa

Bậc miễn phí cho phép bạn đánh giá công nghệ. Đối với công việc sản xuất yêu cầu quyền thương mại, bậc Pro ở mức 35 đô la/tháng đại diện cho mức giá khởi điểm hợp lý cho một khả năng mới lạ như vậy.

Tại Sao Trí Tuệ Không Gian Quan Trọng

"Trí tuệ không gian là thách thức quyết định của thập kỷ tới." - Fei-Fei Li

Li cho rằng AI hiện tại có một hạn chế cơ bản: nó suy luận kém về không gian 3D. Các mô hình ngôn ngữ ảo tưởng về vật lý. Các mô hình video tạo ra hình học không thể. Các bộ tạo hình ảnh gặp khó khăn với các mối quan hệ không gian nhất quán.

Phương Pháp Hiện Tại
Các mô hình video tạo ra chuỗi khung hình mà không có sự hiểu biết 3D thực sự. Chuyển động camera lộ ra sự không nhất quán. Các đối tượng thay đổi vị trí hoặc biến mất.
Trí Tuệ Không Gian
Biểu diễn 3D gốc cho phép các thế giới nhất quán về mặt vật lý. Di chuyển camera tự do. Môi trường tồn tại bền vững vì nó tồn tại dưới dạng hình học, không phải pixel.

Đối với robot học, điều này cực kỳ quan trọng. Một robot điều hướng trong nhà bếp cần hiểu biết không gian, không phải dự đoán khung hình. Đối với VFX, đạo diễn cần môi trường có thể khám phá, không phải đường camera cố định.

Các Trường Hợp Sử Dụng Đang Hình Thành

Game Tạo môi trường xung quanh và không gian nền. Các nhà phát triển độc lập có thể tạo ra các khu vực khám phá cần hàng tháng sản xuất nghệ thuật truyền thống.

Hiệu Ứng Hình Ảnh Tiền khả thi hóa trở nên tương tác. Phác thảo cảnh theo không gian, sau đó khám phá các góc camera trước khi cam kết với các cảnh quay.

Kiến Trúc Chuyển đổi sơ đồ mặt bằng thành các cuộc tham quan có thể khám phá. Khách hàng trải nghiệm không gian trước khi xây dựng bắt đầu.

Giáo Dục Li hình dung sinh viên đi bộ bên trong tế bào, bác sĩ phẫu thuật thực hành bên trong mô phỏng giải phẫu.

Mở Rộng Thế Giới và Chế Độ Composer

Hai tính năng giải quyết các hạn chế về quy mô:

Mở Rộng Thế Giới cho phép bạn mở rộng một thế giới được tạo một lần, thêm chi tiết vào các vùng cạnh nơi chất lượng thường giảm. Điều này đẩy ranh giới của không gian có thể khám phá vượt ra ngoài giới hạn tạo ban đầu.

Chế Độ Composer kết hợp nhiều thế giới thành môi trường lớn hơn. Tạo từng phòng riêng lẻ, sau đó ghép chúng thành một tòa nhà hoàn chỉnh.

Các công cụ này thừa nhận những hạn chế hiện tại trong khi cung cấp các giải pháp thực tế.

Bối Cảnh Cạnh Tranh

Marble bước vào một lĩnh vực đông đúc:

Sản PhẩmPhương PhápYếu Tố Khác Biệt
Decart OasisTạo game thời gian thựcTương tác, nhưng thế giới thay đổi trong quá trình khám phá
Google GenieTạo thế giới gameDự đoán khung hình mà không có 3D thực sự
OdysseyMô hình thế giới bền vữngTập trung vào doanh nghiệp
World Labs MarbleTạo 3D tĩnhCó thể tải xuống, chỉnh sửa, sẵn sàng VR

Sự đánh đổi rõ ràng. Các mô hình thời gian thực như Oasis cung cấp tính tức thời nhưng không ổn định. Marble ưu tiên tính bền vững và khả năng chỉnh sửa hơn tính tương tác.

Kết Nối Với Tạo Video

💡

Để biết nền tảng về kiến trúc khuếch tán được sử dụng trong AI không gian, hãy xem tổng quan kỹ thuật về transformer khuếch tán.

Tạo thế giới 3D liên quan đến video như thế nào? Chúng chia sẻ nền tảng toán học trong các mô hình khuếch tán, nhưng giải quyết các vấn đề khác nhau.

Tạo video tạo ra chuỗi thời gian, khung hình theo khung hình. AI không gian tạo ra biểu diễn hình học, bề mặt và thể tích. Video trả lời "điều gì xảy ra tiếp theo?" AI không gian trả lời "có gì tồn tại ở đây?"

Điểm hội tụ: video có thể điều hướng. Tạo một thế giới 3D, sau đó kết xuất video khi bạn di chuyển qua nó. Cách tiếp cận này cung cấp điều khiển camera không thể với tạo video thuần túy.

Các Hạn Chế Cần Xem Xét

Marble không phải là giải pháp hoàn chỉnh:

  • Không có nhân vật hoạt hình hoặc yếu tố động
  • Giới hạn tạo có thể hạn chế quy trình sản xuất
  • Suy giảm cạnh yêu cầu các lần mở rộng
  • Chỉ môi trường tĩnh

Đối với nội dung hoạt hình, bạn vẫn cần các mô hình tạo video. Marble xuất sắc về môi trường và không gian, không phải diễn viên hoặc hành động.

Bức Tranh Lớn Hơn

Fei-Fei Li coi trí tuệ không gian là thiết yếu cho sự tiến bộ của AI:

"Tôi nghĩ tất cả chúng ta đều có trách nhiệm dẫn dắt AI đến trạng thái tốt hơn khi nó trở nên mạnh mẽ hơn. Tất cả chúng ta nên muốn nhân loại thắng lợi và phát triển."

Tầm nhìn của bà vượt ra ngoài giải trí. Mô phỏng y tế nơi sinh viên khám phá giải phẫu. Khả thi hóa khoa học nơi các nhà nghiên cứu điều hướng cấu trúc phân tử. Môi trường đào tạo robot được tạo theo yêu cầu.

Marble là bước một, bằng chứng khái niệm thương mại. Nghiên cứu tiếp tục hướng tới việc tạo thế giới năng động hơn, tương tác hơn và chính xác hơn về mặt vật lý.

Bắt Đầu

World Labs cung cấp bậc miễn phí với 4 lần tạo mỗi tháng. Đủ để đánh giá công nghệ và hiểu các hạn chế của nó.

Đối với những người sáng tạo đã làm việc với 3D, khả năng xuất lưới tích hợp với quy trình hiện có. Đối với các nhà sản xuất video, xuất video cung cấp khả năng tiền khả thi hóa không có ở nơi khác.

💡

Đọc liên quan: Hướng dẫn nhất quán nhân vật video AI của chúng tôi bao gồm các kỹ thuật duy trì tính mạch lạc trên nội dung được tạo, một thách thức mà Marble giải quyết thông qua biểu diễn 3D bền vững.

Sự chuyển đổi từ tạo 2D sang tạo thế giới 3D đại diện cho sự thay đổi cơ bản trong những gì AI có thể tạo ra. Marble làm cho sự thay đổi đó trở nên dễ tiếp cận.

Bài viết này có hữu ích không?

Alexis

Alexis

Kỹ sư AI

Kỹ sư AI đến từ Lausanne, kết hợp chiều sâu nghiên cứu với đổi mới thực tiễn. Chia thời gian giữa kiến trúc mô hình và những đỉnh núi Alps.

Bài viết liên quan

Tiếp tục khám phá với những bài viết liên quan

Bạn có thích bài viết này không?

Khám phá thêm thông tin chi tiết và cập nhật những nội dung mới nhất của chúng tôi.

World Labs Marble: Tầm Nhìn Trí Tuệ Không Gian của Fei-Fei Li