World Labs Marble: Tầm Nhìn Trí Tuệ Không Gian của Fei-Fei Li
Tiên phong AI Fei-Fei Li ra mắt Marble, một nền tảng thương mại tạo ra các thế giới 3D có thể khám phá từ văn bản và hình ảnh, đánh dấu biên giới mới trong AI không gian.

Từ ImageNet Đến Mô Hình Thế Giới
Để hiểu bối cảnh về cách các mô hình thế giới phù hợp với sự phát triển của video AI, hãy xem tổng quan về mô hình thế giới là biên giới tiếp theo.
Fei-Fei Li đã cách mạng hóa thị giác máy tính với ImageNet, bộ dữ liệu giúp deep learning hiện đại trở nên khả thi. Giờ đây, sau một năm xây dựng World Labs với 230 triệu đô la vốn, bà đã ra mắt Marble, sản phẩm thương mại đầu tiên của công ty.
Luận điểm rất đơn giản: AI đã chinh phục văn bản, sau đó là hình ảnh, rồi video. Biên giới tiếp theo là trí tuệ không gian, khả năng cảm nhận, tạo ra và tương tác với thế giới 3D.
Marble Làm Gì
Marble tạo ra các môi trường 3D bền vững, có thể tải xuống từ nhiều loại đầu vào:
- ✓Lời nhắc văn bản
- ✓Hình ảnh đơn
- ✓Video
- ✓Ảnh toàn cảnh
- ✓Bố cục 3D
Không giống như các mô hình thế giới thời gian thực từ đối thủ cạnh tranh như Oasis của Decart hay Genie của Google, Marble tạo ra các thế giới ổn định với biến dạng tối thiểu. Bạn tạo một lần, sau đó khám phá tự do mà không lo AI "quên" những gì nó đã tạo.
Trình Biên Tập Chisel
Chỉnh Sửa 3D Tích Hợp AI
Chisel tách cấu trúc không gian khỏi phong cách thị giác. Phác thảo bố cục trước, sau đó áp dụng hướng dẫn kiểu dáng dựa trên văn bản.
Cách tiếp cận kết hợp này làm cho Marble khác biệt với các mô hình văn bản sang cảnh. Thay vì hy vọng AI hiểu ý định không gian của bạn, bạn định nghĩa hình học một cách rõ ràng. AI xử lý thẩm mỹ, vật liệu và ánh sáng.
Hãy nghĩ về nó giống như phác thảo sơ đồ mặt bằng trước khi yêu cầu nhà thiết kế nội thất trang trí. Quyền kiểm soát các mối quan hệ không gian vẫn thuộc về bạn.
Định Dạng Xuất và Khả Năng Tương Thích
Các thế giới được tạo xuất ra ba định dạng:
| Định Dạng | Trường Hợp Sử Dụng |
|---|---|
| Gaussian Splats | Kết xuất thời gian thực, góc nhìn mới |
| Lưới | Công cụ game, tích hợp CAD |
| Video | Sáng tạo nội dung, tiền khả thi hóa |
Tất cả các thế giới Marble đều tương thích VR với tai nghe Vision Pro và Quest 3 ngay từ đầu.
Cấu Trúc Giá
World Labs cung cấp bốn bậc:
| Bậc | Giá | Số Lần Tạo | Tính Năng Chính |
|---|---|---|---|
| Free | $0 | 4/tháng | Đầu vào văn bản, hình ảnh hoặc ảnh toàn cảnh |
| Standard | $20/tháng | 12/tháng | Đầu vào nhiều hình ảnh/video, chỉnh sửa nâng cao |
| Pro | $35/tháng | 25/tháng | Mở rộng cảnh, quyền thương mại |
| Max | $95/tháng | 75/tháng | Tất cả tính năng, số lần tạo tối đa |
Bậc miễn phí cho phép bạn đánh giá công nghệ. Đối với công việc sản xuất yêu cầu quyền thương mại, bậc Pro ở mức 35 đô la/tháng đại diện cho mức giá khởi điểm hợp lý cho một khả năng mới lạ như vậy.
Tại Sao Trí Tuệ Không Gian Quan Trọng
"Trí tuệ không gian là thách thức quyết định của thập kỷ tới." - Fei-Fei Li
Li cho rằng AI hiện tại có một hạn chế cơ bản: nó suy luận kém về không gian 3D. Các mô hình ngôn ngữ ảo tưởng về vật lý. Các mô hình video tạo ra hình học không thể. Các bộ tạo hình ảnh gặp khó khăn với các mối quan hệ không gian nhất quán.
Đối với robot học, điều này cực kỳ quan trọng. Một robot điều hướng trong nhà bếp cần hiểu biết không gian, không phải dự đoán khung hình. Đối với VFX, đạo diễn cần môi trường có thể khám phá, không phải đường camera cố định.
Các Trường Hợp Sử Dụng Đang Hình Thành
Game Tạo môi trường xung quanh và không gian nền. Các nhà phát triển độc lập có thể tạo ra các khu vực khám phá cần hàng tháng sản xuất nghệ thuật truyền thống.
Hiệu Ứng Hình Ảnh Tiền khả thi hóa trở nên tương tác. Phác thảo cảnh theo không gian, sau đó khám phá các góc camera trước khi cam kết với các cảnh quay.
Kiến Trúc Chuyển đổi sơ đồ mặt bằng thành các cuộc tham quan có thể khám phá. Khách hàng trải nghiệm không gian trước khi xây dựng bắt đầu.
Giáo Dục Li hình dung sinh viên đi bộ bên trong tế bào, bác sĩ phẫu thuật thực hành bên trong mô phỏng giải phẫu.
Mở Rộng Thế Giới và Chế Độ Composer
Hai tính năng giải quyết các hạn chế về quy mô:
Mở Rộng Thế Giới cho phép bạn mở rộng một thế giới được tạo một lần, thêm chi tiết vào các vùng cạnh nơi chất lượng thường giảm. Điều này đẩy ranh giới của không gian có thể khám phá vượt ra ngoài giới hạn tạo ban đầu.
Chế Độ Composer kết hợp nhiều thế giới thành môi trường lớn hơn. Tạo từng phòng riêng lẻ, sau đó ghép chúng thành một tòa nhà hoàn chỉnh.
Các công cụ này thừa nhận những hạn chế hiện tại trong khi cung cấp các giải pháp thực tế.
Bối Cảnh Cạnh Tranh
Marble bước vào một lĩnh vực đông đúc:
| Sản Phẩm | Phương Pháp | Yếu Tố Khác Biệt |
|---|---|---|
| Decart Oasis | Tạo game thời gian thực | Tương tác, nhưng thế giới thay đổi trong quá trình khám phá |
| Google Genie | Tạo thế giới game | Dự đoán khung hình mà không có 3D thực sự |
| Odyssey | Mô hình thế giới bền vững | Tập trung vào doanh nghiệp |
| World Labs Marble | Tạo 3D tĩnh | Có thể tải xuống, chỉnh sửa, sẵn sàng VR |
Sự đánh đổi rõ ràng. Các mô hình thời gian thực như Oasis cung cấp tính tức thời nhưng không ổn định. Marble ưu tiên tính bền vững và khả năng chỉnh sửa hơn tính tương tác.
Kết Nối Với Tạo Video
Để biết nền tảng về kiến trúc khuếch tán được sử dụng trong AI không gian, hãy xem tổng quan kỹ thuật về transformer khuếch tán.
Tạo thế giới 3D liên quan đến video như thế nào? Chúng chia sẻ nền tảng toán học trong các mô hình khuếch tán, nhưng giải quyết các vấn đề khác nhau.
Tạo video tạo ra chuỗi thời gian, khung hình theo khung hình. AI không gian tạo ra biểu diễn hình học, bề mặt và thể tích. Video trả lời "điều gì xảy ra tiếp theo?" AI không gian trả lời "có gì tồn tại ở đây?"
Điểm hội tụ: video có thể điều hướng. Tạo một thế giới 3D, sau đó kết xuất video khi bạn di chuyển qua nó. Cách tiếp cận này cung cấp điều khiển camera không thể với tạo video thuần túy.
Các Hạn Chế Cần Xem Xét
Marble không phải là giải pháp hoàn chỉnh:
- ○Không có nhân vật hoạt hình hoặc yếu tố động
- ○Giới hạn tạo có thể hạn chế quy trình sản xuất
- ○Suy giảm cạnh yêu cầu các lần mở rộng
- ○Chỉ môi trường tĩnh
Đối với nội dung hoạt hình, bạn vẫn cần các mô hình tạo video. Marble xuất sắc về môi trường và không gian, không phải diễn viên hoặc hành động.
Bức Tranh Lớn Hơn
Fei-Fei Li coi trí tuệ không gian là thiết yếu cho sự tiến bộ của AI:
"Tôi nghĩ tất cả chúng ta đều có trách nhiệm dẫn dắt AI đến trạng thái tốt hơn khi nó trở nên mạnh mẽ hơn. Tất cả chúng ta nên muốn nhân loại thắng lợi và phát triển."
Tầm nhìn của bà vượt ra ngoài giải trí. Mô phỏng y tế nơi sinh viên khám phá giải phẫu. Khả thi hóa khoa học nơi các nhà nghiên cứu điều hướng cấu trúc phân tử. Môi trường đào tạo robot được tạo theo yêu cầu.
Marble là bước một, bằng chứng khái niệm thương mại. Nghiên cứu tiếp tục hướng tới việc tạo thế giới năng động hơn, tương tác hơn và chính xác hơn về mặt vật lý.
Bắt Đầu
World Labs cung cấp bậc miễn phí với 4 lần tạo mỗi tháng. Đủ để đánh giá công nghệ và hiểu các hạn chế của nó.
Đối với những người sáng tạo đã làm việc với 3D, khả năng xuất lưới tích hợp với quy trình hiện có. Đối với các nhà sản xuất video, xuất video cung cấp khả năng tiền khả thi hóa không có ở nơi khác.
Đọc liên quan: Hướng dẫn nhất quán nhân vật video AI của chúng tôi bao gồm các kỹ thuật duy trì tính mạch lạc trên nội dung được tạo, một thách thức mà Marble giải quyết thông qua biểu diễn 3D bền vững.
Sự chuyển đổi từ tạo 2D sang tạo thế giới 3D đại diện cho sự thay đổi cơ bản trong những gì AI có thể tạo ra. Marble làm cho sự thay đổi đó trở nên dễ tiếp cận.
Bài viết này có hữu ích không?

Alexis
Kỹ sư AIKỹ sư AI đến từ Lausanne, kết hợp chiều sâu nghiên cứu với đổi mới thực tiễn. Chia thời gian giữa kiến trúc mô hình và những đỉnh núi Alps.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

Runway GWM-1: Mô Hình Thế Giới Tổng Quát Mô Phỏng Hiện Thực Theo Thời Gian Thực
GWM-1 của Runway đánh dấu sự chuyển đổi mô hình từ tạo video sang mô phỏng thế giới. Khám phá cách mô hình tự hồi quy này tạo ra môi trường có thể khám phá, hình đại diện chân thực và mô phỏng huấn luyện robot.

YouTube Đưa Veo 3 Fast Vào Shorts: Tạo Video AI Miễn Phí Cho 2,5 Tỷ Người Dùng
Google tích hợp mô hình Veo 3 Fast trực tiếp vào YouTube Shorts, cung cấp khả năng tạo video từ văn bản có âm thanh miễn phí cho các nhà sáng tạo trên toàn thế giới. Đây là ý nghĩa của nó đối với nền tảng và khả năng tiếp cận video AI.

Video Language Models: Biên giới Tiếp theo Sau LLM và AI Agents
World models đang dạy AI hiểu thực tế vật lý, cho phép robot lên kế hoạch hành động và mô phỏng kết quả trước khi di chuyển một bộ truyền động nào.