World Labs Marble: Visi Fei-Fei Li untuk Kecerdasan Spasial
Perintis AI Fei-Fei Li meluncurkan Marble, platform komersial yang menghasilkan dunia 3D yang dapat dijelajahi dari teks dan gambar, menandai perbatasan baru dalam AI spasial.

Dari ImageNet ke Model Dunia
Untuk konteks tentang bagaimana model dunia sesuai dengan evolusi video AI, silakan lihat tinjauan kami tentang model dunia sebagai perbatasan berikutnya.
Fei-Fei Li merevolusi visi komputer dengan ImageNet, dataset yang memungkinkan pembelajaran mendalam modern. Kini, setelah setahun membangun World Labs dengan pendanaan $230 juta, beliau telah meluncurkan Marble, produk komersial pertama perusahaan.
Tesisnya sederhana: AI telah menaklukkan teks, kemudian gambar, kemudian video. Perbatasan berikutnya adalah kecerdasan spasial, kemampuan untuk merasakan, menghasilkan, dan berinteraksi dengan dunia 3D.
Apa yang Dilakukan Marble
Marble menghasilkan lingkungan 3D yang persisten dan dapat diunduh dari berbagai jenis input:
- ✓Prompt teks
- ✓Gambar tunggal
- ✓Video
- ✓Panorama
- ✓Tata letak 3D
Berbeda dengan model dunia real-time dari kompetitor seperti Decart's Oasis atau Google's Genie, Marble menciptakan dunia yang stabil dengan sedikit perubahan bentuk. Anda menghasilkan sekali, lalu menjelajah dengan bebas tanpa AI "melupakan" apa yang telah dibuat.
Editor Chisel
Pengeditan 3D Berbasis AI
Chisel memisahkan struktur spasial dari gaya visual. Blokir tata letak Anda terlebih dahulu, kemudian terapkan panduan gaya berbasis teks.
Pendekatan hibrida ini membedakan Marble dari model teks-ke-scene. Alih-alih berharap AI memahami niat spasial Anda, Anda mendefinisikan geometri secara eksplisit. AI menangani estetika, material, dan pencahayaan.
Bayangkan seperti membuat sketsa denah lantai sebelum meminta desainer interior untuk mendekorasi. Kontrol atas hubungan spasial tetap berada di tangan Anda.
Format Ekspor dan Kompatibilitas
Dunia yang dihasilkan diekspor dalam tiga format:
| Format | Kasus Penggunaan |
|---|---|
| Gaussian Splats | Rendering real-time, tampilan baru |
| Meshes | Mesin game, integrasi CAD |
| Video | Pembuatan konten, pra-visualisasi |
Semua dunia Marble kompatibel dengan VR menggunakan headset Vision Pro dan Quest 3 langsung dari kotaknya.
Struktur Harga
World Labs menawarkan empat tingkat:
| Tingkat | Harga | Generasi | Fitur Utama |
|---|---|---|---|
| Gratis | $0 | 4/bulan | Input teks, gambar, atau panorama |
| Standar | $20/bulan | 12/bulan | Input multi-gambar/video, pengeditan lanjutan |
| Pro | $35/bulan | 25/bulan | Ekspansi scene, hak komersial |
| Max | $95/bulan | 75/bulan | Semua fitur, generasi maksimum |
Tingkat gratis memungkinkan Anda mengevaluasi teknologi. Untuk pekerjaan produksi yang memerlukan hak komersial, tingkat Pro di $35/bulan mewakili harga masuk yang wajar untuk kemampuan yang sangat baru ini.
Mengapa Kecerdasan Spasial Penting
"Kecerdasan spasial adalah tantangan yang menentukan dekade berikutnya." - Fei-Fei Li
Li berpendapat bahwa AI saat ini memiliki keterbatasan mendasar: penalaran yang buruk tentang ruang 3D. Model bahasa berhalusinasi tentang fisika. Model video menciptakan geometri yang tidak mungkin. Generator gambar kesulitan dengan hubungan spasial yang konsisten.
Untuk robotika, ini sangat penting. Robot yang menavigasi dapur membutuhkan pemahaman spasial, bukan prediksi frame. Untuk VFX, sutradara membutuhkan lingkungan yang dapat dijelajahi, bukan jalur kamera yang tetap.
Kasus Penggunaan yang Terbentuk
Gaming Hasilkan lingkungan ambient dan ruang latar belakang. Pengembang indie dapat menciptakan area eksplorasi yang memerlukan bulan produksi seni tradisional.
Efek Visual Pra-visualisasi menjadi interaktif. Blokir scene secara spasial, lalu jelajahi sudut kamera sebelum berkomitmen pada pengambilan gambar.
Arsitektur Konversi denah lantai menjadi walkthrough yang dapat dijelajahi. Klien mengalami ruang sebelum konstruksi dimulai.
Pendidikan Li membayangkan siswa berjalan di dalam sel, ahli bedah berlatih di dalam simulasi anatomi.
Ekspansi Dunia dan Mode Composer
Dua fitur mengatasi keterbatasan skala:
Ekspansi Dunia memungkinkan Anda memperluas dunia yang dihasilkan sekali, menambahkan detail ke wilayah tepi di mana kualitas biasanya menurun. Ini mendorong batas-batas ruang yang dapat dijelajahi melampaui batasan generasi awal.
Mode Composer menggabungkan beberapa dunia menjadi lingkungan yang lebih besar. Hasilkan ruangan individual, lalu satukan menjadi bangunan lengkap.
Alat-alat ini mengakui batasan saat ini sambil menyediakan solusi praktis.
Lanskap Kompetisi
Marble memasuki bidang yang ramai:
| Produk | Pendekatan | Pembeda |
|---|---|---|
| Decart Oasis | Generasi game real-time | Interaktif, tetapi dunia bergeser saat eksplorasi |
| Google Genie | Generasi dunia game | Prediksi frame tanpa 3D sejati |
| Odyssey | Model dunia persisten | Fokus enterprise |
| World Labs Marble | Generasi 3D statis | Dapat diunduh, dapat diedit, siap VR |
Trade-off-nya jelas. Model real-time seperti Oasis menawarkan kedekatan tetapi ketidakstabilan. Marble memprioritaskan persistensi dan kemampuan edit dibanding interaktivitas.
Menghubungkan dengan Generasi Video
Untuk latar belakang tentang arsitektur difusi yang digunakan dalam AI spasial, lihat tinjauan teknis kami tentang transformer difusi.
Bagaimana generasi dunia 3D berhubungan dengan video? Mereka berbagi fondasi matematis dalam model difusi, tetapi memecahkan masalah yang berbeda.
Generasi video menciptakan urutan temporal, frame demi frame. AI spasial menciptakan representasi geometris, permukaan dan volume. Video menjawab "apa yang terjadi selanjutnya?" AI spasial menjawab "apa yang ada di sini?"
Titik konvergensi: video yang dapat dinavigasi. Hasilkan dunia 3D, lalu render video saat Anda bergerak melaluinya. Pendekatan ini menawarkan kontrol kamera yang tidak mungkin dengan generasi video murni.
Keterbatasan yang Perlu Dipertimbangkan
Marble bukan solusi lengkap:
- ○Tidak ada karakter animasi atau elemen dinamis
- ○Batas generasi mungkin membatasi alur kerja produksi
- ○Degradasi tepi memerlukan pass ekspansi
- ○Hanya lingkungan statis
Untuk konten animasi, Anda masih memerlukan model generasi video. Marble unggul dalam lingkungan dan ruang, bukan aktor atau tindakan.
Gambaran yang Lebih Besar
Fei-Fei Li melihat kecerdasan spasial sebagai hal yang esensial untuk kemajuan AI:
"Saya pikir kita semua memiliki tanggung jawab dalam membawa AI ke keadaan yang lebih baik saat menjadi lebih kuat. Kita semua harus menginginkan umat manusia untuk menang dan berkembang."
Visinya meluas melampaui hiburan. Simulasi medis di mana siswa menjelajahi anatomi. Visualisasi ilmiah di mana peneliti menavigasi struktur molekuler. Lingkungan pelatihan robotik yang dihasilkan sesuai permintaan.
Marble adalah langkah pertama, bukti konsep komersial. Penelitian berlanjut menuju generasi dunia yang lebih dinamis, interaktif, dan akurat secara fisik.
Memulai
World Labs menawarkan tingkat gratis dengan 4 generasi per bulan. Cukup untuk mengevaluasi teknologi dan memahami batasannya.
Untuk kreator yang sudah bekerja dalam 3D, kemampuan ekspor mesh terintegrasi dengan pipeline yang ada. Untuk produser video, ekspor video menyediakan kemampuan pra-visualisasi yang tidak tersedia di tempat lain.
Bacaan terkait: Panduan kami tentang konsistensi karakter video AI membahas teknik untuk mempertahankan koherensi di seluruh konten yang dihasilkan, tantangan yang ditangani Marble melalui representasi 3D yang persisten.
Transisi dari generasi 2D ke pembuatan dunia 3D mewakili pergeseran mendasar dalam apa yang dapat diproduksi AI. Marble membuat pergeseran itu dapat diakses.
Apakah artikel ini bermanfaat?

Alexis
Insinyur AIInsinyur AI dari Lausanne yang menggabungkan kedalaman riset dengan inovasi praktis. Membagi waktu antara arsitektur model dan puncak alpine.
Artikel Terkait
Lanjutkan eksplorasi dengan postingan terkait ini

Runway GWM-1: Model Dunia Umum yang Mensimulasikan Realitas secara Real-Time
GWM-1 dari Runway menandai perubahan paradigma dari menghasilkan video menjadi mensimulasikan dunia. Pelajari bagaimana model autoregresif ini menciptakan lingkungan yang dapat dijelajahi, avatar fotorealistik, dan simulasi pelatihan robot.

YouTube Menghadirkan Veo 3 Fast ke Shorts: Pembuatan Video AI Gratis untuk 2,5 Miliar Pengguna
Google mengintegrasikan model Veo 3 Fast langsung ke YouTube Shorts, menawarkan pembuatan video dari teks dengan audio secara gratis untuk kreator di seluruh dunia. Inilah artinya bagi platform dan aksesibilitas video AI.

Video Language Models: Batas Baru Setelah LLM dan AI Agents
World models mengajarkan AI untuk memahami realitas fisik, memungkinkan robot merencanakan tindakan dan mensimulasikan hasil sebelum menggerakkan satu aktuator pun.