World Labs Marble: Visi Fei-Fei Li untuk Kecerdasan Spasial

Peneliti yang memberikan kemampuan melihat kepada mesin kini mengajarkan mereka untuk membayangkan seluruh dunia. Dengan World Labs Marble, Fei-Fei Li mengambil langkah berikutnya melampaui generasi video menuju lingkungan 3D yang persisten dan dapat dijelajahi.

Dari ImageNet ke Model Dunia

💡

Untuk konteks tentang bagaimana model dunia sesuai dengan evolusi video AI, silakan lihat tinjauan kami tentang model dunia sebagai perbatasan berikutnya.

Fei-Fei Li merevolusi visi komputer dengan ImageNet, dataset yang memungkinkan pembelajaran mendalam modern. Kini, setelah setahun membangun World Labs dengan pendanaan $230 juta, beliau telah meluncurkan Marble, produk komersial pertama perusahaan.

Tesisnya sederhana: AI telah menaklukkan teks, kemudian gambar, kemudian video. Perbatasan berikutnya adalah kecerdasan spasial, kemampuan untuk merasakan, menghasilkan, dan berinteraksi dengan dunia 3D.

$230M

Pendanaan Terkumpul

Tingkat Harga

Output Asli

Apa yang Dilakukan Marble

Marble menghasilkan lingkungan 3D yang persisten dan dapat diunduh dari berbagai jenis input:

✓Prompt teks
✓Gambar tunggal
✓Video
✓Panorama
✓Tata letak 3D

Berbeda dengan model dunia real-time dari kompetitor seperti Decart's Oasis atau Google's Genie, Marble menciptakan dunia yang stabil dengan sedikit perubahan bentuk. Anda menghasilkan sekali, lalu menjelajah dengan bebas tanpa AI "melupakan" apa yang telah dibuat.

Editor Chisel

🔨

Pengeditan 3D Berbasis AI

Chisel memisahkan struktur spasial dari gaya visual. Blokir tata letak Anda terlebih dahulu, kemudian terapkan panduan gaya berbasis teks.

Pendekatan hibrida ini membedakan Marble dari model teks-ke-scene. Alih-alih berharap AI memahami niat spasial Anda, Anda mendefinisikan geometri secara eksplisit. AI menangani estetika, material, dan pencahayaan.

Bayangkan seperti membuat sketsa denah lantai sebelum meminta desainer interior untuk mendekorasi. Kontrol atas hubungan spasial tetap berada di tangan Anda.

Format Ekspor dan Kompatibilitas

Dunia yang dihasilkan diekspor dalam tiga format:

Format	Kasus Penggunaan
Gaussian Splats	Rendering real-time, tampilan baru
Meshes	Mesin game, integrasi CAD
Video	Pembuatan konten, pra-visualisasi

💡

Semua dunia Marble kompatibel dengan VR menggunakan headset Vision Pro dan Quest 3 langsung dari kotaknya.

Struktur Harga

World Labs menawarkan empat tingkat:

Tingkat	Harga	Generasi	Fitur Utama
Gratis	$0	4/bulan	Input teks, gambar, atau panorama
Standar	$20/bulan	12/bulan	Input multi-gambar/video, pengeditan lanjutan
Pro	$35/bulan	25/bulan	Ekspansi scene, hak komersial
Max	$95/bulan	75/bulan	Semua fitur, generasi maksimum

Tingkat gratis memungkinkan Anda mengevaluasi teknologi. Untuk pekerjaan produksi yang memerlukan hak komersial, tingkat Pro di $35/bulan mewakili harga masuk yang wajar untuk kemampuan yang sangat baru ini.

Mengapa Kecerdasan Spasial Penting

"Kecerdasan spasial adalah tantangan yang menentukan dekade berikutnya." - Fei-Fei Li

Li berpendapat bahwa AI saat ini memiliki keterbatasan mendasar: penalaran yang buruk tentang ruang 3D. Model bahasa berhalusinasi tentang fisika. Model video menciptakan geometri yang tidak mungkin. Generator gambar kesulitan dengan hubungan spasial yang konsisten.

✗Pendekatan Saat Ini

Model video menghasilkan urutan frame tanpa pemahaman 3D yang sebenarnya. Gerakan kamera mengungkapkan inkonsistensi. Objek berubah posisi atau menghilang.

✓Kecerdasan Spasial

Representasi 3D asli memungkinkan dunia yang konsisten secara fisik. Gerakkan kamera dengan bebas. Lingkungan tetap ada karena eksis sebagai geometri, bukan piksel.

Untuk robotika, ini sangat penting. Robot yang menavigasi dapur membutuhkan pemahaman spasial, bukan prediksi frame. Untuk VFX, sutradara membutuhkan lingkungan yang dapat dijelajahi, bukan jalur kamera yang tetap.

Kasus Penggunaan yang Terbentuk

Gaming Hasilkan lingkungan ambient dan ruang latar belakang. Pengembang indie dapat menciptakan area eksplorasi yang memerlukan bulan produksi seni tradisional.

Efek Visual Pra-visualisasi menjadi interaktif. Blokir scene secara spasial, lalu jelajahi sudut kamera sebelum berkomitmen pada pengambilan gambar.

Arsitektur Konversi denah lantai menjadi walkthrough yang dapat dijelajahi. Klien mengalami ruang sebelum konstruksi dimulai.

Pendidikan Li membayangkan siswa berjalan di dalam sel, ahli bedah berlatih di dalam simulasi anatomi.

Ekspansi Dunia dan Mode Composer

Dua fitur mengatasi keterbatasan skala:

Ekspansi Dunia memungkinkan Anda memperluas dunia yang dihasilkan sekali, menambahkan detail ke wilayah tepi di mana kualitas biasanya menurun. Ini mendorong batas-batas ruang yang dapat dijelajahi melampaui batasan generasi awal.

Mode Composer menggabungkan beberapa dunia menjadi lingkungan yang lebih besar. Hasilkan ruangan individual, lalu satukan menjadi bangunan lengkap.

Alat-alat ini mengakui batasan saat ini sambil menyediakan solusi praktis.

Lanskap Kompetisi

Marble memasuki bidang yang ramai:

Produk	Pendekatan	Pembeda
Decart Oasis	Generasi game real-time	Interaktif, tetapi dunia bergeser saat eksplorasi
Google Genie	Generasi dunia game	Prediksi frame tanpa 3D sejati
Odyssey	Model dunia persisten	Fokus enterprise
World Labs Marble	Generasi 3D statis	Dapat diunduh, dapat diedit, siap VR

Trade-off-nya jelas. Model real-time seperti Oasis menawarkan kedekatan tetapi ketidakstabilan. Marble memprioritaskan persistensi dan kemampuan edit dibanding interaktivitas.

Menghubungkan dengan Generasi Video

💡

Untuk latar belakang tentang arsitektur difusi yang digunakan dalam AI spasial, lihat tinjauan teknis kami tentang transformer difusi.

Bagaimana generasi dunia 3D berhubungan dengan video? Mereka berbagi fondasi matematis dalam model difusi, tetapi memecahkan masalah yang berbeda.

Generasi video menciptakan urutan temporal, frame demi frame. AI spasial menciptakan representasi geometris, permukaan dan volume. Video menjawab "apa yang terjadi selanjutnya?" AI spasial menjawab "apa yang ada di sini?"

Titik konvergensi: video yang dapat dinavigasi. Hasilkan dunia 3D, lalu render video saat Anda bergerak melaluinya. Pendekatan ini menawarkan kontrol kamera yang tidak mungkin dengan generasi video murni.

Keterbatasan yang Perlu Dipertimbangkan

Marble bukan solusi lengkap:

○Tidak ada karakter animasi atau elemen dinamis
○Batas generasi mungkin membatasi alur kerja produksi
○Degradasi tepi memerlukan pass ekspansi
○Hanya lingkungan statis

Untuk konten animasi, Anda masih memerlukan model generasi video. Marble unggul dalam lingkungan dan ruang, bukan aktor atau tindakan.

Gambaran yang Lebih Besar

Fei-Fei Li melihat kecerdasan spasial sebagai hal yang esensial untuk kemajuan AI:

"Saya pikir kita semua memiliki tanggung jawab dalam membawa AI ke keadaan yang lebih baik saat menjadi lebih kuat. Kita semua harus menginginkan umat manusia untuk menang dan berkembang."

Visinya meluas melampaui hiburan. Simulasi medis di mana siswa menjelajahi anatomi. Visualisasi ilmiah di mana peneliti menavigasi struktur molekuler. Lingkungan pelatihan robotik yang dihasilkan sesuai permintaan.

Marble adalah langkah pertama, bukti konsep komersial. Penelitian berlanjut menuju generasi dunia yang lebih dinamis, interaktif, dan akurat secara fisik.

Memulai

World Labs menawarkan tingkat gratis dengan 4 generasi per bulan. Cukup untuk mengevaluasi teknologi dan memahami batasannya.

Untuk kreator yang sudah bekerja dalam 3D, kemampuan ekspor mesh terintegrasi dengan pipeline yang ada. Untuk produser video, ekspor video menyediakan kemampuan pra-visualisasi yang tidak tersedia di tempat lain.

💡

Bacaan terkait: Panduan kami tentang konsistensi karakter video AI membahas teknik untuk mempertahankan koherensi di seluruh konten yang dihasilkan, tantangan yang ditangani Marble melalui representasi 3D yang persisten.

Transisi dari generasi 2D ke pembuatan dunia 3D mewakili pergeseran mendasar dalam apa yang dapat diproduksi AI. Marble membuat pergeseran itu dapat diakses.