Model Dunia Melampaui Video: Mengapa Gaming dan Robotika Adalah Medan Pembuktian Sebenarnya untuk AGI
Dari Genie DeepMind hingga AMI Labs, model dunia secara diam-diam menjadi fondasi AI yang benar-benar memahami fisika. Pasar game $500 miliar mungkin adalah tempat mereka membuktikan diri terlebih dahulu.

Ketika Yann LeCun mengumumkan keberangkatannya dari Meta untuk meluncurkan AMI Labs dengan dukungan €500 juta, dia mengungkapkan apa yang telah diyakini oleh banyak peneliti secara diam-diam selama bertahun-tahun. Model bahasa besar, dengan semua kemampuan mengesankan mereka, mewakili jalan buntu di jalur menuju kecerdasan umum buatan. Mereka memprediksi token tanpa memahami realitas.
Alternatifnya? Model dunia. Sistem yang belajar mensimulasikan cara dunia fisik bekerja.
Keterbatasan Fundamental Model Bahasa
Model dunia belajar memprediksi apa yang akan terjadi berikutnya di lingkungan visual, bukan hanya kata apa yang akan muncul berikutnya dalam teks. Ini memerlukan pemahaman tentang fisika, keabadian objek, dan kausalitas.
Model bahasa unggul dalam pencocokan pola di seluruh teks. Mereka dapat menulis puisi, men-debug kode, dan mengadakan percakapan yang terasa luar biasa manusiawi. Tapi tanyakan kepada GPT-4 apa yang terjadi ketika Anda menjatuhkan bola, dan itu akan mengandalkan deskripsi yang diingat daripada intuisi fisik asli.
Ini penting karena intelijen, seperti yang kita alami di dunia biologis, secara fundamental berakar dalam realitas fisik. Seorang balita yang belajar menumpuk blok mengembangkan pemahaman intuitif tentang gravitasi, keseimbangan, dan sifat material jauh sebelum belajar bahasa. Kognisi yang tertanam ini, rasa tentang bagaimana dunia bekerja, mewakili tepat apa yang kurang pada sistem AI saat ini.
Model dunia bertujuan mengisi celah ini. Daripada memprediksi token berikutnya, mereka memprediksi frame berikutnya, keadaan fisik berikutnya, akibat berikutnya dari suatu tindakan.
Tiga Pendekatan untuk Pemahaman Dunia
Perlombaan untuk membangun AI pemahaman dunia telah terbagi menjadi tiga paradigma yang berbeda, masing-masing dengan kekuatan yang berbeda.
Dilatih pada dataset video besar untuk mempelajari fisika implisit. Contoh termasuk Sora dan Veo. Bagus dalam menghasilkan kelanjutan yang masuk akal tetapi berjuang dengan skenario interaktif.
Bangun mesin fisika eksplisit dan latih AI untuk menavigasinya. Memerlukan konstruksi manual lingkungan yang mahal tetapi menawarkan akurasi fisik yang presisi.
Pendekatan ketiga, dan mungkin yang paling menjanjikan, menggabungkan keduanya: mempelajari dinamika dunia dari video sambil mempertahankan kemampuan untuk berinteraksi dan memanipulasi lingkungan. Di sinilah gaming menjadi penting.
Gaming: Medan Pelatihan Sempurna
Video game menyediakan sesuatu yang unik: lingkungan interaktif dengan aturan fisika yang konsisten, variasi tak terbatas, dan metrik kesuksesan yang jelas. Tidak seperti robotika dunia nyata, yang memerlukan perangkat keras mahal dan menimbulkan kekhawatiran keselamatan, game menawarkan kegagalan tak terbatas tanpa konsekuensi.
DeepMind mengenali potensi ini sejak awal. Sistem Genie mereka dapat menghasilkan lingkungan yang dapat dimainkan sepenuhnya baru dari satu gambar. Beri dia sketsa level platformer, dan itu menciptakan dunia dengan fisika yang konsisten di mana karakter dapat melompat, jatuh, dan berinteraksi dengan objek dengan tepat.
Yang membuat Genie luar biasa bukan hanya generasi tetapi pemahaman. Sistem belajar konsep fisika yang dapat digeneralisasi yang mentransfer di seluruh gaya visual yang berbeda dan jenis game. Model yang dilatih pada platformer gaya Mario mengembangkan intuisi tentang gravitasi dan tabrakan yang berlaku sama pada game indie yang digambar tangan dan lingkungan 3D yang realistis.
Dari Game ke Robot
Pipeline game-to-robotics bukan teoritis. Perusahaan sudah menggunakannya.
Celah Simulasi Diidentifikasi
Penelitian menunjukkan model yang dilatih murni dalam simulasi berjuang dengan kekacauan dunia nyata: pencahayaan yang bervariasi, sensor yang tidak sempurna, objek yang tidak terduga.
Pendekatan Hibrida Muncul
Tim menggabungkan model dunia yang dilatih game dengan fine-tuning dunia nyata yang terbatas, secara dramatis mengurangi data yang diperlukan untuk pelatihan robot.
Penerapan Komersial Dimulai
Robot gudang pertama menggunakan backbone model dunia memasuki produksi, menangani objek baru tanpa pemrograman eksplisit.
Wawasan yang mendorong transisi ini sederhana: fisika adalah fisika. Model yang benar-benar memahami bagaimana objek jatuh, meluncur, dan bertabrakan dalam video game harus, dengan adaptasi yang sesuai, memahami prinsip yang sama di dunia nyata. Penampilan visual berubah, tetapi dinamika mendasar tetap konstan.
Tesla mengejar versi strategi ini dengan robot Optimus mereka, melatih terlebih dahulu dalam simulasi sebelum menyebarkan di lingkungan pabrik terkontrol. Faktor pembatas selalu menjadi celah antara fisika simulasi dan nyata. Model dunia yang dilatih pada data video yang beragam mungkin akhirnya menjembatani celah itu.
Taruhan AMI Labs
Usaha baru Yann LeCun, AMI Labs, mewakili investasi tunggal terbesar dalam penelitian model dunia hingga saat ini. Dengan €500 juta pendanaan Eropa dan tim yang direkrut dari Meta, DeepMind, dan lab akademik, mereka mengejar apa yang LeCun sebut "AI yang didorong objektif".
Tidak seperti LLM yang memprediksi token, pendekatan AMI fokus pada pembelajaran representasi dunia yang memungkinkan perencanaan dan penalaran tentang konsekuensi fisik.
Fondasi teknis dibangun atas Joint Embedding Predictive Architecture (JEPA), kerangka kerja yang LeCun dukung selama bertahun-tahun. Daripada menghasilkan prediksi tingkat piksel, yang memerlukan sumber daya komputasi yang sangat besar, JEPA mempelajari representasi abstrak yang menangkap struktur penting dari sistem fisik.
Pikirkan seperti ini: manusia yang menonton bola menggelinding menuju tebing tidak mensimulasikan setiap piksel dari lintasan bola. Sebaliknya, kami mengenali situasi abstrak, bola, tepi, gravitasi, dan memprediksi hasilnya, jatuh. JEPA bertujuan menangkap pemikiran abstrak dan efisien ini.
Implikasi untuk Pembuatan Video AI
Lintasan penelitian ini penting secara mendalam untuk aplikasi kreatif. Generator video AI saat ini menghasilkan hasil yang mengesankan tetapi menderita inkonsistensi temporal. Karakter berubah bentuk, fisika rusak, dan objek muncul dan menghilang.
Model dunia menawarkan solusi potensial. Generator yang benar-benar memahami fisika harus menghasilkan video di mana objek mematuhi aturan yang konsisten, di mana barang yang dijatuhkan jatuh secara dapat diprediksi, di mana refleksi berperilaku dengan benar.
Model menghasilkan frame yang dapat dipercaya secara visual tanpa memberlakukan konsistensi fisik. Bekerja untuk klip pendek tetapi rusak selama durasi yang lebih lama.
Konsistensi fisik muncul dari dinamika dunia yang dipelajari. Video yang lebih lama dan lebih kohesif menjadi mungkin karena model mempertahankan keadaan internal dunia.
Kami sudah melihat tanda-tanda awal transisi ini. GWM-1 Runway mewakili taruhan mereka pada model dunia, dan simulasi fisika Veo 3.1 yang ditingkatkan menunjukkan Google menggabungkan prinsip serupa.
Koneksi AGI
Mengapa semua ini penting untuk kecerdasan umum buatan? Karena intelijen asli memerlukan lebih dari manipulasi bahasa. Ini memerlukan pemahaman penyebab dan akibat, memprediksi konsekuensi, dan merencanakan tindakan di dunia fisik.
Kognisi yang Tertanam
Intelijen sejati mungkin memerlukan pijakan di realitas fisik, bukan hanya pola statistik dalam teks.
Pembelajaran Interaktif
Game menyediakan test bed yang sempurna: fisika kaya, umpan balik yang jelas, iterasi tak terbatas.
Aplikasi Robotik
Model dunia yang dilatih dalam game dapat ditransfer ke robotika dunia nyata dengan adaptasi minimal.
Para peneliti yang mendorong pekerjaan ini berhati-hati agar tidak mengklaim mereka membangun AGI. Tetapi mereka dengan meyakinkan berpendapat bahwa tanpa pemahaman dunia, kami tidak dapat membangun sistem yang benar-benar berpikir daripada sekadar otomatis melengkapi.
Apa Berikutnya
Dua tahun ke depan akan terbukti kritis. Beberapa perkembangan untuk diperhatikan:
- ○Demonstrasi publik pertama AMI Labs, diharapkan pertengahan 2026
- ○Integrasi model dunia ke dalam generator video utama
- ○Perusahaan mesin game - Unity, Unreal - menambahkan API model dunia
- ○Robot konsumen pertama menggunakan model dunia yang dilatih game
Pasar game, diproyeksikan melebihi $500 miliar pada 2030, mewakili tanah yang subur untuk penyebaran model dunia. Investor melihat model dunia bukan hanya sebagai keingintahuan penelitian tetapi sebagai teknologi fundamental untuk hiburan interaktif, simulasi, dan robotika.
Revolusi Sunyi
Tidak seperti hype yang eksplosif seputar ChatGPT, revolusi model dunia berkembang secara diam-diam di lab penelitian dan studio game. Tidak ada demo viral, tidak ada siklus berita harian tentang terobosan terbaru.
Tetapi implikasinya mungkin lebih dalam. Model bahasa mengubah cara kami berinteraksi dengan teks. Model dunia dapat mengubah cara AI berinteraksi dengan realitas.
Bagi mereka dari kami yang bekerja dalam pembuatan video AI, penelitian ini mewakili ancaman dan peluang. Alat kami saat ini mungkin terlihat primitif dalam retrospeksi, seperti CGI awal dibandingkan dengan efek visual modern. Tetapi prinsip dasarnya, menghasilkan konten visual melalui model yang dipelajari, akan menjadi lebih kuat seiring dengan model-model ini mulai benar-benar memahami dunia yang mereka ciptakan.
Bacaan Lebih Lanjut: Jelajahi bagaimana diffusion transformers menyediakan fondasi arsitektur untuk banyak model dunia, atau pelajari tentang generasi interaktif real-time yang dibangun atas prinsip model dunia.
Jalan dari fisika game video ke kecerdasan umum buatan mungkin tampak memutar. Tetapi intelijen, di mana pun kami menemukannya, muncul dari sistem yang memahami lingkungan mereka dan dapat memprediksi konsekuensi dari tindakan mereka. Game memberi kami ruang yang aman untuk membangun dan menguji sistem seperti itu. Robot, alat kreatif, dan mungkin pemahaman mesin yang asli akan menyusul.
Apakah artikel ini bermanfaat?

Alexis
Insinyur AIInsinyur AI dari Lausanne yang menggabungkan kedalaman riset dengan inovasi praktis. Membagi waktu antara arsitektur model dan puncak alpine.
Artikel Terkait
Lanjutkan eksplorasi dengan postingan terkait ini

Yann LeCun Meninggalkan Meta untuk Bertaruh $3,5 Miliar pada World Models
Pemenang Turing Award meluncurkan AMI Labs, sebuah startup baru yang berfokus pada world models, bukan LLM, dengan target robotika, kesehatan, dan pemahaman video.

Runway GWM-1: Model Dunia Umum yang Mensimulasikan Realitas secara Real-Time
GWM-1 dari Runway menandai perubahan paradigma dari menghasilkan video menjadi mensimulasikan dunia. Pelajari bagaimana model autoregresif ini menciptakan lingkungan yang dapat dijelajahi, avatar fotorealistik, dan simulasi pelatihan robot.

Video Language Models: Batas Baru Setelah LLM dan AI Agents
World models mengajarkan AI untuk memahami realitas fisik, memungkinkan robot merencanakan tindakan dan mensimulasikan hasil sebelum menggerakkan satu aktuator pun.