Simulasi Fizik dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Realiti
Daripada bola keranjang yang teleport kepada lantunan realistik, model video AI kini memahami graviti, momentum, dan dinamik bahan. Kami meneroka kejayaan teknikal yang membolehkan ini.

Selama bertahun-tahun, video yang dijana AI mempunyai masalah fizik. Bola keranjang yang terlepas dari rim akan teleport ke dalamnya. Air mengalir ke atas. Objek menembus antara satu sama lain seperti hantu. Pada tahun 2025 dan awal 2026, sesuatu berubah. Generasi terbaru model video telah belajar menghormati undang-undang asas dunia fizikal.
Masalah Bola Keranjang
OpenAI menjelaskannya dengan sempurna semasa melancarkan Sora 2: dalam model sebelumnya, jika bola keranjang terlepas dari rim, ia akan muncul dalam jaring. Model mengetahui hasil naratif (bola masuk bakul) tetapi tidak mempunyai konsep tentang batasan fizikal yang sepatutnya mengawal perjalanan tersebut.
Ini bukan pepijat kecil. Ia merupakan gejala had seni bina yang asas. Model penjanaan video awal cemerlang dalam pemadanan corak visual, belajar menjana bingkai yang kelihatan munasabah secara individu tetapi kekal tidak koheren secara fizikal apabila dilihat secara berurutan.
OpenAI secara eksplisit menyenaraikan had "morph object" sebagai masalah utama yang direka untuk diselesaikan oleh Sora 2. Jurang seni bina ini telah mengecewakan penyelidik dan pencipta.
Tiga Tiang Pemahaman Fizik
Kejayaan dalam simulasi fizik bergantung pada tiga kemajuan yang saling berkaitan: world modeling, penaakulan chain-of-thought, dan mekanisme temporal attention yang diperbaiki.
World Models berbanding Ramalan Bingkai
Penjanaan video tradisional menganggap tugas sebagai ramalan bingkai berurutan: diberikan bingkai 1 hingga N, ramalkan bingkai N+1. Pendekatan ini secara semula jadi bergelut dengan fizik kerana ia tidak mempunyai perwakilan eksplisit keadaan fizikal yang mendasari.
World models mengambil pendekatan yang berbeza secara asas. Daripada meramalkan piksel secara langsung, mereka terlebih dahulu membina perwakilan dalaman keadaan fizikal pemandangan, termasuk kedudukan objek, halaju, bahan, dan interaksi. Kemudian barulah mereka merender keadaan ini menjadi bingkai visual. Pendekatan ini, yang diterokai secara mendalam dalam analisis world models kami, mewakili anjakan paradigma dalam cara kita berfikir tentang penjanaan video.
Meramalkan piksel daripada piksel. Tiada fizik eksplisit. Terdedah kepada ralat teleportasi, tembus-menembus, dan pelanggaran graviti. Pantas tetapi tidak koheren secara fizikal.
Mensimulasikan keadaan fizikal terlebih dahulu. Penjejakan objek eksplisit. Menghormati undang-undang keabadian dan dinamik perlanggaran. Lebih berat secara pengiraan tetapi berasaskan fizik.
Chain of Thought untuk Video
Kling O1, yang dikeluarkan pada akhir 2025, memperkenalkan penaakulan chain-of-thought kepada penjanaan video. Sebelum menjana bingkai, model secara eksplisit menaakul tentang apa yang sepatutnya berlaku secara fizikal dalam pemandangan.
Untuk pemandangan gelas jatuh dari meja, model terlebih dahulu menaakul:
- Gelas mempunyai halaju awal sifar, kedudukan di tepi meja
- Graviti mempercepatkan gelas ke bawah pada 9.8 m/s²
- Gelas menyentuh lantai selepas kira-kira 0.45 saat
- Bahan gelas adalah rapuh, lantai adalah permukaan keras
- Impak melebihi ambang patah, gelas pecah
- Serpihan berselerak dengan pengekalan momentum
Langkah penaakulan eksplisit ini berlaku dalam ruang laten model sebelum sebarang piksel dijana. Hasilnya adalah video yang menghormati bukan sahaja estetika visual tetapi juga rantaian sebab-akibat.
Temporal Attention pada Skala Besar
Asas seni bina yang membolehkan kemajuan ini adalah temporal attention, mekanisme yang membolehkan model video mengekalkan konsistensi merentasi bingkai. Seni bina diffusion transformer yang menggerakkan model video moden memproses video sebagai tampalan ruang-masa, membenarkan attention mengalir secara spatial dalam bingkai dan secara temporal merentasi bingkai.
Model video moden memproses berjuta-juta tampalan ruang-masa setiap video, dengan attention head khusus yang didedikasikan untuk konsistensi fizikal. Skala ini membolehkan model menjejaki identiti objek dan keadaan fizikal merentasi ratusan bingkai, mengekalkan koheren yang mustahil dengan seni bina sebelumnya.
Penanda Aras Fizik Dunia Sebenar
Bagaimana kita sebenarnya mengukur kualiti simulasi fizik? Bidang ini telah membangunkan beberapa ujian standard:
| Penanda Aras | Menguji | Pemimpin |
|---|---|---|
| Object Permanence | Objek kekal apabila terhalang | Sora 2, Veo 3 |
| Gravity Consistency | Pecutan jatuh bebas adalah seragam | Kling O1, Runway Gen-4.5 |
| Collision Realism | Objek melantun, berubah bentuk, atau pecah dengan sewajarnya | Sora 2, Veo 3.1 |
| Fluid Dynamics | Air, asap, dan kain disimulasikan secara realistik | Kling 2.6 |
| Momentum Conservation | Gerakan dipindahkan dengan betul antara objek | Sora 2 |
Model Kling secara konsisten cemerlang dalam dinamik bendalir, dengan simulasi air dan fizik kain yang sangat mengagumkan. Sora 2 OpenAI memimpin dalam realisme perlanggaran dan pengekalan momentum, mengendalikan interaksi pelbagai objek yang kompleks dengan ketepatan yang mengagumkan.
Untuk simulasi air, asap, dan kain, model Kling pada masa ini menawarkan fizik paling realistik. Untuk perlanggaran pelbagai objek yang kompleks dan senario sukan, Sora 2 adalah pilihan yang lebih kuat.
Ujian Gimnas
Salah satu penanda aras fizik yang paling mencabar melibatkan gimnastik Olimpik. Gimnas yang berguling mengalami dinamik putaran yang kompleks: pengekalan momentum sudut, momen inersia berubah-ubah apabila anggota badan memanjang dan mengecut, dan pemasaan yang tepat untuk penggunaan daya semasa berlepas dan mendarat.
Model video awal akan menjana bingkai individu yang mengagumkan gimnas di udara tetapi gagal teruk pada fizik. Putaran akan mempercepatkan atau memperlahankan secara rawak. Pendaratan akan berlaku di kedudukan yang mustahil. Badan akan berubah bentuk dengan cara yang melanggar batasan anatomi.
Sora 2 secara eksplisit menyerlahkan gimnastik Olimpik sebagai penanda aras yang kini dikendalikan dengan betul. Model menjejaki momentum sudut gimnas melalui keseluruhan rutin, mempercepatkan putaran apabila anggota badan ditarik masuk (kesan putaran peluncur ais) dan memperlahankan apabila ia dipanjangkan.
Pemahaman Bahan
Simulasi fizik melangkaui gerakan kepada sifat bahan. Bagaimana model mengetahui bahawa gelas pecah manakala getah melantun? Bahawa air percik manakala minyak bertakung? Bahawa logam berubah bentuk secara plastik manakala kayu patah?
Jawapannya terletak pada data latihan dan prior yang dipelajari model. Dengan melatih pada berjuta-juta video yang menunjukkan bahan berinteraksi dengan dunia, model membangunkan pemahaman bahan secara tersirat. Gelas yang jatuh pada konkrit menghasilkan hasil yang berbeza daripada gelas yang jatuh pada permaidani, dan model moden menangkap perbezaan ini.
Pengelasan Bahan
Model kini secara tersirat mengklasifikasikan objek mengikut sifat bahan: rapuh berbanding mulur, elastik berbanding plastik, boleh mampat berbanding tidak boleh mampat.
Jenis Bendalir
Kelikatan bendalir dan tegangan permukaan yang berbeza dikendalikan dengan betul: air percik, madu meleleh, asap bergulung.
Fizik Pembakaran
Api dan letupan mengikuti perambatan haba dan dinamik gas yang realistik dan bukannya kesan zarah yang ringkas.
Had dan Kes Tepi
Walaupun dengan kemajuan ini, simulasi fizik dalam video AI masih tidak sempurna. Beberapa had yang diketahui masih wujud:
Kestabilan jangka panjang: Fizik kekal tepat selama 5-10 saat tetapi boleh menyimpang dalam tempoh yang lebih lama. Video yang dilanjutkan mungkin secara beransur-ansur melanggar undang-undang keabadian.
Sistem pelbagai objek yang kompleks: Walaupun dua objek berlanggar berfungsi dengan baik, pemandangan dengan berpuluh-puluh objek yang berinteraksi (seperti menara Jenga yang jatuh) boleh menghasilkan ralat.
Bahan yang luar biasa: Bias data latihan bermakna bahan biasa (air, gelas, logam) disimulasikan dengan lebih baik daripada yang eksotik (bendalir bukan-Newtonian, bahan magnetik).
Keadaan melampau: Fizik pada skala yang sangat kecil (molekul), skala yang sangat besar (astronomi), atau keadaan melampau (hampir kelajuan cahaya) sering gagal.
Ketepatan simulasi fizik menurun dengan ketara untuk video yang lebih panjang daripada 30 saat. Untuk kandungan berbentuk panjang, pertimbangkan untuk menggunakan teknik pelanjutan video dengan perhatian teliti terhadap kesinambungan fizikal di sempadan.
Implikasi untuk Pencipta
Apakah maksud simulasi fizik yang diperbaiki untuk pencipta video?
Pertama, ia secara dramatik mengurangkan keperluan untuk pembetulan pasca-pengeluaran. Pemandangan yang sebelum ini memerlukan penyuntingan teliti untuk membetulkan kemustahilan fizikal kini dijana dengan betul kali pertama.
Kedua, ia membolehkan kemungkinan kreatif baharu. Simulasi fizik yang tepat bermakna mesin Rube Goldberg, urutan sukan, dan adegan aksi boleh dijana tanpa pembetulan manual yang teliti.
Ketiga, ia meningkatkan persepsi penonton. Penonton secara tidak sedar mengesan pelanggaran fizik, menjadikan video yang tepat secara fizikal terasa lebih nyata walaupun perbezaannya sukar untuk dinyatakan.
Jalan ke Hadapan
Simulasi fizik akan terus bertambah baik di sepanjang beberapa paksi:
Konsistensi temporal yang lebih panjang: Model semasa mengekalkan fizik selama beberapa saat, model masa depan akan mengekalkannya selama beberapa minit.
Interaksi yang lebih kompleks: Pemandangan dengan ratusan objek yang berinteraksi akan menjadi mungkin.
Enjin fizik yang dipelajari: Daripada fizik tersirat daripada data latihan, model masa depan mungkin menggabungkan simulasi fizik eksplisit sebagai komponen.
Fizik masa nyata: Pada masa ini penjanaan yang sedar fizik adalah perlahan, tetapi pengoptimuman boleh membolehkan penjanaan masa nyata dengan ketepatan fizikal.
Perjalanan daripada bola keranjang yang teleport kepada lantunan realistik mewakili salah satu kemajuan paling penting dalam penjanaan video AI. Model telah belajar, jika bukan untuk memahami fizik seperti cara manusia, sekurang-kurangnya untuk menghormati batasannya. Bagi pencipta, ini bermakna kurang pembetulan, lebih banyak kemungkinan, dan video yang terasa lebih nyata.
Cuba sendiri: Bonega.ai menggunakan Veo 3, yang menggabungkan simulasi fizik lanjutan untuk dinamik objek yang realistik. Jana pemandangan dengan fizik kompleks dan lihat bagaimana model mengendalikan graviti, perlanggaran, dan interaksi bahan.
Adakah artikel ini membantu?

Alexis
Jurutera AIJurutera AI dari Lausanne yang menggabungkan kedalaman penyelidikan dengan inovasi praktikal. Membahagikan masa antara seni bina model dan puncak alpine.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

World Models: Sempadan Baharu dalam Penjanaan Video AI
Mengapa peralihan daripada penjanaan bingkai kepada simulasi dunia sedang membentuk semula video AI, dan apa yang GWM-1 Runway beritahu kita tentang arah tuju teknologi ini.

Konsistensi Watak dalam Video AI: Bagaimana Model Belajar Mengingat Wajah
Pendalaman teknikal ke dalam inovasi seni bina yang membolehkan model video AI mengekalkan identiti watak merentasi rakaman, daripada mekanisme perhatian kepada embeddings pemeliharaan identiti.

Difusi Selari: Memecahkan Penghalang 5-Minit untuk Video AI
Penjanaan video AI terhad kepada saat. Difusi selari mendorong ke arah minit. Kami menelusuri seni bina di sebalik video bentuk panjang dan mengapa ini penting untuk pencipta.