Simulasi Fizik dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Realiti

Selama bertahun-tahun, video yang dijana AI mempunyai masalah fizik. Bola keranjang yang terlepas dari rim akan teleport ke dalamnya. Air mengalir ke atas. Objek menembus antara satu sama lain seperti hantu. Pada tahun 2025 dan awal 2026, sesuatu berubah. Generasi terbaru model video telah belajar menghormati undang-undang asas dunia fizikal.

Masalah Bola Keranjang

OpenAI menjelaskannya dengan sempurna semasa melancarkan Sora 2: dalam model sebelumnya, jika bola keranjang terlepas dari rim, ia akan muncul dalam jaring. Model mengetahui hasil naratif (bola masuk bakul) tetapi tidak mempunyai konsep tentang batasan fizikal yang sepatutnya mengawal perjalanan tersebut.

Ini bukan pepijat kecil. Ia merupakan gejala had seni bina yang asas. Model penjanaan video awal cemerlang dalam pemadanan corak visual, belajar menjana bingkai yang kelihatan munasabah secara individu tetapi kekal tidak koheren secara fizikal apabila dilihat secara berurutan.

💡

OpenAI secara eksplisit menyenaraikan had "morph object" sebagai masalah utama yang direka untuk diselesaikan oleh Sora 2. Jurang seni bina ini telah mengecewakan penyelidik dan pencipta.

Tiga Tiang Pemahaman Fizik

Kejayaan dalam simulasi fizik bergantung pada tiga kemajuan yang saling berkaitan: world modeling, penaakulan chain-of-thought, dan mekanisme temporal attention yang diperbaiki.

World Models berbanding Ramalan Bingkai

Penjanaan video tradisional menganggap tugas sebagai ramalan bingkai berurutan: diberikan bingkai 1 hingga N, ramalkan bingkai N+1. Pendekatan ini secara semula jadi bergelut dengan fizik kerana ia tidak mempunyai perwakilan eksplisit keadaan fizikal yang mendasari.

World models mengambil pendekatan yang berbeza secara asas. Daripada meramalkan piksel secara langsung, mereka terlebih dahulu membina perwakilan dalaman keadaan fizikal pemandangan, termasuk kedudukan objek, halaju, bahan, dan interaksi. Kemudian barulah mereka merender keadaan ini menjadi bingkai visual. Pendekatan ini, yang diterokai secara mendalam dalam analisis world models kami, mewakili anjakan paradigma dalam cara kita berfikir tentang penjanaan video.

✗Ramalan Bingkai

Meramalkan piksel daripada piksel. Tiada fizik eksplisit. Terdedah kepada ralat teleportasi, tembus-menembus, dan pelanggaran graviti. Pantas tetapi tidak koheren secara fizikal.

✓World Models

Mensimulasikan keadaan fizikal terlebih dahulu. Penjejakan objek eksplisit. Menghormati undang-undang keabadian dan dinamik perlanggaran. Lebih berat secara pengiraan tetapi berasaskan fizik.

Chain of Thought untuk Video

Kling O1, yang dikeluarkan pada akhir 2025, memperkenalkan penaakulan chain-of-thought kepada penjanaan video. Sebelum menjana bingkai, model secara eksplisit menaakul tentang apa yang sepatutnya berlaku secara fizikal dalam pemandangan.

Untuk pemandangan gelas jatuh dari meja, model terlebih dahulu menaakul:

Gelas mempunyai halaju awal sifar, kedudukan di tepi meja
Graviti mempercepatkan gelas ke bawah pada 9.8 m/s²
Gelas menyentuh lantai selepas kira-kira 0.45 saat
Bahan gelas adalah rapuh, lantai adalah permukaan keras
Impak melebihi ambang patah, gelas pecah
Serpihan berselerak dengan pengekalan momentum

Langkah penaakulan eksplisit ini berlaku dalam ruang laten model sebelum sebarang piksel dijana. Hasilnya adalah video yang menghormati bukan sahaja estetika visual tetapi juga rantaian sebab-akibat.

Temporal Attention pada Skala Besar

Asas seni bina yang membolehkan kemajuan ini adalah temporal attention, mekanisme yang membolehkan model video mengekalkan konsistensi merentasi bingkai. Seni bina diffusion transformer yang menggerakkan model video moden memproses video sebagai tampalan ruang-masa, membenarkan attention mengalir secara spatial dalam bingkai dan secara temporal merentasi bingkai.

Model video moden memproses berjuta-juta tampalan ruang-masa setiap video, dengan attention head khusus yang didedikasikan untuk konsistensi fizikal. Skala ini membolehkan model menjejaki identiti objek dan keadaan fizikal merentasi ratusan bingkai, mengekalkan koheren yang mustahil dengan seni bina sebelumnya.

Penanda Aras Fizik Dunia Sebenar

Bagaimana kita sebenarnya mengukur kualiti simulasi fizik? Bidang ini telah membangunkan beberapa ujian standard:

Penanda Aras	Menguji	Pemimpin
Object Permanence	Objek kekal apabila terhalang	Sora 2, Veo 3
Gravity Consistency	Pecutan jatuh bebas adalah seragam	Kling O1, Runway Gen-4.5
Collision Realism	Objek melantun, berubah bentuk, atau pecah dengan sewajarnya	Sora 2, Veo 3.1
Fluid Dynamics	Air, asap, dan kain disimulasikan secara realistik	Kling 2.6
Momentum Conservation	Gerakan dipindahkan dengan betul antara objek	Sora 2

Model Kling secara konsisten cemerlang dalam dinamik bendalir, dengan simulasi air dan fizik kain yang sangat mengagumkan. Sora 2 OpenAI memimpin dalam realisme perlanggaran dan pengekalan momentum, mengendalikan interaksi pelbagai objek yang kompleks dengan ketepatan yang mengagumkan.

💡

Untuk simulasi air, asap, dan kain, model Kling pada masa ini menawarkan fizik paling realistik. Untuk perlanggaran pelbagai objek yang kompleks dan senario sukan, Sora 2 adalah pilihan yang lebih kuat.

Ujian Gimnas

Salah satu penanda aras fizik yang paling mencabar melibatkan gimnastik Olimpik. Gimnas yang berguling mengalami dinamik putaran yang kompleks: pengekalan momentum sudut, momen inersia berubah-ubah apabila anggota badan memanjang dan mengecut, dan pemasaan yang tepat untuk penggunaan daya semasa berlepas dan mendarat.

Model video awal akan menjana bingkai individu yang mengagumkan gimnas di udara tetapi gagal teruk pada fizik. Putaran akan mempercepatkan atau memperlahankan secara rawak. Pendaratan akan berlaku di kedudukan yang mustahil. Badan akan berubah bentuk dengan cara yang melanggar batasan anatomi.

Sora 2 secara eksplisit menyerlahkan gimnastik Olimpik sebagai penanda aras yang kini dikendalikan dengan betul. Model menjejaki momentum sudut gimnas melalui keseluruhan rutin, mempercepatkan putaran apabila anggota badan ditarik masuk (kesan putaran peluncur ais) dan memperlahankan apabila ia dipanjangkan.

Pemahaman Bahan

Simulasi fizik melangkaui gerakan kepada sifat bahan. Bagaimana model mengetahui bahawa gelas pecah manakala getah melantun? Bahawa air percik manakala minyak bertakung? Bahawa logam berubah bentuk secara plastik manakala kayu patah?

Jawapannya terletak pada data latihan dan prior yang dipelajari model. Dengan melatih pada berjuta-juta video yang menunjukkan bahan berinteraksi dengan dunia, model membangunkan pemahaman bahan secara tersirat. Gelas yang jatuh pada konkrit menghasilkan hasil yang berbeza daripada gelas yang jatuh pada permaidani, dan model moden menangkap perbezaan ini.

🧱

Pengelasan Bahan

Model kini secara tersirat mengklasifikasikan objek mengikut sifat bahan: rapuh berbanding mulur, elastik berbanding plastik, boleh mampat berbanding tidak boleh mampat.

💨

Jenis Bendalir

Kelikatan bendalir dan tegangan permukaan yang berbeza dikendalikan dengan betul: air percik, madu meleleh, asap bergulung.

🔥

Fizik Pembakaran

Api dan letupan mengikuti perambatan haba dan dinamik gas yang realistik dan bukannya kesan zarah yang ringkas.

Had dan Kes Tepi

Walaupun dengan kemajuan ini, simulasi fizik dalam video AI masih tidak sempurna. Beberapa had yang diketahui masih wujud:

Kestabilan jangka panjang: Fizik kekal tepat selama 5-10 saat tetapi boleh menyimpang dalam tempoh yang lebih lama. Video yang dilanjutkan mungkin secara beransur-ansur melanggar undang-undang keabadian.

Sistem pelbagai objek yang kompleks: Walaupun dua objek berlanggar berfungsi dengan baik, pemandangan dengan berpuluh-puluh objek yang berinteraksi (seperti menara Jenga yang jatuh) boleh menghasilkan ralat.

Bahan yang luar biasa: Bias data latihan bermakna bahan biasa (air, gelas, logam) disimulasikan dengan lebih baik daripada yang eksotik (bendalir bukan-Newtonian, bahan magnetik).

Keadaan melampau: Fizik pada skala yang sangat kecil (molekul), skala yang sangat besar (astronomi), atau keadaan melampau (hampir kelajuan cahaya) sering gagal.

⚠️

Ketepatan simulasi fizik menurun dengan ketara untuk video yang lebih panjang daripada 30 saat. Untuk kandungan berbentuk panjang, pertimbangkan untuk menggunakan teknik pelanjutan video dengan perhatian teliti terhadap kesinambungan fizikal di sempadan.

Implikasi untuk Pencipta

Apakah maksud simulasi fizik yang diperbaiki untuk pencipta video?

Pertama, ia secara dramatik mengurangkan keperluan untuk pembetulan pasca-pengeluaran. Pemandangan yang sebelum ini memerlukan penyuntingan teliti untuk membetulkan kemustahilan fizikal kini dijana dengan betul kali pertama.

Kedua, ia membolehkan kemungkinan kreatif baharu. Simulasi fizik yang tepat bermakna mesin Rube Goldberg, urutan sukan, dan adegan aksi boleh dijana tanpa pembetulan manual yang teliti.

Ketiga, ia meningkatkan persepsi penonton. Penonton secara tidak sedar mengesan pelanggaran fizik, menjadikan video yang tepat secara fizikal terasa lebih nyata walaupun perbezaannya sukar untuk dinyatakan.

Jalan ke Hadapan

Simulasi fizik akan terus bertambah baik di sepanjang beberapa paksi:

Konsistensi temporal yang lebih panjang: Model semasa mengekalkan fizik selama beberapa saat, model masa depan akan mengekalkannya selama beberapa minit.

Interaksi yang lebih kompleks: Pemandangan dengan ratusan objek yang berinteraksi akan menjadi mungkin.

Enjin fizik yang dipelajari: Daripada fizik tersirat daripada data latihan, model masa depan mungkin menggabungkan simulasi fizik eksplisit sebagai komponen.

Fizik masa nyata: Pada masa ini penjanaan yang sedar fizik adalah perlahan, tetapi pengoptimuman boleh membolehkan penjanaan masa nyata dengan ketepatan fizikal.

Perjalanan daripada bola keranjang yang teleport kepada lantunan realistik mewakili salah satu kemajuan paling penting dalam penjanaan video AI. Model telah belajar, jika bukan untuk memahami fizik seperti cara manusia, sekurang-kurangnya untuk menghormati batasannya. Bagi pencipta, ini bermakna kurang pembetulan, lebih banyak kemungkinan, dan video yang terasa lebih nyata.

Cuba sendiri: Bonega.ai menggunakan Veo 3, yang menggabungkan simulasi fizik lanjutan untuk dinamik objek yang realistik. Jana pemandangan dengan fizik kompleks dan lihat bagaimana model mengendalikan graviti, perlanggaran, dan interaksi bahan.

Simulasi Fizik dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Realiti

Masalah Bola Keranjang

Tiga Tiang Pemahaman Fizik

World Models berbanding Ramalan Bingkai

Chain of Thought untuk Video

Temporal Attention pada Skala Besar

Penanda Aras Fizik Dunia Sebenar

Ujian Gimnas

Pemahaman Bahan

Pengelasan Bahan

Jenis Bendalir

Fizik Pembakaran

Had dan Kes Tepi

Implikasi untuk Pencipta

Jalan ke Hadapan

Alexis

Like what you read?

Artikel Berkaitan

World Models: Sempadan Baharu dalam Penjanaan Video AI

Konsistensi Watak dalam Video AI: Bagaimana Model Belajar Mengingat Wajah

Difusi Selari: Memecahkan Penghalang 5-Minit untuk Video AI

Suka artikel ini?