Meta Pixel
AlexisAlexis
8 min read
1424 kata

Simulasi Fisika dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Kenyataan

Dari bola basket yang teleportasi hingga pantulan realistis, model video AI kini memahami gravitasi, momentum, dan dinamika material. Kami menjelajahi terobosan teknis yang memungkinkan hal ini.

Simulasi Fisika dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Kenyataan

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Selama bertahun-tahun, video yang dihasilkan AI memiliki masalah fisika. Bola basket yang meleset dari ring akan teleportasi ke dalamnya. Air mengalir ke atas. Objek menembus satu sama lain seperti hantu. Pada tahun 2025 dan awal 2026, sesuatu berubah. Generasi terbaru model video telah belajar menghormati hukum fundamental dunia fisik.

Masalah Bola Basket

OpenAI menjelaskannya dengan sempurna saat meluncurkan Sora 2: pada model sebelumnya, jika bola basket meleset dari ring, bola tersebut akan muncul begitu saja di dalam jaring. Model mengetahui hasil naratif (bola masuk keranjang) tetapi tidak memiliki konsep tentang batasan fisik yang seharusnya mengatur perjalanan tersebut.

Ini bukan bug kecil. Ini merupakan gejala dari keterbatasan arsitektur fundamental. Model generasi video awal unggul dalam pencocokan pola visual, belajar menghasilkan frame yang terlihat masuk akal secara individual namun tetap tidak koheren secara fisik ketika dilihat secara berurutan.

šŸ’”

OpenAI secara eksplisit mencantumkan keterbatasan "morph object" sebagai masalah utama yang dirancang untuk diselesaikan Sora 2. Kesenjangan arsitektur ini telah membuat frustrasi para peneliti dan kreator.

Tiga Pilar Pemahaman Fisika

Terobosan dalam simulasi fisika bersandar pada tiga kemajuan yang saling terhubung: world modeling, penalaran chain-of-thought, dan mekanisme temporal attention yang ditingkatkan.

World Models vs Prediksi Frame

Generasi video tradisional memperlakukan tugas sebagai prediksi frame berurutan: diberikan frame 1 hingga N, prediksi frame N+1. Pendekatan ini secara inheren kesulitan dengan fisika karena tidak memiliki representasi eksplisit dari keadaan fisik yang mendasari.

World models mengambil pendekatan yang secara fundamental berbeda. Alih-alih memprediksi piksel secara langsung, mereka terlebih dahulu membangun representasi internal dari keadaan fisik scene, termasuk posisi objek, kecepatan, material, dan interaksi. Baru kemudian mereka merender keadaan ini menjadi frame visual. Pendekatan ini, yang dibahas secara mendalam dalam analisis world models kami, mewakili pergeseran paradigma dalam cara kita berpikir tentang generasi video.

āœ—Prediksi Frame

Memprediksi piksel dari piksel. Tidak ada fisika eksplisit. Rentan terhadap kesalahan teleportasi, tembus-menembus, dan pelanggaran gravitasi. Cepat tetapi tidak koheren secara fisik.

āœ“World Models

Mensimulasikan keadaan fisik terlebih dahulu. Pelacakan objek eksplisit. Menghormati hukum konservasi dan dinamika tabrakan. Lebih berat secara komputasi tetapi memiliki dasar fisik yang kuat.

Chain of Thought untuk Video

Kling O1, yang dirilis pada akhir 2025, memperkenalkan penalaran chain-of-thought ke generasi video. Sebelum menghasilkan frame, model secara eksplisit bernalar tentang apa yang seharusnya terjadi secara fisik dalam scene.

Untuk scene gelas jatuh dari meja, model terlebih dahulu bernalar:

  • Gelas memiliki kecepatan awal nol, posisi di tepi meja
  • Gravitasi mempercepat gelas ke bawah pada 9,8 m/s²
  • Gelas menyentuh lantai setelah sekitar 0,45 detik
  • Material gelas rapuh, lantai adalah permukaan keras
  • Benturan melebihi ambang patah, gelas pecah
  • Pecahan berhamburan dengan konservasi momentum

Langkah penalaran eksplisit ini terjadi di ruang laten model sebelum piksel apa pun dihasilkan. Hasilnya adalah video yang menghormati tidak hanya estetika visual tetapi juga rantai kausal.

Temporal Attention dalam Skala Besar

Fondasi arsitektur yang memungkinkan kemajuan ini adalah temporal attention, mekanisme yang memungkinkan model video mempertahankan konsistensi di seluruh frame. Arsitektur diffusion transformer yang menggerakkan model video modern memproses video sebagai patch ruang-waktu, memungkinkan attention mengalir baik secara spasial dalam frame maupun secara temporal di seluruh frame.

Model video modern memproses jutaan patch ruang-waktu per video, dengan attention head khusus yang didedikasikan untuk konsistensi fisik. Skala ini memungkinkan model melacak identitas objek dan keadaan fisik di ratusan frame, menjaga koherensi yang tidak mungkin dicapai dengan arsitektur sebelumnya.

Benchmark Fisika Dunia Nyata

Bagaimana sebenarnya kita mengukur kualitas simulasi fisika? Bidang ini telah mengembangkan beberapa tes standar:

BenchmarkMengujiPemimpin
Object PermanenceObjek tetap ada saat terhalangSora 2, Veo 3
Gravity ConsistencyAkselerasi jatuh bebas seragamKling O1, Runway Gen-4.5
Collision RealismObjek memantul, berubah bentuk, atau pecah dengan tepatSora 2, Veo 3.1
Fluid DynamicsAir, asap, dan kain tersimulasi secara realistisKling 2.6
Momentum ConservationGerakan berpindah dengan benar antar objekSora 2

Model Kling secara konsisten unggul dalam dinamika fluida, dengan simulasi air dan fisika kain yang sangat mengesankan. Sora 2 dari OpenAI memimpin dalam realisme tabrakan dan konservasi momentum, menangani interaksi multi-objek yang kompleks dengan akurasi yang mengesankan.

šŸ’”

Untuk simulasi air, asap, dan kain, model Kling saat ini menawarkan fisika paling realistis. Untuk tabrakan multi-benda yang kompleks dan skenario olahraga, Sora 2 adalah pilihan yang lebih kuat.

Tes Pesenam

Salah satu benchmark fisika yang paling menuntut melibatkan senam Olimpiade. Pesenam yang berguling mengalami dinamika rotasi yang kompleks: konservasi momentum sudut, momen inersia variabel saat anggota tubuh memanjang dan berkontraksi, dan waktu yang tepat untuk penerapan gaya saat lepas landas dan mendarat.

Model video awal akan menghasilkan frame individual yang mengesankan dari pesenam di udara tetapi gagal total pada fisika. Rotasi akan mempercepat atau melambat secara acak. Pendaratan akan terjadi di posisi yang tidak mungkin. Tubuh akan berubah bentuk dengan cara yang melanggar batasan anatomis.

Sora 2 secara eksplisit menyoroti senam Olimpiade sebagai benchmark yang sekarang ditangani dengan benar. Model melacak momentum sudut pesenam melalui seluruh rutinitas, mempercepat rotasi saat anggota tubuh ditarik ke dalam (efek putaran ice skater) dan memperlambat saat mereka dipanjangkan.

Pemahaman Material

Simulasi fisika melampaui gerakan hingga ke properti material. Bagaimana model mengetahui bahwa gelas pecah sementara karet memantul? Bahwa air terciprat sementara minyak menggenang? Bahwa logam berubah bentuk secara plastis sementara kayu patah?

Jawabannya terletak pada data pelatihan dan prior yang dipelajari model. Dengan melatih pada jutaan video yang menunjukkan material berinteraksi dengan dunia, model mengembangkan pemahaman material implisit. Gelas yang jatuh di beton menghasilkan hasil yang berbeda dari gelas yang jatuh di karpet, dan model modern menangkap perbedaan ini.

🧱

Klasifikasi Material

Model kini secara implisit mengklasifikasikan objek berdasarkan properti material: rapuh vs ulet, elastis vs plastis, dapat dimampatkan vs tidak dapat dimampatkan.

šŸ’Ø

Jenis Fluida

Viskositas fluida dan tegangan permukaan yang berbeda ditangani dengan benar: air terciprat, madu menetes, asap mengepul.

šŸ”„

Fisika Pembakaran

Api dan ledakan mengikuti propagasi panas dan dinamika gas yang realistis, bukan sekadar efek partikel sederhana.

Keterbatasan dan Kasus Tepi

Meskipun ada kemajuan ini, simulasi fisika dalam video AI masih belum sempurna. Beberapa keterbatasan yang diketahui tetap ada:

Stabilitas jangka panjang: Fisika tetap akurat selama 5-10 detik tetapi dapat menyimpang dalam durasi yang lebih lama. Video yang diperpanjang mungkin secara bertahap melanggar hukum konservasi.

Sistem multi-benda yang kompleks: Meskipun dua objek bertabrakan bekerja dengan baik, scene dengan puluhan objek yang berinteraksi (seperti menara Jenga yang jatuh) dapat menghasilkan kesalahan.

Material yang tidak biasa: Bias data pelatihan berarti material umum (air, gelas, logam) tersimulasi lebih baik daripada yang eksotis (fluida non-Newtonian, material magnetik).

Kondisi ekstrem: Fisika pada skala sangat kecil (molekuler), skala sangat besar (astronomis), atau kondisi ekstrem (mendekati kecepatan cahaya) sering gagal.

āš ļø

Akurasi simulasi fisika menurun secara signifikan untuk video yang lebih lama dari 30 detik. Untuk konten berdurasi panjang, pertimbangkan menggunakan teknik ekstensi video dengan perhatian cermat pada kontinuitas fisik di batas-batas.

Implikasi bagi Kreator

Apa arti simulasi fisika yang lebih baik bagi kreator video?

Pertama, ini secara dramatis mengurangi kebutuhan akan perbaikan pasca produksi. Scene yang sebelumnya memerlukan pengeditan cermat untuk memperbaiki ketidakmungkinan fisik kini dihasilkan dengan benar sejak pertama kali.

Kedua, ini memungkinkan kemungkinan kreatif baru. Simulasi fisika yang akurat berarti mesin Rube Goldberg, sekuens olahraga, dan scene aksi dapat dihasilkan tanpa koreksi manual yang melelahkan.

Ketiga, ini meningkatkan persepsi penonton. Penonton secara bawah sadar mendeteksi pelanggaran fisika, membuat video yang akurat secara fisik terasa lebih nyata meskipun perbedaannya sulit diartikulasikan.

Jalan ke Depan

Simulasi fisika akan terus meningkat di sepanjang beberapa sumbu:

Konsistensi temporal yang lebih lama: Model saat ini mempertahankan fisika selama detik, model masa depan akan mempertahankannya selama menit.

Interaksi yang lebih kompleks: Scene dengan ratusan objek yang berinteraksi akan menjadi layak.

Mesin fisika yang dipelajari: Daripada fisika implisit dari data pelatihan, model masa depan mungkin menggabungkan simulasi fisika eksplisit sebagai komponen.

Fisika real-time: Saat ini generasi yang sadar fisika lambat, tetapi optimisasi dapat memungkinkan generasi real-time dengan akurasi fisik.

Perjalanan dari bola basket yang teleportasi ke pantulan realistis mewakili salah satu kemajuan paling signifikan dalam generasi video AI. Model telah belajar, jika tidak untuk memahami fisika dengan cara manusia, setidaknya untuk menghormati batasannya. Bagi kreator, ini berarti lebih sedikit koreksi, lebih banyak kemungkinan, dan video yang terasa lebih nyata.

Cobalah sendiri: Bonega.ai menggunakan Veo 3, yang menggabungkan simulasi fisika canggih untuk dinamika objek yang realistis. Hasilkan scene dengan fisika kompleks dan lihat bagaimana model menangani gravitasi, tabrakan, dan interaksi material.

Apakah artikel ini bermanfaat?

Alexis

Alexis

Insinyur AI

Insinyur AI dari Lausanne yang menggabungkan kedalaman riset dengan inovasi praktis. Membagi waktu antara arsitektur model dan puncak alpine.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Artikel Terkait

Lanjutkan eksplorasi dengan postingan terkait ini

Suka dengan artikel ini?

Temukan lebih banyak wawasan dan ikuti terus konten terbaru kami.

Simulasi Fisika dalam Video AI: Bagaimana Model Akhirnya Belajar Menghormati Kenyataan