Meta Pixel
AlexisAlexis
11 min read
2168 từ

Mô phỏng Vật lý trong Video AI: Các Mô hình Cuối cùng Đã Học Cách Tôn trọng Thực tế

Từ những quả bóng rổ dịch chuyển tức thời đến những cú nảy chân thực, các mô hình video AI giờ đây đã hiểu trọng lực, động lượng và động lực học vật liệu. Chúng tôi khám phá những đột phá kỹ thuật làm nên điều này.

Mô phỏng Vật lý trong Video AI: Các Mô hình Cuối cùng Đã Học Cách Tôn trọng Thực tế

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Trong nhiều năm, video do AI tạo ra có vấn đề về vật lý. Bóng rổ ném trượt rổ nhưng vẫn dịch chuyển tức thời vào trong. Nước chảy ngược lên. Các vật thể xuyên qua nhau như những bóng ma. Vào năm 2025 và đầu năm 2026, mọi thứ đã thay đổi. Thế hệ mô hình video mới nhất đã học cách tôn trọng các quy luật cơ bản của thế giới vật chất.

Vấn đề Bóng rổ

OpenAI đã mô tả điều này một cách hoàn hảo khi ra mắt Sora 2: trong các mô hình trước đó, nếu một quả bóng rổ ném trượt rổ, nó sẽ đơn giản xuất hiện bên trong lưới. Mô hình biết kết quả câu chuyện (bóng vào rổ) nhưng không có khái niệm về các ràng buộc vật lý chi phối hành trình đó.

Đây không phải là lỗi nhỏ. Đó là triệu chứng của một hạn chế kiến trúc cơ bản. Các mô hình tạo video ban đầu giỏi khớp mẫu hình ảnh, học cách tạo ra các khung hình trông hợp lý riêng lẻ nhưng không nhất quán về mặt vật lý khi xem liên tục.

💡

OpenAI đã liệt kê rõ ràng hạn chế "biến đổi vật thể" là vấn đề chính mà Sora 2 được thiết kế để giải quyết. Khoảng trống kiến trúc này đã khiến cả nhà nghiên cứu và người sáng tạo thất vọng.

Ba Trụ cột của Hiểu biết Vật lý

Đột phá trong mô phỏng vật lý dựa trên ba tiến bộ liên kết: mô hình thế giới, suy luận chuỗi tư duy và cơ chế chú ý thời gian được cải tiến.

Mô hình Thế giới vs Dự đoán Khung hình

Tạo video truyền thống xử lý nhiệm vụ như dự đoán khung hình tuần tự: cho các khung hình từ 1 đến N, dự đoán khung hình N+1. Cách tiếp cận này vốn gặp khó khăn với vật lý vì không có biểu diễn rõ ràng về trạng thái vật lý cơ bản.

Mô hình thế giới áp dụng cách tiếp cận khác biệt cơ bản. Thay vì dự đoán pixel trực tiếp, chúng trước tiên xây dựng biểu diễn nội bộ về trạng thái vật lý của cảnh, bao gồm vị trí vật thể, vận tốc, vật liệu và tương tác. Chỉ sau đó chúng mới render trạng thái này thành khung hình trực quan. Cách tiếp cận này, được khám phá sâu trong phân tích mô hình thế giới của chúng tôi, đại diện cho sự thay đổi mô hình trong cách chúng ta nghĩ về tạo video.

Dự đoán Khung hình

Dự đoán pixel từ pixel. Không có vật lý rõ ràng. Dễ bị dịch chuyển tức thời, lỗi xuyên qua và vi phạm trọng lực. Nhanh nhưng không nhất quán vật lý.

Mô hình Thế giới

Mô phỏng trạng thái vật lý trước. Theo dõi vật thể rõ ràng. Tôn trọng các định luật bảo toàn và động lực học va chạm. Tốn tính toán hơn nhưng có cơ sở vật lý.

Chuỗi Tư duy cho Video

Kling O1, ra mắt cuối năm 2025, đã giới thiệu suy luận chuỗi tư duy vào tạo video. Trước khi tạo khung hình, mô hình suy luận rõ ràng về những gì sẽ xảy ra về mặt vật lý trong cảnh.

Với cảnh một chiếc ly rơi khỏi bàn, mô hình trước tiên suy luận:

  • Ly có vận tốc ban đầu bằng không, vị trí ở mép bàn
  • Trọng lực gia tốc ly xuống với 9.8 m/s²
  • Ly chạm sàn sau khoảng 0.45 giây
  • Vật liệu ly là giòn, sàn là bề mặt cứng
  • Tác động vượt ngưỡng vỡ, ly vỡ tan
  • Mảnh vỡ văng ra theo bảo toàn động lượng

Bước suy luận rõ ràng này xảy ra trong không gian tiềm ẩn của mô hình trước khi bất kỳ pixel nào được tạo ra. Kết quả là video tôn trọng không chỉ thẩm mỹ hình ảnh mà còn chuỗi nhân quả.

Chú ý Thời gian ở Quy mô Lớn

Nền tảng kiến trúc cho phép những tiến bộ này là chú ý thời gian, cơ chế mà các mô hình video duy trì tính nhất quán giữa các khung hình. Kiến trúc transformer khuếch tán hỗ trợ các mô hình video hiện đại xử lý video như các mảnh không-thời gian, cho phép chú ý chảy cả trong không gian trong khung hình và theo thời gian giữa các khung hình.

Các mô hình video hiện đại xử lý hàng triệu mảnh không-thời gian cho mỗi video, với các đầu chú ý chuyên biệt dành riêng cho tính nhất quán vật lý. Quy mô này cho phép mô hình theo dõi danh tính vật thể và trạng thái vật lý qua hàng trăm khung hình, duy trì sự mạch lạc không thể có với các kiến trúc trước đó.

Benchmark Vật lý Thực tế

Chúng ta thực sự đo lường chất lượng mô phỏng vật lý như thế nào? Lĩnh vực này đã phát triển một số bài kiểm tra tiêu chuẩn:

BenchmarkKiểm traDẫn đầu
Tính thường trực vật thểVật thể tồn tại khi bị che khuấtSora 2, Veo 3
Tính nhất quán trọng lựcGia tốc rơi tự do đồng đềuKling O1, Runway Gen-4.5
Độ chân thực va chạmVật thể nảy, biến dạng hoặc vỡ phù hợpSora 2, Veo 3.1
Động lực học chất lỏngNước, khói và vải mô phỏng chân thựcKling 2.6
Bảo toàn động lượngChuyển động truyền đúng giữa các vật thểSora 2

Các mô hình Kling luôn xuất sắc trong động lực học chất lỏng, với mô phỏng nước và vật lý vải đặc biệt ấn tượng. Sora 2 của OpenAI dẫn đầu về độ chân thực va chạm và bảo toàn động lượng, xử lý các tương tác đa vật thể phức tạp với độ chính xác ấn tượng.

💡

Với mô phỏng nước, khói và vải, các mô hình Kling hiện cung cấp vật lý chân thực nhất. Với các va chạm đa vật thể phức tạp và kịch bản thể thao, Sora 2 là lựa chọn mạnh hơn.

Bài Kiểm tra Vận động viên Thể dục

Một trong những benchmark vật lý đòi hỏi nhất liên quan đến thể dục dụng cụ Olympic. Một vận động viên thể dục nhào lộn trải qua động lực học quay phức tạp: bảo toàn động lượng góc, mômen quán tính thay đổi khi tay chân duỗi và co lại, và thời điểm chính xác của lực áp dụng cho giậm nhảy và tiếp đất.

Các mô hình video ban đầu có thể tạo ra các khung hình đơn lẻ ấn tượng của vận động viên thể dục giữa không trung nhưng thất bại thảm hại về vật lý. Vòng quay tăng tốc hoặc giảm tốc ngẫu nhiên. Tiếp đất xảy ra ở các vị trí bất khả thi. Cơ thể biến dạng theo cách vi phạm các ràng buộc giải phẫu.

Sora 2 đã nhấn mạnh rõ ràng thể dục dụng cụ Olympic như một benchmark mà nó hiện xử lý đúng. Mô hình theo dõi động lượng góc của vận động viên thể dục trong toàn bộ bài biểu diễn, tăng tốc vòng quay khi tay chân co lại (hiệu ứng quay trượt băng nghệ thuật) và giảm tốc khi chúng duỗi ra.

Hiểu biết về Vật liệu

Mô phỏng vật lý mở rộng ra ngoài chuyển động đến các thuộc tính vật liệu. Làm thế nào một mô hình biết rằng thủy tinh vỡ trong khi cao su nảy? Nước bắn tung trong khi dầu đọng lại? Kim loại biến dạng dẻo trong khi gỗ gãy?

Câu trả lời nằm ở dữ liệu huấn luyện và các tiên nghiệm học được của mô hình. Bằng cách huấn luyện trên hàng triệu video cho thấy vật liệu tương tác với thế giới, mô hình phát triển sự hiểu biết vật liệu ngầm định. Một chiếc ly rơi trên bê tông tạo ra kết quả khác với ly rơi trên thảm, và các mô hình hiện đại nắm bắt sự khác biệt này.

🧱

Phân loại Vật liệu

Các mô hình hiện phân loại ngầm định các vật thể theo thuộc tính vật liệu: giòn vs dẻo, đàn hồi vs dẻo, nén được vs không nén được.

💨

Loại Chất lỏng

Các độ nhớt chất lỏng và sức căng bề mặt khác nhau được xử lý đúng: nước bắn tung, mật ong nhỏ giọt, khói cuộn.

🔥

Vật lý Cháy nổ

Lửa và vụ nổ tuân theo sự lan truyền nhiệt và động lực học khí thực tế thay vì hiệu ứng hạt đơn giản.

Hạn chế và Trường hợp Biên

Mặc dù có những tiến bộ này, mô phỏng vật lý trong video AI vẫn chưa hoàn hảo. Một số hạn chế đã biết vẫn tồn tại:

Ổn định dài hạn: Vật lý vẫn chính xác trong 5-10 giây nhưng có thể trôi trong thời gian dài hơn. Video mở rộng có thể dần dần vi phạm các định luật bảo toàn.

Hệ thống đa vật thể phức tạp: Trong khi hai vật thể va chạm hoạt động tốt, các cảnh với hàng chục vật thể tương tác (như tháp Jenga đổ) có thể tạo ra lỗi.

Vật liệu bất thường: Thiên lệch dữ liệu huấn luyện có nghĩa là các vật liệu phổ biến (nước, thủy tinh, kim loại) mô phỏng tốt hơn các vật liệu kỳ lạ (chất lỏng phi Newton, vật liệu từ tính).

Điều kiện cực đoan: Vật lý ở quy mô rất nhỏ (phân tử), quy mô rất lớn (thiên văn), hoặc điều kiện cực đoan (gần tốc độ ánh sáng) thường thất bại.

⚠️

Độ chính xác mô phỏng vật lý giảm đáng kể với các video dài hơn 30 giây. Với nội dung dài, hãy cân nhắc sử dụng kỹ thuật mở rộng video với sự chú ý cẩn thận đến tính liên tục vật lý tại các ranh giới.

Ý nghĩa cho Người Sáng tạo

Mô phỏng vật lý được cải thiện có ý nghĩa gì với người sáng tạo video?

Đầu tiên, nó giảm đáng kể nhu cầu chỉnh sửa hậu kỳ. Các cảnh trước đây cần chỉnh sửa cẩn thận để sửa các bất khả thi vật lý giờ tạo ra đúng ngay lần đầu.

Thứ hai, nó mở ra khả năng sáng tạo mới. Mô phỏng vật lý chính xác có nghĩa là các máy Rube Goldberg, chuỗi thể thao và cảnh hành động có thể được tạo ra mà không cần chỉnh sửa thủ công tốn công.

Thứ ba, nó cải thiện nhận thức của người xem. Người xem vô thức phát hiện các vi phạm vật lý, làm cho các video chính xác về mặt vật lý cảm thấy thực hơn ngay cả khi khó diễn đạt sự khác biệt.

Con đường Phía trước

Mô phỏng vật lý sẽ tiếp tục cải thiện theo nhiều hướng:

Tính nhất quán thời gian dài hơn: Các mô hình hiện tại duy trì vật lý trong vài giây, các mô hình tương lai sẽ duy trì trong vài phút.

Tương tác phức tạp hơn: Các cảnh với hàng trăm vật thể tương tác sẽ trở nên khả thi.

Engine vật lý học được: Thay vì vật lý ngầm định từ dữ liệu huấn luyện, các mô hình tương lai có thể tích hợp mô phỏng vật lý rõ ràng như một thành phần.

Vật lý thời gian thực: Hiện tại việc tạo nhận biết vật lý chậm, nhưng tối ưu hóa có thể cho phép tạo thời gian thực với độ chính xác vật lý.

Hành trình từ những quả bóng rổ dịch chuyển tức thời đến những cú nảy chân thực đại diện cho một trong những tiến bộ quan trọng nhất trong tạo video AI. Các mô hình đã học cách tôn trọng các ràng buộc của vật lý, nếu không phải là hiểu vật lý theo cách con người làm. Với người sáng tạo, điều này có nghĩa là ít chỉnh sửa hơn, nhiều khả năng hơn, và các video đơn giản là cảm thấy thực hơn.

Hãy tự trải nghiệm: Bonega.ai sử dụng Veo 3, tích hợp mô phỏng vật lý tiên tiến cho động lực học vật thể chân thực. Tạo các cảnh với vật lý phức tạp và xem mô hình xử lý trọng lực, va chạm và tương tác vật liệu như thế nào.

Bài viết này có hữu ích không?

Alexis

Alexis

Kỹ sư AI

Kỹ sư AI đến từ Lausanne, kết hợp chiều sâu nghiên cứu với đổi mới thực tiễn. Chia thời gian giữa kiến trúc mô hình và những đỉnh núi Alps.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Bài viết liên quan

Tiếp tục khám phá với những bài viết liên quan

Bạn có thích bài viết này không?

Khám phá thêm thông tin chi tiết và cập nhật những nội dung mới nhất của chúng tôi.

Mô phỏng Vật lý trong Video AI: Các Mô hình Cuối cùng Đã Học Cách Tôn trọng Thực tế