การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร

เป็นเวลาหลายปีที่วิดีโอที่สร้างโดย AI มีปัญหาด้านฟิสิกส์ ลูกบาสเก็ตบอลที่พลาดห่วงจะเทเลพอร์ตเข้าไปในนั้นอยู่ดี น้ำไหลขึ้นด้านบน วัตถุทะลุผ่านกันเหมือนผี ในปี 2025 และต้นปี 2026 มีบางอย่างเปลี่ยนไป โมเดลวิดีโอรุ่นล่าสุดได้เรียนรู้ที่จะเคารพกฎพื้นฐานของโลกทางกายภาพ

ปัญหาลูกบาสเก็ตบอล

OpenAI อธิบายได้อย่างสมบูรณ์แบบเมื่อเปิดตัว Sora 2: ในโมเดลก่อนหน้า หากลูกบาสเก็ตบอลพลาดห่วง มันจะปรากฏขึ้นในตาข่ายอยู่ดี โมเดลรู้ผลลัพธ์ของเรื่องราว (บอลเข้าตะกร้า) แต่ไม่มีแนวคิดเกี่ยวกับข้อจำกัดทางกายภาพที่ควรควบคุมเส้นทาง

นี่ไม่ใช่บั๊กเล็กน้อย มันเป็นอาการของข้อจำกัดทางสถาปัตยกรรมพื้นฐาน โมเดลสร้างวิดีโอรุ่นแรกเก่งในการจับคู่รูปแบบภาพ เรียนรู้ที่จะสร้างเฟรมที่ดูน่าเชื่อถือเป็นรายบุคคล แต่ยังคงไม่สอดคล้องทางฟิสิกส์เมื่อดูตามลำดับ

💡

OpenAI ระบุข้อจำกัด "morph object" อย่างชัดเจนว่าเป็นปัญหาหลักที่ Sora 2 ได้รับการออกแบบมาเพื่อแก้ไข ช่องว่างทางสถาปัตยกรรมนี้ทำให้นักวิจัยและครีเอเตอร์หงุดหงิด

สามเสาหลักของความเข้าใจฟิสิกส์

ความก้าวหน้าในการจำลองฟิสิกส์ตั้งอยู่บนความก้าวหน้าสามประการที่เชื่อมโยงกัน: world modeling, การใช้เหตุผลแบบ chain-of-thought และกลไก temporal attention ที่ได้รับการปรับปรุง

World Models เทียบกับ การทำนายเฟรม

การสร้างวิดีโอแบบดั้งเดิมถือว่างานนี้เป็นการทำนายเฟรมตามลำดับ: เมื่อให้เฟรม 1 ถึง N ทำนายเฟรม N+1 วิธีนี้มีปัญหากับฟิสิกส์โดยธรรมชาติเพราะไม่มีการแสดงสถานะทางกายภาพพื้นฐานอย่างชัดเจน

World models ใช้วิธีที่แตกต่างกันโดยพื้นฐาน แทนที่จะทำนายพิกเซลโดยตรง พวกมันจะสร้างการแสดงภายในของสถานะทางกายภาพของฉากก่อน รวมถึงตำแหน่งวัตถุ ความเร็ว วัสดุ และปฏิสัมพันธ์ จากนั้นจึงเรนเดอร์สถานะนี้เป็นเฟรมภาพ วิธีนี้ที่สำรวจอย่างลึกซึ้งในการวิเคราะห์ world models ของเรา แสดงถึงการเปลี่ยนกระบวนทัศน์ในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ

✗การทำนายเฟรม

ทำนายพิกเซลจากพิกเซล ไม่มีฟิสิกส์อย่างชัดเจน มีแนวโน้มที่จะเกิดข้อผิดพลาดเทเลพอร์ต ทะลุผ่าน และละเมิดแรงโน้มถ่วง เร็วแต่ไม่สอดคล้องทางกายภาพ

✓World Models

จำลองสถานะทางกายภาพก่อน การติดตามวัตถุอย่างชัดเจน เคารพกฎการอนุรักษ์และพลวัตการชน ใช้การคำนวณมากขึ้นแต่มีพื้นฐานทางกายภาพ

Chain of Thought สำหรับวิดีโอ

Kling O1 ที่เปิดตัวในช่วงปลายปี 2025 นำเสนอการใช้เหตุผลแบบ chain-of-thought มาสู่การสร้างวิดีโอ ก่อนสร้างเฟรม โมเดลจะใช้เหตุผลอย่างชัดเจนเกี่ยวกับสิ่งที่ควรเกิดขึ้นทางกายภาพในฉาก

สำหรับฉากแก้วตกจากโต๊ะ โมเดลจะใช้เหตุผลก่อน:

แก้วมีความเร็วเริ่มต้นเป็นศูนย์ ตำแหน่งอยู่ที่ขอบโต๊ะ
แรงโน้มถ่วงเร่งแก้วลงด้วยความเร่ง 9.8 m/s²
แก้วสัมผัสพื้นหลังจากประมาณ 0.45 วินาที
วัสดุแก้วเปราะ พื้นเป็นพื้นผิวแข็ง
การกระแทกเกินเกณฑ์การแตกหัก แก้วแตก
เศษแก้วกระจายด้วยการอนุรักษ์โมเมนตัม

ขั้นตอนการใช้เหตุผลอย่างชัดเจนนี้เกิดขึ้นในพื้นที่แฝงของโมเดลก่อนที่จะสร้างพิกเซลใดๆ ผลลัพธ์คือวิดีโอที่เคารพไม่เพียงแต่สุนทรียศาสตร์ภาพแต่ยังรวมถึงห่วงโซ่เชิงสาเหตุ

Temporal Attention ในระดับใหญ่

รากฐานทางสถาปัตยกรรมที่เปิดใช้งานความก้าวหน้าเหล่านี้คือ temporal attention ซึ่งเป็นกลไกที่โมเดลวิดีโอรักษาความสอดคล้องข้ามเฟรม สถาปัตยกรรม diffusion transformer ที่ขับเคลื่อนโมเดลวิดีโอสมัยใหม่ประมวลผลวิดีโอเป็นแพทช์กาล-อวกาศ อนุญาตให้ attention ไหลทั้งเชิงพื้นที่ภายในเฟรมและเชิงเวลาข้ามเฟรม

โมเดลวิดีโอสมัยใหม่ประมวลผลแพทช์กาล-อวกาศหลายล้านแพทช์ต่อวิดีโอ โดยมี attention head เฉพาะทางที่อุทิศให้กับความสอดคล้องทางกายภาพ ระดับนี้อนุญาตให้โมเดลติดตามเอกลักษณ์วัตถุและสถานะทางกายภาพข้ามหลายร้อยเฟรม รักษาความสอดคล้องที่เป็นไปไม่ได้ด้วยสถาปัตยกรรมก่อนหน้า

เกณฑ์มาตรฐานฟิสิกส์ในโลกแห่งความเป็นจริง

เราวัดคุณภาพการจำลองฟิสิกส์ได้อย่างไร? สาขานี้ได้พัฒนาการทดสอบมาตรฐานหลายรายการ:

เกณฑ์มาตรฐาน	ทดสอบ	ผู้นำ
Object Permanence	วัตถุคงอยู่เมื่อถูกบัง	Sora 2, Veo 3
Gravity Consistency	ความเร่งการตกอิสระสม่ำเสมอ	Kling O1, Runway Gen-4.5
Collision Realism	วัตถุเด้ง เสียรูป หรือแตกอย่างเหมาะสม	Sora 2, Veo 3.1
Fluid Dynamics	น้ำ ควัน และผ้าจำลองอย่างสมจริง	Kling 2.6
Momentum Conservation	การเคลื่อนไหวถ่ายโอนอย่างถูกต้องระหว่างวัตถุ	Sora 2

โมเดล Kling มีความเป็นเลิศอย่างสม่ำเสมอในพลศาสตร์ของไหล โดยมีการจำลองน้ำและฟิสิกส์ผ้าที่น่าประทับใจเป็นพิเศษ Sora 2 ของ OpenAI นำในด้านความสมจริงของการชนและการอนุรักษ์โมเมนตัม จัดการปฏิสัมพันธ์หลายวัตถุที่ซับซ้อนด้วยความแม่นยำที่น่าประทับใจ

💡

สำหรับการจำลองน้ำ ควัน และผ้า โมเดล Kling ในปัจจุบันเสนอฟิสิกส์ที่สมจริงที่สุด สำหรับการชนหลายวัตถุที่ซับซ้อนและสถานการณ์กีฬา Sora 2 เป็นตัวเลือกที่แข็งแกร่งกว่า

การทดสอบนักยิมนาสติก

หนึ่งในเกณฑ์มาตรฐานฟิสิกส์ที่ท้าทายที่สุดเกี่ยวข้องกับยิมนาสติกโอลิมปิก นักยิมนาสติกที่กลิ้งตัวผ่านพลวัตการหมุนที่ซับซ้อน: การอนุรักษ์โมเมนตัมเชิงมุม โมเมนต์ความเฉื่อยที่แปรผันเมื่อแขนขาเหยียดและหดตัว และเวลาที่แม่นยำของการใช้แรงสำหรับการกระโดดและการลงพื้น

โมเดลวิดีโอรุ่นแรกจะสร้างเฟรมเดี่ยวที่น่าประทับใจของนักยิมนาสติกกลางอากาศแต่ล้มเหลวอย่างร้ายแรงในด้านฟิสิกส์ การหมุนจะเร็วขึ้นหรือช้าลงแบบสุ่ม การลงพื้นจะเกิดขึ้นในตำแหน่งที่เป็นไปไม่ได้ ร่างกายจะเสียรูปในลักษณะที่ละเมิดข้อจำกัดทางกายวิภาค

Sora 2 เน้นยิมนาสติกโอลิมปิกอย่างชัดเจนว่าเป็นเกณฑ์มาตรฐานที่ตอนนี้จัดการได้อย่างถูกต้อง โมเดลติดตามโมเมนตัมเชิงมุมของนักยิมนาสติกตลอดทั้งรูทีน เร่งการหมุนเมื่อแขนขาดึงเข้า (เอฟเฟกต์การหมุนของนักสเก็ตน้ำแข็ง) และชะลอเมื่อเหยียดออก

ความเข้าใจวัสดุ

การจำลองฟิสิกส์ขยายเกินกว่าการเคลื่อนที่ไปสู่คุณสมบัติของวัสดุ โมเดลรู้ได้อย่างไรว่าแก้วแตกในขณะที่ยางเด้ง? ว่าน้ำกระเซ็นในขณะที่น้ำมันนิ่ง? ว่าโลหะเสียรูปอย่างพลาสติกในขณะที่ไม้หัก?

คำตอบอยู่ในข้อมูลการฝึกและไพรเออร์ที่เรียนรู้ของโมเดล โดยการฝึกบนวิดีโอหลายล้านรายการที่แสดงวัสดุโต้ตอบกับโลก โมเดลพัฒนาความเข้าใจวัสดุโดยนัย แก้วที่ตกบนคอนกรีตให้ผลลัพธ์ที่แตกต่างจากแก้วที่ตกบนพรม และโมเดลสมัยใหม่จับความแตกต่างนี้ได้

🧱

การจำแนกวัสดุ

โมเดลในปัจจุบันจำแนกวัตถุโดยนัยตามคุณสมบัติของวัสดุ: เปราะเทียบกับเหนียว ยืดหยุ่นเทียบกับพลาสติก บีบอัดได้เทียบกับบีบอัดไม่ได้

💨

ประเภทของไหล

ความหนืดของไหลและแรงตึงผิวที่แตกต่างกันถูกจัดการอย่างถูกต้อง: น้ำกระเซ็น น้ำผึ้งหยด ควันลอย

🔥

ฟิสิกส์การเผาไหม้

ไฟและการระเบิดเป็นไปตามการแพร่กระจายความร้อนและพลศาสตร์ก๊าซที่สมจริง แทนที่จะเป็นเอฟเฟกต์อนุภาคง่ายๆ

ข้อจำกัดและกรณีพิเศษ

แม้จะมีความก้าวหน้าเหล่านี้ การจำลองฟิสิกส์ในวิดีโอ AI ยังคงไม่สมบูรณ์แบบ ข้อจำกัดที่ทราบหลายประการยังคงมีอยู่:

ความเสถียรระยะยาว: ฟิสิกส์ยังคงแม่นยำเป็นเวลา 5-10 วินาที แต่อาจเบี่ยงเบนในระยะเวลานานขึ้น วิดีโอที่ขยายอาจละเมิดกฎการอนุรักษ์ทีละน้อย

ระบบหลายวัตถุที่ซับซ้อน: แม้ว่าวัตถุสองชิ้นชนกันทำงานได้ดี ฉากที่มีวัตถุโต้ตอบกันหลายสิบชิ้น (เช่น หอ Jenga ที่ล้ม) อาจเกิดข้อผิดพลาด

วัสดุที่ไม่ปกติ: อคติข้อมูลการฝึกหมายความว่าวัสดุทั่วไป (น้ำ แก้ว โลหะ) จำลองได้ดีกว่าวัสดุแปลกใหม่ (ของไหลนอน-นิวโทเนียน วัสดุแม่เหล็ก)

สภาวะสุดขั้ว: ฟิสิกส์ในระดับเล็กมาก (โมเลกุล) ระดับใหญ่มาก (ดาราศาสตร์) หรือสภาวะสุดขั้ว (ใกล้ความเร็วแสง) มักล้มเหลว

⚠️

ความแม่นยำของการจำลองฟิสิกส์ลดลงอย่างมากสำหรับวิดีโอที่ยาวกว่า 30 วินาที สำหรับเนื้อหาระยะยาว พิจารณาใช้เทคนิคการขยายวิดีโอ โดยให้ความสนใจอย่างรอบคอบต่อความต่อเนื่องทางกายภาพที่ขอบเขต

ผลกระทบสำหรับครีเอเตอร์

การจำลองฟิสิกส์ที่ดีขึ้นหมายความว่าอย่างไรสำหรับครีเอเตอร์วิดีโอ?

ประการแรก มันลดความจำเป็นในการแก้ไขหลังการผลิตอย่างมาก ฉากที่ก่อนหน้านี้ต้องการการแก้ไขอย่างระมัดระวังเพื่อแก้ไขความเป็นไปไม่ได้ทางกายภาพ ตอนนี้สร้างได้ถูกต้องตั้งแต่ครั้งแรก

ประการที่สอง มันเปิดใช้งานความเป็นไปได้ในการสร้างสรรค์ใหม่ การจำลองฟิสิกส์ที่แม่นยำหมายความว่าเครื่อง Rube Goldberg ลำดับกีฬา และฉากแอคชั่นสามารถสร้างได้โดยไม่ต้องแก้ไขด้วยตนเองอย่างพิถีพิถัน

ประการที่สาม มันปรับปรุงการรับรู้ของผู้ชม ผู้ชมตรวจจับการละเมิดฟิสิกส์โดยไม่รู้ตัว ทำให้วิดีโอที่แม่นยำทางกายภาพรู้สึกเหมือนจริงมากขึ้น แม้ว่าความแตกต่างจะอธิบายได้ยาก

เส้นทางข้างหน้า

การจำลองฟิสิกส์จะยังคงปรับปรุงในหลายแกน:

ความสอดคล้องทางเวลาที่ยาวขึ้น: โมเดลปัจจุบันรักษาฟิสิกส์เป็นวินาที โมเดลในอนาคตจะรักษาเป็นนาที

ปฏิสัมพันธ์ที่ซับซ้อนยิ่งขึ้น: ฉากที่มีวัตถุโต้ตอบกันหลายร้อยชิ้นจะเป็นไปได้

เอนจิ้นฟิสิกส์ที่เรียนรู้: แทนที่จะเป็นฟิสิกส์โดยนัยจากข้อมูลการฝึก โมเดลในอนาคตอาจรวมการจำลองฟิสิกส์อย่างชัดเจนเป็นส่วนประกอบ

ฟิสิกส์เรียลไทม์: ปัจจุบันการสร้างที่ตระหนักถึงฟิสิกส์ช้า แต่การเพิ่มประสิทธิภาพอาจเปิดใช้งานการสร้างเรียลไทม์ด้วยความแม่นยำทางกายภาพ

การเดินทางจากลูกบาสเก็ตบอลที่เทเลพอร์ตไปสู่การเด้งที่สมจริงแสดงถึงหนึ่งในความก้าวหน้าที่สำคัญที่สุดในการสร้างวิดีโอ AI โมเดลได้เรียนรู้ที่จะเคารพข้อจำกัดของมัน แม้จะไม่เข้าใจฟิสิกส์ในแบบที่มนุษย์ทำ สำหรับครีเอเตอร์ นี่หมายถึงการแก้ไขน้อยลง ความเป็นไปได้มากขึ้น และวิดีโอที่รู้สึกเหมือนจริงมากขึ้น

ลองด้วยตัวคุณเอง: Bonega.ai ใช้ Veo 3 ซึ่งรวมการจำลองฟิสิกส์ขั้นสูงสำหรับพลวัตวัตถุที่สมจริง สร้างฉากที่มีฟิสิกส์ซับซ้อนและดูว่าโมเดลจัดการแรงโน้มถ่วง การชน และปฏิสัมพันธ์วัสดุอย่างไร

การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร

ปัญหาลูกบาสเก็ตบอล

สามเสาหลักของความเข้าใจฟิสิกส์

World Models เทียบกับ การทำนายเฟรม

Chain of Thought สำหรับวิดีโอ

Temporal Attention ในระดับใหญ่

เกณฑ์มาตรฐานฟิสิกส์ในโลกแห่งความเป็นจริง

การทดสอบนักยิมนาสติก

ความเข้าใจวัสดุ

การจำแนกวัสดุ

ประเภทของไหล

ฟิสิกส์การเผาไหม้

ข้อจำกัดและกรณีพิเศษ

ผลกระทบสำหรับครีเอเตอร์

เส้นทางข้างหน้า

Alexis

Like what you read?

บทความที่เกี่ยวข้อง

World Models: แนวหน้าใหม่ของการสร้าง AI Video

ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า

AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026

ชอบบทความนี้ไหม?