การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร
จากลูกบาสเก็ตบอลที่เทเลพอร์ตไปจนถึงการเด้งที่สมจริง โมเดลวิดีโอ AI ในปัจจุบันเข้าใจแรงโน้มถ่วง โมเมนตัม และพลวัตของวัสดุแล้ว เราจะสำรวจความก้าวหน้าทางเทคนิคที่ทำให้สิ่งนี้เป็นไปได้

เป็นเวลาหลายปีที่วิดีโอที่สร้างโดย AI มีปัญหาด้านฟิสิกส์ ลูกบาสเก็ตบอลที่พลาดห่วงจะเทเลพอร์ตเข้าไปในนั้นอยู่ดี น้ำไหลขึ้นด้านบน วัตถุทะลุผ่านกันเหมือนผี ในปี 2025 และต้นปี 2026 มีบางอย่างเปลี่ยนไป โมเดลวิดีโอรุ่นล่าสุดได้เรียนรู้ที่จะเคารพกฎพื้นฐานของโลกทางกายภาพ
ปัญหาลูกบาสเก็ตบอล
OpenAI อธิบายได้อย่างสมบูรณ์แบบเมื่อเปิดตัว Sora 2: ในโมเดลก่อนหน้า หากลูกบาสเก็ตบอลพลาดห่วง มันจะปรากฏขึ้นในตาข่ายอยู่ดี โมเดลรู้ผลลัพธ์ของเรื่องราว (บอลเข้าตะกร้า) แต่ไม่มีแนวคิดเกี่ยวกับข้อจำกัดทางกายภาพที่ควรควบคุมเส้นทาง
นี่ไม่ใช่บั๊กเล็กน้อย มันเป็นอาการของข้อจำกัดทางสถาปัตยกรรมพื้นฐาน โมเดลสร้างวิดีโอรุ่นแรกเก่งในการจับคู่รูปแบบภาพ เรียนรู้ที่จะสร้างเฟรมที่ดูน่าเชื่อถือเป็นรายบุคคล แต่ยังคงไม่สอดคล้องทางฟิสิกส์เมื่อดูตามลำดับ
OpenAI ระบุข้อจำกัด "morph object" อย่างชัดเจนว่าเป็นปัญหาหลักที่ Sora 2 ได้รับการออกแบบมาเพื่อแก้ไข ช่องว่างทางสถาปัตยกรรมนี้ทำให้นักวิจัยและครีเอเตอร์หงุดหงิด
สามเสาหลักของความเข้าใจฟิสิกส์
ความก้าวหน้าในการจำลองฟิสิกส์ตั้งอยู่บนความก้าวหน้าสามประการที่เชื่อมโยงกัน: world modeling, การใช้เหตุผลแบบ chain-of-thought และกลไก temporal attention ที่ได้รับการปรับปรุง
World Models เทียบกับ การทำนายเฟรม
การสร้างวิดีโอแบบดั้งเดิมถือว่างานนี้เป็นการทำนายเฟรมตามลำดับ: เมื่อให้เฟรม 1 ถึง N ทำนายเฟรม N+1 วิธีนี้มีปัญหากับฟิสิกส์โดยธรรมชาติเพราะไม่มีการแสดงสถานะทางกายภาพพื้นฐานอย่างชัดเจน
World models ใช้วิธีที่แตกต่างกันโดยพื้นฐาน แทนที่จะทำนายพิกเซลโดยตรง พวกมันจะสร้างการแสดงภายในของสถานะทางกายภาพของฉากก่อน รวมถึงตำแหน่งวัตถุ ความเร็ว วัสดุ และปฏิสัมพันธ์ จากนั้นจึงเรนเดอร์สถานะนี้เป็นเฟรมภาพ วิธีนี้ที่สำรวจอย่างลึกซึ้งในการวิเคราะห์ world models ของเรา แสดงถึงการเปลี่ยนกระบวนทัศน์ในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ
ทำนายพิกเซลจากพิกเซล ไม่มีฟิสิกส์อย่างชัดเจน มีแนวโน้มที่จะเกิดข้อผิดพลาดเทเลพอร์ต ทะลุผ่าน และละเมิดแรงโน้มถ่วง เร็วแต่ไม่สอดคล้องทางกายภาพ
จำลองสถานะทางกายภาพก่อน การติดตามวัตถุอย่างชัดเจน เคารพกฎการอนุรักษ์และพลวัตการชน ใช้การคำนวณมากขึ้นแต่มีพื้นฐานทางกายภาพ
Chain of Thought สำหรับวิดีโอ
Kling O1 ที่เปิดตัวในช่วงปลายปี 2025 นำเสนอการใช้เหตุผลแบบ chain-of-thought มาสู่การสร้างวิดีโอ ก่อนสร้างเฟรม โมเดลจะใช้เหตุผลอย่างชัดเจนเกี่ยวกับสิ่งที่ควรเกิดขึ้นทางกายภาพในฉาก
สำหรับฉากแก้วตกจากโต๊ะ โมเดลจะใช้เหตุผลก่อน:
- แก้วมีความเร็วเริ่มต้นเป็นศูนย์ ตำแหน่งอยู่ที่ขอบโต๊ะ
- แรงโน้มถ่วงเร่งแก้วลงด้วยความเร่ง 9.8 m/s²
- แก้วสัมผัสพื้นหลังจากประมาณ 0.45 วินาที
- วัสดุแก้วเปราะ พื้นเป็นพื้นผิวแข็ง
- การกระแทกเกินเกณฑ์การแตกหัก แก้วแตก
- เศษแก้วกระจายด้วยการอนุรักษ์โมเมนตัม
ขั้นตอนการใช้เหตุผลอย่างชัดเจนนี้เกิดขึ้นในพื้นที่แฝงของโมเดลก่อนที่จะสร้างพิกเซลใดๆ ผลลัพธ์คือวิดีโอที่เคารพไม่เพียงแต่สุนทรียศาสตร์ภาพแต่ยังรวมถึงห่วงโซ่เชิงสาเหตุ
Temporal Attention ในระดับใหญ่
รากฐานทางสถาปัตยกรรมที่เปิดใช้งานความก้าวหน้าเหล่านี้คือ temporal attention ซึ่งเป็นกลไกที่โมเดลวิดีโอรักษาความสอดคล้องข้ามเฟรม สถาปัตยกรรม diffusion transformer ที่ขับเคลื่อนโมเดลวิดีโอสมัยใหม่ประมวลผลวิดีโอเป็นแพทช์กาล-อวกาศ อนุญาตให้ attention ไหลทั้งเชิงพื้นที่ภายในเฟรมและเชิงเวลาข้ามเฟรม
โมเดลวิดีโอสมัยใหม่ประมวลผลแพทช์กาล-อวกาศหลายล้านแพทช์ต่อวิดีโอ โดยมี attention head เฉพาะทางที่อุทิศให้กับความสอดคล้องทางกายภาพ ระดับนี้อนุญาตให้โมเดลติดตามเอกลักษณ์วัตถุและสถานะทางกายภาพข้ามหลายร้อยเฟรม รักษาความสอดคล้องที่เป็นไปไม่ได้ด้วยสถาปัตยกรรมก่อนหน้า
เกณฑ์มาตรฐานฟิสิกส์ในโลกแห่งความเป็นจริง
เราวัดคุณภาพการจำลองฟิสิกส์ได้อย่างไร? สาขานี้ได้พัฒนาการทดสอบมาตรฐานหลายรายการ:
| เกณฑ์มาตรฐาน | ทดสอบ | ผู้นำ |
|---|---|---|
| Object Permanence | วัตถุคงอยู่เมื่อถูกบัง | Sora 2, Veo 3 |
| Gravity Consistency | ความเร่งการตกอิสระสม่ำเสมอ | Kling O1, Runway Gen-4.5 |
| Collision Realism | วัตถุเด้ง เสียรูป หรือแตกอย่างเหมาะสม | Sora 2, Veo 3.1 |
| Fluid Dynamics | น้ำ ควัน และผ้าจำลองอย่างสมจริง | Kling 2.6 |
| Momentum Conservation | การเคลื่อนไหวถ่ายโอนอย่างถูกต้องระหว่างวัตถุ | Sora 2 |
โมเดล Kling มีความเป็นเลิศอย่างสม่ำเสมอในพลศาสตร์ของไหล โดยมีการจำลองน้ำและฟิสิกส์ผ้าที่น่าประทับใจเป็นพิเศษ Sora 2 ของ OpenAI นำในด้านความสมจริงของการชนและการอนุรักษ์โมเมนตัม จัดการปฏิสัมพันธ์หลายวัตถุที่ซับซ้อนด้วยความแม่นยำที่น่าประทับใจ
สำหรับการจำลองน้ำ ควัน และผ้า โมเดล Kling ในปัจจุบันเสนอฟิสิกส์ที่สมจริงที่สุด สำหรับการชนหลายวัตถุที่ซับซ้อนและสถานการณ์กีฬา Sora 2 เป็นตัวเลือกที่แข็งแกร่งกว่า
การทดสอบนักยิมนาสติก
หนึ่งในเกณฑ์มาตรฐานฟิสิกส์ที่ท้าทายที่สุดเกี่ยวข้องกับยิมนาสติกโอลิมปิก นักยิมนาสติกที่กลิ้งตัวผ่านพลวัตการหมุนที่ซับซ้อน: การอนุรักษ์โมเมนตัมเชิงมุม โมเมนต์ความเฉื่อยที่แปรผันเมื่อแขนขาเหยียดและหดตัว และเวลาที่แม่นยำของการใช้แรงสำหรับการกระโดดและการลงพื้น
โมเดลวิดีโอรุ่นแรกจะสร้างเฟรมเดี่ยวที่น่าประทับใจของนักยิมนาสติกกลางอากาศแต่ล้มเหลวอย่างร้ายแรงในด้านฟิสิกส์ การหมุนจะเร็วขึ้นหรือช้าลงแบบสุ่ม การลงพื้นจะเกิดขึ้นในตำแหน่งที่เป็นไปไม่ได้ ร่างกายจะเสียรูปในลักษณะที่ละเมิดข้อจำกัดทางกายวิภาค
Sora 2 เน้นยิมนาสติกโอลิมปิกอย่างชัดเจนว่าเป็นเกณฑ์มาตรฐานที่ตอนนี้จัดการได้อย่างถูกต้อง โมเดลติดตามโมเมนตัมเชิงมุมของนักยิมนาสติกตลอดทั้งรูทีน เร่งการหมุนเมื่อแขนขาดึงเข้า (เอฟเฟกต์การหมุนของนักสเก็ตน้ำแข็ง) และชะลอเมื่อเหยียดออก
ความเข้าใจวัสดุ
การจำลองฟิสิกส์ขยายเกินกว่าการเคลื่อนที่ไปสู่คุณสมบัติของวัสดุ โมเดลรู้ได้อย่างไรว่าแก้วแตกในขณะที่ยางเด้ง? ว่าน้ำกระเซ็นในขณะที่น้ำมันนิ่ง? ว่าโลหะเสียรูปอย่างพลาสติกในขณะที่ไม้หัก?
คำตอบอยู่ในข้อมูลการฝึกและไพรเออร์ที่เรียนรู้ของโมเดล โดยการฝึกบนวิดีโอหลายล้านรายการที่แสดงวัสดุโต้ตอบกับโลก โมเดลพัฒนาความเข้าใจวัสดุโดยนัย แก้วที่ตกบนคอนกรีตให้ผลลัพธ์ที่แตกต่างจากแก้วที่ตกบนพรม และโมเดลสมัยใหม่จับความแตกต่างนี้ได้
การจำแนกวัสดุ
โมเดลในปัจจุบันจำแนกวัตถุโดยนัยตามคุณสมบัติของวัสดุ: เปราะเทียบกับเหนียว ยืดหยุ่นเทียบกับพลาสติก บีบอัดได้เทียบกับบีบอัดไม่ได้
ประเภทของไหล
ความหนืดของไหลและแรงตึงผิวที่แตกต่างกันถูกจัดการอย่างถูกต้อง: น้ำกระเซ็น น้ำผึ้งหยด ควันลอย
ฟิสิกส์การเผาไหม้
ไฟและการระเบิดเป็นไปตามการแพร่กระจายความร้อนและพลศาสตร์ก๊าซที่สมจริง แทนที่จะเป็นเอฟเฟกต์อนุภาคง่ายๆ
ข้อจำกัดและกรณีพิเศษ
แม้จะมีความก้าวหน้าเหล่านี้ การจำลองฟิสิกส์ในวิดีโอ AI ยังคงไม่สมบูรณ์แบบ ข้อจำกัดที่ทราบหลายประการยังคงมีอยู่:
ความเสถียรระยะยาว: ฟิสิกส์ยังคงแม่นยำเป็นเวลา 5-10 วินาที แต่อาจเบี่ยงเบนในระยะเวลานานขึ้น วิดีโอที่ขยายอาจละเมิดกฎการอนุรักษ์ทีละน้อย
ระบบหลายวัตถุที่ซับซ้อน: แม้ว่าวัตถุสองชิ้นชนกันทำงานได้ดี ฉากที่มีวัตถุโต้ตอบกันหลายสิบชิ้น (เช่น หอ Jenga ที่ล้ม) อาจเกิดข้อผิดพลาด
วัสดุที่ไม่ปกติ: อคติข้อมูลการฝึกหมายความว่าวัสดุทั่วไป (น้ำ แก้ว โลหะ) จำลองได้ดีกว่าวัสดุแปลกใหม่ (ของไหลนอน-นิวโทเนียน วัสดุแม่เหล็ก)
สภาวะสุดขั้ว: ฟิสิกส์ในระดับเล็กมาก (โมเลกุล) ระดับใหญ่มาก (ดาราศาสตร์) หรือสภาวะสุดขั้ว (ใกล้ความเร็วแสง) มักล้มเหลว
ความแม่นยำของการจำลองฟิสิกส์ลดลงอย่างมากสำหรับวิดีโอที่ยาวกว่า 30 วินาที สำหรับเนื้อหาระยะยาว พิจารณาใช้เทคนิคการขยายวิดีโอ โดยให้ความสนใจอย่างรอบคอบต่อความต่อเนื่องทางกายภาพที่ขอบเขต
ผลกระทบสำหรับครีเอเตอร์
การจำลองฟิสิกส์ที่ดีขึ้นหมายความว่าอย่างไรสำหรับครีเอเตอร์วิดีโอ?
ประการแรก มันลดความจำเป็นในการแก้ไขหลังการผลิตอย่างมาก ฉากที่ก่อนหน้านี้ต้องการการแก้ไขอย่างระมัดระวังเพื่อแก้ไขความเป็นไปไม่ได้ทางกายภาพ ตอนนี้สร้างได้ถูกต้องตั้งแต่ครั้งแรก
ประการที่สอง มันเปิดใช้งานความเป็นไปได้ในการสร้างสรรค์ใหม่ การจำลองฟิสิกส์ที่แม่นยำหมายความว่าเครื่อง Rube Goldberg ลำดับกีฬา และฉากแอคชั่นสามารถสร้างได้โดยไม่ต้องแก้ไขด้วยตนเองอย่างพิถีพิถัน
ประการที่สาม มันปรับปรุงการรับรู้ของผู้ชม ผู้ชมตรวจจับการละเมิดฟิสิกส์โดยไม่รู้ตัว ทำให้วิดีโอที่แม่นยำทางกายภาพรู้สึกเหมือนจริงมากขึ้น แม้ว่าความแตกต่างจะอธิบายได้ยาก
เส้นทางข้างหน้า
การจำลองฟิสิกส์จะยังคงปรับปรุงในหลายแกน:
ความสอดคล้องทางเวลาที่ยาวขึ้น: โมเดลปัจจุบันรักษาฟิสิกส์เป็นวินาที โมเดลในอนาคตจะรักษาเป็นนาที
ปฏิสัมพันธ์ที่ซับซ้อนยิ่งขึ้น: ฉากที่มีวัตถุโต้ตอบกันหลายร้อยชิ้นจะเป็นไปได้
เอนจิ้นฟิสิกส์ที่เรียนรู้: แทนที่จะเป็นฟิสิกส์โดยนัยจากข้อมูลการฝึก โมเดลในอนาคตอาจรวมการจำลองฟิสิกส์อย่างชัดเจนเป็นส่วนประกอบ
ฟิสิกส์เรียลไทม์: ปัจจุบันการสร้างที่ตระหนักถึงฟิสิกส์ช้า แต่การเพิ่มประสิทธิภาพอาจเปิดใช้งานการสร้างเรียลไทม์ด้วยความแม่นยำทางกายภาพ
การเดินทางจากลูกบาสเก็ตบอลที่เทเลพอร์ตไปสู่การเด้งที่สมจริงแสดงถึงหนึ่งในความก้าวหน้าที่สำคัญที่สุดในการสร้างวิดีโอ AI โมเดลได้เรียนรู้ที่จะเคารพข้อจำกัดของมัน แม้จะไม่เข้าใจฟิสิกส์ในแบบที่มนุษย์ทำ สำหรับครีเอเตอร์ นี่หมายถึงการแก้ไขน้อยลง ความเป็นไปได้มากขึ้น และวิดีโอที่รู้สึกเหมือนจริงมากขึ้น
ลองด้วยตัวคุณเอง: Bonega.ai ใช้ Veo 3 ซึ่งรวมการจำลองฟิสิกส์ขั้นสูงสำหรับพลวัตวัตถุที่สมจริง สร้างฉากที่มีฟิสิกส์ซับซ้อนและดูว่าโมเดลจัดการแรงโน้มถ่วง การชน และปฏิสัมพันธ์วัสดุอย่างไร
บทความนี้มีประโยชน์หรือไม่?

Alexis
วิศวกร AIวิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

World Models: แนวหน้าใหม่ของการสร้าง AI Video
เหตุใดการเปลี่ยนจาก frame generation ไปสู่ world simulation จึงกำลังเปลี่ยนแปลง AI video และ GWM-1 ของ Runway บอกอะไรเราเกี่ยวกับทิศทางที่เทคโนโลยีนี้กำลังมุ่งหน้า

ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า
การศึกษาเชิงเทคนิคลึกซึ้งเกี่ยวกับการนวัตกรรมด้านสถาปัตยกรรมที่ช่วยให้โมเดลวิดีโอ AI สามารถรักษาเอกลักษณ์ตัวละครระหว่างฉากต่างๆ ได้ตั้งแต่กลไกความสนใจ ไปจนถึงการฝังข้อมูลที่รักษาเอกลักษณ์ครับ

AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026
จากคลิปเดียว ไปจนถึงซีรีส์ทั้งเรื่อง AI วิดีโอ ได้วิวัฒนาจากเครื่องมือการสร้าง ไปเป็นเครื่องยนต์การบอกเรื่อง ท่านสามารถพบ แพลตฟอร์มที่ทำให้มันเกิดขึ้น