Meta Pixel
AlexisAlexis
2 min read
403 คำ

การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร

จากลูกบาสเก็ตบอลที่เทเลพอร์ตไปจนถึงการเด้งที่สมจริง โมเดลวิดีโอ AI ในปัจจุบันเข้าใจแรงโน้มถ่วง โมเมนตัม และพลวัตของวัสดุแล้ว เราจะสำรวจความก้าวหน้าทางเทคนิคที่ทำให้สิ่งนี้เป็นไปได้

การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

เป็นเวลาหลายปีที่วิดีโอที่สร้างโดย AI มีปัญหาด้านฟิสิกส์ ลูกบาสเก็ตบอลที่พลาดห่วงจะเทเลพอร์ตเข้าไปในนั้นอยู่ดี น้ำไหลขึ้นด้านบน วัตถุทะลุผ่านกันเหมือนผี ในปี 2025 และต้นปี 2026 มีบางอย่างเปลี่ยนไป โมเดลวิดีโอรุ่นล่าสุดได้เรียนรู้ที่จะเคารพกฎพื้นฐานของโลกทางกายภาพ

ปัญหาลูกบาสเก็ตบอล

OpenAI อธิบายได้อย่างสมบูรณ์แบบเมื่อเปิดตัว Sora 2: ในโมเดลก่อนหน้า หากลูกบาสเก็ตบอลพลาดห่วง มันจะปรากฏขึ้นในตาข่ายอยู่ดี โมเดลรู้ผลลัพธ์ของเรื่องราว (บอลเข้าตะกร้า) แต่ไม่มีแนวคิดเกี่ยวกับข้อจำกัดทางกายภาพที่ควรควบคุมเส้นทาง

นี่ไม่ใช่บั๊กเล็กน้อย มันเป็นอาการของข้อจำกัดทางสถาปัตยกรรมพื้นฐาน โมเดลสร้างวิดีโอรุ่นแรกเก่งในการจับคู่รูปแบบภาพ เรียนรู้ที่จะสร้างเฟรมที่ดูน่าเชื่อถือเป็นรายบุคคล แต่ยังคงไม่สอดคล้องทางฟิสิกส์เมื่อดูตามลำดับ

💡

OpenAI ระบุข้อจำกัด "morph object" อย่างชัดเจนว่าเป็นปัญหาหลักที่ Sora 2 ได้รับการออกแบบมาเพื่อแก้ไข ช่องว่างทางสถาปัตยกรรมนี้ทำให้นักวิจัยและครีเอเตอร์หงุดหงิด

สามเสาหลักของความเข้าใจฟิสิกส์

ความก้าวหน้าในการจำลองฟิสิกส์ตั้งอยู่บนความก้าวหน้าสามประการที่เชื่อมโยงกัน: world modeling, การใช้เหตุผลแบบ chain-of-thought และกลไก temporal attention ที่ได้รับการปรับปรุง

World Models เทียบกับ การทำนายเฟรม

การสร้างวิดีโอแบบดั้งเดิมถือว่างานนี้เป็นการทำนายเฟรมตามลำดับ: เมื่อให้เฟรม 1 ถึง N ทำนายเฟรม N+1 วิธีนี้มีปัญหากับฟิสิกส์โดยธรรมชาติเพราะไม่มีการแสดงสถานะทางกายภาพพื้นฐานอย่างชัดเจน

World models ใช้วิธีที่แตกต่างกันโดยพื้นฐาน แทนที่จะทำนายพิกเซลโดยตรง พวกมันจะสร้างการแสดงภายในของสถานะทางกายภาพของฉากก่อน รวมถึงตำแหน่งวัตถุ ความเร็ว วัสดุ และปฏิสัมพันธ์ จากนั้นจึงเรนเดอร์สถานะนี้เป็นเฟรมภาพ วิธีนี้ที่สำรวจอย่างลึกซึ้งในการวิเคราะห์ world models ของเรา แสดงถึงการเปลี่ยนกระบวนทัศน์ในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ

การทำนายเฟรม

ทำนายพิกเซลจากพิกเซล ไม่มีฟิสิกส์อย่างชัดเจน มีแนวโน้มที่จะเกิดข้อผิดพลาดเทเลพอร์ต ทะลุผ่าน และละเมิดแรงโน้มถ่วง เร็วแต่ไม่สอดคล้องทางกายภาพ

World Models

จำลองสถานะทางกายภาพก่อน การติดตามวัตถุอย่างชัดเจน เคารพกฎการอนุรักษ์และพลวัตการชน ใช้การคำนวณมากขึ้นแต่มีพื้นฐานทางกายภาพ

Chain of Thought สำหรับวิดีโอ

Kling O1 ที่เปิดตัวในช่วงปลายปี 2025 นำเสนอการใช้เหตุผลแบบ chain-of-thought มาสู่การสร้างวิดีโอ ก่อนสร้างเฟรม โมเดลจะใช้เหตุผลอย่างชัดเจนเกี่ยวกับสิ่งที่ควรเกิดขึ้นทางกายภาพในฉาก

สำหรับฉากแก้วตกจากโต๊ะ โมเดลจะใช้เหตุผลก่อน:

  • แก้วมีความเร็วเริ่มต้นเป็นศูนย์ ตำแหน่งอยู่ที่ขอบโต๊ะ
  • แรงโน้มถ่วงเร่งแก้วลงด้วยความเร่ง 9.8 m/s²
  • แก้วสัมผัสพื้นหลังจากประมาณ 0.45 วินาที
  • วัสดุแก้วเปราะ พื้นเป็นพื้นผิวแข็ง
  • การกระแทกเกินเกณฑ์การแตกหัก แก้วแตก
  • เศษแก้วกระจายด้วยการอนุรักษ์โมเมนตัม

ขั้นตอนการใช้เหตุผลอย่างชัดเจนนี้เกิดขึ้นในพื้นที่แฝงของโมเดลก่อนที่จะสร้างพิกเซลใดๆ ผลลัพธ์คือวิดีโอที่เคารพไม่เพียงแต่สุนทรียศาสตร์ภาพแต่ยังรวมถึงห่วงโซ่เชิงสาเหตุ

Temporal Attention ในระดับใหญ่

รากฐานทางสถาปัตยกรรมที่เปิดใช้งานความก้าวหน้าเหล่านี้คือ temporal attention ซึ่งเป็นกลไกที่โมเดลวิดีโอรักษาความสอดคล้องข้ามเฟรม สถาปัตยกรรม diffusion transformer ที่ขับเคลื่อนโมเดลวิดีโอสมัยใหม่ประมวลผลวิดีโอเป็นแพทช์กาล-อวกาศ อนุญาตให้ attention ไหลทั้งเชิงพื้นที่ภายในเฟรมและเชิงเวลาข้ามเฟรม

โมเดลวิดีโอสมัยใหม่ประมวลผลแพทช์กาล-อวกาศหลายล้านแพทช์ต่อวิดีโอ โดยมี attention head เฉพาะทางที่อุทิศให้กับความสอดคล้องทางกายภาพ ระดับนี้อนุญาตให้โมเดลติดตามเอกลักษณ์วัตถุและสถานะทางกายภาพข้ามหลายร้อยเฟรม รักษาความสอดคล้องที่เป็นไปไม่ได้ด้วยสถาปัตยกรรมก่อนหน้า

เกณฑ์มาตรฐานฟิสิกส์ในโลกแห่งความเป็นจริง

เราวัดคุณภาพการจำลองฟิสิกส์ได้อย่างไร? สาขานี้ได้พัฒนาการทดสอบมาตรฐานหลายรายการ:

เกณฑ์มาตรฐานทดสอบผู้นำ
Object Permanenceวัตถุคงอยู่เมื่อถูกบังSora 2, Veo 3
Gravity Consistencyความเร่งการตกอิสระสม่ำเสมอKling O1, Runway Gen-4.5
Collision Realismวัตถุเด้ง เสียรูป หรือแตกอย่างเหมาะสมSora 2, Veo 3.1
Fluid Dynamicsน้ำ ควัน และผ้าจำลองอย่างสมจริงKling 2.6
Momentum Conservationการเคลื่อนไหวถ่ายโอนอย่างถูกต้องระหว่างวัตถุSora 2

โมเดล Kling มีความเป็นเลิศอย่างสม่ำเสมอในพลศาสตร์ของไหล โดยมีการจำลองน้ำและฟิสิกส์ผ้าที่น่าประทับใจเป็นพิเศษ Sora 2 ของ OpenAI นำในด้านความสมจริงของการชนและการอนุรักษ์โมเมนตัม จัดการปฏิสัมพันธ์หลายวัตถุที่ซับซ้อนด้วยความแม่นยำที่น่าประทับใจ

💡

สำหรับการจำลองน้ำ ควัน และผ้า โมเดล Kling ในปัจจุบันเสนอฟิสิกส์ที่สมจริงที่สุด สำหรับการชนหลายวัตถุที่ซับซ้อนและสถานการณ์กีฬา Sora 2 เป็นตัวเลือกที่แข็งแกร่งกว่า

การทดสอบนักยิมนาสติก

หนึ่งในเกณฑ์มาตรฐานฟิสิกส์ที่ท้าทายที่สุดเกี่ยวข้องกับยิมนาสติกโอลิมปิก นักยิมนาสติกที่กลิ้งตัวผ่านพลวัตการหมุนที่ซับซ้อน: การอนุรักษ์โมเมนตัมเชิงมุม โมเมนต์ความเฉื่อยที่แปรผันเมื่อแขนขาเหยียดและหดตัว และเวลาที่แม่นยำของการใช้แรงสำหรับการกระโดดและการลงพื้น

โมเดลวิดีโอรุ่นแรกจะสร้างเฟรมเดี่ยวที่น่าประทับใจของนักยิมนาสติกกลางอากาศแต่ล้มเหลวอย่างร้ายแรงในด้านฟิสิกส์ การหมุนจะเร็วขึ้นหรือช้าลงแบบสุ่ม การลงพื้นจะเกิดขึ้นในตำแหน่งที่เป็นไปไม่ได้ ร่างกายจะเสียรูปในลักษณะที่ละเมิดข้อจำกัดทางกายวิภาค

Sora 2 เน้นยิมนาสติกโอลิมปิกอย่างชัดเจนว่าเป็นเกณฑ์มาตรฐานที่ตอนนี้จัดการได้อย่างถูกต้อง โมเดลติดตามโมเมนตัมเชิงมุมของนักยิมนาสติกตลอดทั้งรูทีน เร่งการหมุนเมื่อแขนขาดึงเข้า (เอฟเฟกต์การหมุนของนักสเก็ตน้ำแข็ง) และชะลอเมื่อเหยียดออก

ความเข้าใจวัสดุ

การจำลองฟิสิกส์ขยายเกินกว่าการเคลื่อนที่ไปสู่คุณสมบัติของวัสดุ โมเดลรู้ได้อย่างไรว่าแก้วแตกในขณะที่ยางเด้ง? ว่าน้ำกระเซ็นในขณะที่น้ำมันนิ่ง? ว่าโลหะเสียรูปอย่างพลาสติกในขณะที่ไม้หัก?

คำตอบอยู่ในข้อมูลการฝึกและไพรเออร์ที่เรียนรู้ของโมเดล โดยการฝึกบนวิดีโอหลายล้านรายการที่แสดงวัสดุโต้ตอบกับโลก โมเดลพัฒนาความเข้าใจวัสดุโดยนัย แก้วที่ตกบนคอนกรีตให้ผลลัพธ์ที่แตกต่างจากแก้วที่ตกบนพรม และโมเดลสมัยใหม่จับความแตกต่างนี้ได้

🧱

การจำแนกวัสดุ

โมเดลในปัจจุบันจำแนกวัตถุโดยนัยตามคุณสมบัติของวัสดุ: เปราะเทียบกับเหนียว ยืดหยุ่นเทียบกับพลาสติก บีบอัดได้เทียบกับบีบอัดไม่ได้

💨

ประเภทของไหล

ความหนืดของไหลและแรงตึงผิวที่แตกต่างกันถูกจัดการอย่างถูกต้อง: น้ำกระเซ็น น้ำผึ้งหยด ควันลอย

🔥

ฟิสิกส์การเผาไหม้

ไฟและการระเบิดเป็นไปตามการแพร่กระจายความร้อนและพลศาสตร์ก๊าซที่สมจริง แทนที่จะเป็นเอฟเฟกต์อนุภาคง่ายๆ

ข้อจำกัดและกรณีพิเศษ

แม้จะมีความก้าวหน้าเหล่านี้ การจำลองฟิสิกส์ในวิดีโอ AI ยังคงไม่สมบูรณ์แบบ ข้อจำกัดที่ทราบหลายประการยังคงมีอยู่:

ความเสถียรระยะยาว: ฟิสิกส์ยังคงแม่นยำเป็นเวลา 5-10 วินาที แต่อาจเบี่ยงเบนในระยะเวลานานขึ้น วิดีโอที่ขยายอาจละเมิดกฎการอนุรักษ์ทีละน้อย

ระบบหลายวัตถุที่ซับซ้อน: แม้ว่าวัตถุสองชิ้นชนกันทำงานได้ดี ฉากที่มีวัตถุโต้ตอบกันหลายสิบชิ้น (เช่น หอ Jenga ที่ล้ม) อาจเกิดข้อผิดพลาด

วัสดุที่ไม่ปกติ: อคติข้อมูลการฝึกหมายความว่าวัสดุทั่วไป (น้ำ แก้ว โลหะ) จำลองได้ดีกว่าวัสดุแปลกใหม่ (ของไหลนอน-นิวโทเนียน วัสดุแม่เหล็ก)

สภาวะสุดขั้ว: ฟิสิกส์ในระดับเล็กมาก (โมเลกุล) ระดับใหญ่มาก (ดาราศาสตร์) หรือสภาวะสุดขั้ว (ใกล้ความเร็วแสง) มักล้มเหลว

⚠️

ความแม่นยำของการจำลองฟิสิกส์ลดลงอย่างมากสำหรับวิดีโอที่ยาวกว่า 30 วินาที สำหรับเนื้อหาระยะยาว พิจารณาใช้เทคนิคการขยายวิดีโอ โดยให้ความสนใจอย่างรอบคอบต่อความต่อเนื่องทางกายภาพที่ขอบเขต

ผลกระทบสำหรับครีเอเตอร์

การจำลองฟิสิกส์ที่ดีขึ้นหมายความว่าอย่างไรสำหรับครีเอเตอร์วิดีโอ?

ประการแรก มันลดความจำเป็นในการแก้ไขหลังการผลิตอย่างมาก ฉากที่ก่อนหน้านี้ต้องการการแก้ไขอย่างระมัดระวังเพื่อแก้ไขความเป็นไปไม่ได้ทางกายภาพ ตอนนี้สร้างได้ถูกต้องตั้งแต่ครั้งแรก

ประการที่สอง มันเปิดใช้งานความเป็นไปได้ในการสร้างสรรค์ใหม่ การจำลองฟิสิกส์ที่แม่นยำหมายความว่าเครื่อง Rube Goldberg ลำดับกีฬา และฉากแอคชั่นสามารถสร้างได้โดยไม่ต้องแก้ไขด้วยตนเองอย่างพิถีพิถัน

ประการที่สาม มันปรับปรุงการรับรู้ของผู้ชม ผู้ชมตรวจจับการละเมิดฟิสิกส์โดยไม่รู้ตัว ทำให้วิดีโอที่แม่นยำทางกายภาพรู้สึกเหมือนจริงมากขึ้น แม้ว่าความแตกต่างจะอธิบายได้ยาก

เส้นทางข้างหน้า

การจำลองฟิสิกส์จะยังคงปรับปรุงในหลายแกน:

ความสอดคล้องทางเวลาที่ยาวขึ้น: โมเดลปัจจุบันรักษาฟิสิกส์เป็นวินาที โมเดลในอนาคตจะรักษาเป็นนาที

ปฏิสัมพันธ์ที่ซับซ้อนยิ่งขึ้น: ฉากที่มีวัตถุโต้ตอบกันหลายร้อยชิ้นจะเป็นไปได้

เอนจิ้นฟิสิกส์ที่เรียนรู้: แทนที่จะเป็นฟิสิกส์โดยนัยจากข้อมูลการฝึก โมเดลในอนาคตอาจรวมการจำลองฟิสิกส์อย่างชัดเจนเป็นส่วนประกอบ

ฟิสิกส์เรียลไทม์: ปัจจุบันการสร้างที่ตระหนักถึงฟิสิกส์ช้า แต่การเพิ่มประสิทธิภาพอาจเปิดใช้งานการสร้างเรียลไทม์ด้วยความแม่นยำทางกายภาพ

การเดินทางจากลูกบาสเก็ตบอลที่เทเลพอร์ตไปสู่การเด้งที่สมจริงแสดงถึงหนึ่งในความก้าวหน้าที่สำคัญที่สุดในการสร้างวิดีโอ AI โมเดลได้เรียนรู้ที่จะเคารพข้อจำกัดของมัน แม้จะไม่เข้าใจฟิสิกส์ในแบบที่มนุษย์ทำ สำหรับครีเอเตอร์ นี่หมายถึงการแก้ไขน้อยลง ความเป็นไปได้มากขึ้น และวิดีโอที่รู้สึกเหมือนจริงมากขึ้น

ลองด้วยตัวคุณเอง: Bonega.ai ใช้ Veo 3 ซึ่งรวมการจำลองฟิสิกส์ขั้นสูงสำหรับพลวัตวัตถุที่สมจริง สร้างฉากที่มีฟิสิกส์ซับซ้อนและดูว่าโมเดลจัดการแรงโน้มถ่วง การชน และปฏิสัมพันธ์วัสดุอย่างไร

บทความนี้มีประโยชน์หรือไม่?

Alexis

Alexis

วิศวกร AI

วิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

World Models: แนวหน้าใหม่ของการสร้าง AI Video
AI VideoWorld Models

World Models: แนวหน้าใหม่ของการสร้าง AI Video

เหตุใดการเปลี่ยนจาก frame generation ไปสู่ world simulation จึงกำลังเปลี่ยนแปลง AI video และ GWM-1 ของ Runway บอกอะไรเราเกี่ยวกับทิศทางที่เทคโนโลยีนี้กำลังมุ่งหน้า

Read
ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า
AI VideoCharacter Consistency

ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า

การศึกษาเชิงเทคนิคลึกซึ้งเกี่ยวกับการนวัตกรรมด้านสถาปัตยกรรมที่ช่วยให้โมเดลวิดีโอ AI สามารถรักษาเอกลักษณ์ตัวละครระหว่างฉากต่างๆ ได้ตั้งแต่กลไกความสนใจ ไปจนถึงการฝังข้อมูลที่รักษาเอกลักษณ์ครับ

Read
AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026
AI VideoStorytelling

AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026

จากคลิปเดียว ไปจนถึงซีรีส์ทั้งเรื่อง AI วิดีโอ ได้วิวัฒนาจากเครื่องมือการสร้าง ไปเป็นเครื่องยนต์การบอกเรื่อง ท่านสามารถพบ แพลตฟอร์มที่ทำให้มันเกิดขึ้น

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

การจำลองฟิสิกส์ในวิดีโอ AI: โมเดลเรียนรู้ที่จะเคารพความเป็นจริงได้อย่างไร