World Models: แนวหน้าใหม่ของการสร้าง AI Video

เป็นเวลาหลายปีที่การสร้าง AI video หมายถึงการทำนาย pixels แบบ frame-by-frame ตอนนี้อุตสาหกรรมกำลังหันไปสู่สิ่งที่ทะเยอทะยานกว่ามาก: การจำลองโลกทั้งหมด การเปิดตัว GWM-1 ของ Runway เป็นจุดเริ่มต้นของการเปลี่ยนแปลงนี้ และผลกระทบนั้นลึกซึ้งมาก

จาก Frames สู่ Worlds

โมเดลการสร้างวิดีโอแบบดั้งเดิมทำงานเหมือนศิลปินหนังสือพลิกที่ซับซ้อน พวกเขาทำนายว่าเฟรมถัดไปควรมีลักษณะอย่างไรโดยอิงจากเฟรมก่อนหน้า และได้รับคำแนะนำจาก text prompt ของคุณ มันใช้งานได้ แต่มีข้อจำกัดพื้นฐาน

💡

ตัวทำนายเฟรมรู้ว่าไฟมีลักษณะอย่างไร World model รู้ว่าไฟทำอะไร: มันลามไปทั่ว มันเผาผลาญเชื้อเพลิง มันสร้างเงาที่เต้นระบำและปล่อยความร้อนที่บิดเบือนอากาศเหนือมัน

World models ใช้แนวทางที่แตกต่างกัน แทนที่จะถาม "เฟรมถัดไปควรมีลักษณะอย่างไร" พวกเขาถาม "สภาพแวดล้อมนี้ทำงานอย่างไร" ความแตกต่างฟังดูละเอียดอ่อน แต่มันเปลี่ยนแปลงทุกอย่าง

เมื่อคุณบอกตัวทำนายเฟรมให้สร้างลูกบอลกลิ้งลงเนิน มันจะประมาณการว่าอาจมีลักษณะอย่างไรโดยอิงจากข้อมูลการฝึก เมื่อคุณบอก world model สิ่งเดียวกัน มันจะจำลองฟิสิกส์: แรงโน้มถ่วงเร่งลูกบอล แรงเสียดทานกับหญ้าทำให้มันช้าลง โมเมนตัมพามันขึ้นไปบนทางลาดตรงข้าม

GWM-1 ของ Runway ทำอะไรจริงๆ

Runway เปิดตัว GWM-1 (General World Model 1) ในเดือนธันวาคม 2025 และมันแสดงถึงก้าวแรกสู่สาธารณะของพวกเขาในการจำลองโลก โมเดลสร้างสิ่งที่พวกเขาเรียกว่า "dynamic simulation environments" ระบบที่เข้าใจไม่เพียงแค่ว่าสิ่งต่างๆ ปรากฏอย่างไร แต่พวกมันพัฒนาไปตามเวลาอย่างไร

1,247

Elo Score (Gen-4.5)

Video Arena Ranking

100

Runway Team Size

ช่วงเวลามีความสำคัญ การเปิดตัวนี้มาพร้อมกับ Gen-4.5 ที่ขึ้นอันดับ 1 บน Video Arena ผลักดัน OpenAI Sora 2 ลงมาที่อันดับ 4 เหล่านี้ไม่ใช่ความสำเร็จที่ไม่เกี่ยวข้องกัน การปรับปรุง physical accuracy ของ Gen-4.5 ที่วัตถุเคลื่อนที่ด้วยน้ำหนัก โมเมนตัม และแรงที่สมจริง น่าจะมาจากการวิจัย world model ที่ให้ข้อมูลกับสถาปัตยกรรมของมัน

🌍

Frame Prediction vs World Simulation

Frame prediction: "ลูกบอลบนหญ้า" → จับคู่รูปแบบจากข้อมูลการฝึก World simulation: "ลูกบอลบนหญ้า" → physics engine กำหนดวิถี แรงเสียดทาน การตีกลับ

ทำไมสิ่งนี้จึงเปลี่ยนแปลงทุกอย่าง

1. ฟิสิกส์ที่ใช้งานได้จริง

โมเดลวิดีโอปัจจุบันต่อสู้กับฟิสิกส์เพราะพวกเขาเพียงแค่เห็นฟิสิกส์ ไม่เคยประสบมัน พวกเขารู้ว่าวัตถุที่ตกลงมาจะตก แต่พวกเขาประมาณการวิถีแทนที่จะคำนวณมัน World models พลิกความสัมพันธ์นี้

✗Frame Prediction

ประมาณการฟิสิกส์จากรูปแบบภาพ ลูกบิลเลียดอาจกลิ้งผ่านลูกอื่นเพราะโมเดลไม่เคยเรียนรู้การชนแบบ rigid body

✓World Simulation

จำลองกฎฟิสิกส์ การตรวจจับการชน การถ่ายโอนโมเมนตัม และแรงเสียดทานถูกคำนวณ ไม่ใช่เดา

นี่คือเหตุผลที่ การจำลองฟิสิกส์ของ Sora 2 ทำให้ผู้คนประทับใจ: OpenAI ลงทุนอย่างหนักในความเข้าใจทางกายภาพ World models ทำให้แนวทางนี้เป็นทางการ

2. Temporal Coherence โดยไม่ต้องใช้เทคนิค

จุดที่เจ็บปวดที่สุดใน AI video คือความสอดคล้องตามเวลา ตัวละครเปลี่ยนรูปลักษณ์ วัตถุ teleport สภาพแวดล้อมเปลี่ยนแปลงแบบสุ่ม เราได้สำรวจ วิธีที่โมเดลกำลังเรียนรู้ที่จะจดจำใบหน้า ผ่านนวัตกรรมทางสถาปัตยกรรมเช่น cross-frame attention

World models เสนอแนวทางที่สง่างามกว่า: หากการจำลองติดตามเอนทิตีเป็นวัตถุที่คงอยู่ในพื้นที่เสมือน พวกมันไม่สามารถเปลี่ยนหรือหายไปแบบสุ่มได้ ลูกบอลมีอยู่ในโลกที่จำลอง มันมีคุณสมบัติ (ขนาด สี ตำแหน่ง ความเร็ว) ที่คงอยู่จนกว่าบางสิ่งในการจำลองเปลี่ยนแปลงมัน

3. วิดีโอที่ยาวขึ้นกลายเป็นไปได้

โมเดลปัจจุบันเสื่อมลงตามเวลา Bidirectional diffusion ของ CraftStory ผลักดันไปสู่วิดีโอ 5 นาทีโดยให้เฟรมหลังมีอิทธิพลต่อเฟรมก่อนหน้า World models เข้าถึงปัญหาเดียวกันแตกต่างกัน: หากการจำลองมีเสถียรภาพ คุณสามารถเรียกใช้มันได้นานเท่าที่คุณต้องการ

2024

Seconds

AI video มาตรฐาน: 4-8 วินาทีก่อนคุณภาพพังทลาย

Early 2025

Minutes

เทคนิคเฉพาะทางช่วยให้วิดีโอยาว 1-5 นาที

Late 2025

Unlimited?

World models แยกระยะเวลาออกจากสถาปัตยกรรม

จุดที่ต้องระวัง (มีเสมอ)

World models ฟังดูเหมือนวิธีแก้ปัญหาการสร้างวิดีโอทุกปัญหา พวกมันไม่ใช่ อย่างน้อยก็ยังไม่ใช่

⚠️

ตรวจสอบความจริง: World models ปัจจุบันจำลองฟิสิกส์แบบสไตล์ ไม่ใช่ฟิสิกส์ที่แม่นยำ พวกเขาเข้าใจว่าสิ่งที่ตกลงมาจะตก ไม่ใช่สมการการเคลื่อนที่ที่แน่นอน

ต้นทุนการคำนวณ

การจำลองโลกนั้นแพง Frame prediction สามารถทำงานบน consumer GPUs ได้ขอบคุณงานจากโปรเจ็กต์เช่น LTX-2 World simulation ต้องการการรักษาสถานะ การติดตามวัตถุ การคำนวณฟิสิกส์ สิ่งนี้ผลักดันความต้องการฮาร์ดแวร์ขึ้นอย่างมาก

การเรียนรู้กฎของโลกนั้นยาก

การสอนโมเดลว่าสิ่งต่างๆ มีลักษณะอย่างไรนั้นตรงไปตรงมา: แสดงตัวอย่างหลายล้านตัวอย่าง การสอนโมเดลว่าโลกทำงานอย่างไรนั้นคลุมเครือกว่า ฟิสิกส์สามารถเรียนรู้ได้จากข้อมูลวิดีโอ แต่เพียงในระดับหนึ่ง โมเดลเห็นว่าวัตถุที่ตกลงมาจะตก แต่มันไม่สามารถสร้างค่าคงที่แรงโน้มถ่วงจากการดูภาพได้

อนาคตแบบผสม: นักวิจัยส่วนใหญ่คาดว่า world models จะรวมการประมาณฟิสิกส์ที่เรียนรู้กับกฎการจำลองที่ชัดเจน เพื่อให้ได้สิ่งที่ดีที่สุดจากทั้งสองแนวทาง

คำถามเกี่ยวกับการควบคุมความคิดสร้างสรรค์

หากโมเดลกำลังจำลองฟิสิกส์ ใครตัดสินใจว่าฟิสิกส์ใด บางครั้งคุณต้องการแรงโน้มถ่วงที่สมจริง บางครั้งคุณต้องการให้ตัวละครของคุณลอย World models ต้องการกลไกในการแทนที่การจำลองเมื่อผู้สร้างต้องการผลลัพธ์ที่ไม่สมจริง

อุตสาหกรรมกำลังมุ่งหน้าไปที่ไหน

Runway ไม่ได้อยู่คนเดียวในทิศทางนี้ เอกสารสถาปัตยกรรมเบื้องหลัง diffusion transformers ได้ให้คำแนะนำเกี่ยวกับการเปลี่ยนแปลงนี้มาหลายเดือน คำถามเป็นเสมอเมื่อไหร่ ไม่ใช่ถ้า

กำลังเกิดขึ้นแล้ว

Runway GWM-1 เปิดตัวแล้ว
Gen-4.5 แสดงการสร้างที่ได้รับข้อมูลจากฟิสิกส์
เอกสารการวิจัยแพร่หลาย
โปรแกรมการเข้าถึงก่อนสำหรับองค์กร

เร็วๆ นี้

การใช้งาน world model แบบโอเพนซอร์ส
สถาปัตยกรรมแบบผสม frame/world
World models เฉพาะทาง (physics, biology, weather)
การจำลองโลกแบบเรียลไทม์

ความสนใจขององค์กรนั้นบอกอะไรบางอย่าง Runway ให้การเข้าถึงก่อนแก่ Ubisoft, Disney ลงทุนหนึ่งพันล้านดอลลาร์กับ OpenAI สำหรับการรวม Sora เหล่านี้ไม่ใช่บริษัทที่สนใจสร้างคลิปโซเชียลมีเดียอย่างรวดเร็ว พวกเขาต้องการ AI ที่สามารถจำลองสภาพแวดล้อมเกม สร้างตัวละครแอนิเมชันที่สอดคล้อง ผลิตเนื้อหาที่ทนต่อการตรวจสอบอย่างมืออาชีพ

ความหมายสำหรับผู้สร้าง

✓ความสอดคล้องของวิดีโอจะดีขึ้นอย่างมาก
✓เนื้อหาที่หนักฟิสิกส์กลายเป็นไปได้
✓การสร้างที่ยาวขึ้นโดยไม่มีการพังทลายของคุณภาพ
○ต้นทุนจะสูงกว่า frame prediction ในตอนแรก
○กลไกการควบคุมความคิดสร้างสรรค์ยังคงพัฒนาอยู่

หากคุณกำลังผลิต AI video วันนี้ world models ไม่ใช่สิ่งที่คุณต้องนำมาใช้ทันที แต่มันเป็นสิ่งที่ควรจับตามอง การเปรียบเทียบระหว่าง Sora 2, Runway และ Veo 3 ที่เราเผยแพร่เมื่อต้นปีนี้จะต้องมีการอัปเดตเมื่อความสามารถของ world model เปิดตัวในแพลตฟอร์มเหล่านี้

สำหรับการใช้งานจริงในตอนนี้ ความแตกต่างมีความสำคัญสำหรับกรณีการใช้งานเฉพาะ:

การแสดงภาพผลิตภัณฑ์: World models จะเป็นเลิศที่นี่ ฟิสิกส์ที่แม่นยำสำหรับวัตถุที่โต้ตอบกัน
ศิลปะนามธรรม: Frame prediction อาจเป็นที่ต้องการจริง คุณต้องการผลลัพธ์ภาพที่ไม่คาดคิด ไม่ใช่ความเป็นจริงที่จำลอง
แอนิเมชันตัวละคร: World models บวก เทคนิคการรักษาเอกลักษณ์ อาจแก้ปัญหาความสอดคล้องได้ในที่สุด

ภาพที่ใหญ่กว่า

World models แสดงถึงการเติบโตของ AI video Frame prediction เพียงพอสำหรับการสร้างคลิปสั้นๆ ความแปลกใหม่ทางภาพ การสาธิตแนวคิด World simulation คือสิ่งที่คุณต้องการสำหรับงานการผลิตจริง ที่เนื้อหาต้องสอดคล้อง น่าเชื่อทางกายภาพ และขยายได้

💡

รักษามุมมอง: เราอยู่ที่ขั้นตอน GWM-1 เทียบเท่ากับ GPT-1 สำหรับการจำลองโลก ช่องว่างระหว่างนี้และ GWM-4 จะมีมหาศาล เช่นเดียวกับช่องว่างระหว่าง GPT-1 และ GPT-4 ที่เปลี่ยนแปลง language AI

Runway ที่ชนะ Google และ OpenAI ในเกณฑ์มาตรฐานด้วยทีม 100 คนบอกเราบางสิ่งที่สำคัญ: แนวทางสถาปัตยกรรมที่ถูกต้องมีความสำคัญมากกว่าทรัพยากร World models อาจเป็นแนวทางนั้น หาก Runway เดิมพันจ่าย พวกเขาจะได้กำหนดรุ่นถัดไปของ video AI

และหากการจำลองฟิสิกส์ดีพอ เราไม่ได้แค่สร้างวิดีโอ เรากำลังสร้างโลกเสมือน หนึ่งการจำลองในแต่ละครั้ง

💡

การอ่านที่เกี่ยวข้อง: สำหรับข้อมูลเพิ่มเติมเกี่ยวกับพื้นฐานทางเทคนิคที่เปิดใช้งานการเปลี่ยนแปลงนี้ ดู การวิเคราะห์เชิงลึกของเราเกี่ยวกับ diffusion transformers สำหรับการเปรียบเทียบเครื่องมือปัจจุบัน ตรวจสอบ Sora 2 vs Runway vs Veo 3