World Models: แนวหน้าใหม่ของการสร้าง AI Video
เหตุใดการเปลี่ยนจาก frame generation ไปสู่ world simulation จึงกำลังเปลี่ยนแปลง AI video และ GWM-1 ของ Runway บอกอะไรเราเกี่ยวกับทิศทางที่เทคโนโลยีนี้กำลังมุ่งหน้า

เป็นเวลาหลายปีที่การสร้าง AI video หมายถึงการทำนาย pixels แบบ frame-by-frame ตอนนี้อุตสาหกรรมกำลังหันไปสู่สิ่งที่ทะเยอทะยานกว่ามาก: การจำลองโลกทั้งหมด การเปิดตัว GWM-1 ของ Runway เป็นจุดเริ่มต้นของการเปลี่ยนแปลงนี้ และผลกระทบนั้นลึกซึ้งมาก
จาก Frames สู่ Worlds
โมเดลการสร้างวิดีโอแบบดั้งเดิมทำงานเหมือนศิลปินหนังสือพลิกที่ซับซ้อน พวกเขาทำนายว่าเฟรมถัดไปควรมีลักษณะอย่างไรโดยอิงจากเฟรมก่อนหน้า และได้รับคำแนะนำจาก text prompt ของคุณ มันใช้งานได้ แต่มีข้อจำกัดพื้นฐาน
ตัวทำนายเฟรมรู้ว่าไฟมีลักษณะอย่างไร World model รู้ว่าไฟทำอะไร: มันลามไปทั่ว มันเผาผลาญเชื้อเพลิง มันสร้างเงาที่เต้นระบำและปล่อยความร้อนที่บิดเบือนอากาศเหนือมัน
World models ใช้แนวทางที่แตกต่างกัน แทนที่จะถาม "เฟรมถัดไปควรมีลักษณะอย่างไร" พวกเขาถาม "สภาพแวดล้อมนี้ทำงานอย่างไร" ความแตกต่างฟังดูละเอียดอ่อน แต่มันเปลี่ยนแปลงทุกอย่าง
เมื่อคุณบอกตัวทำนายเฟรมให้สร้างลูกบอลกลิ้งลงเนิน มันจะประมาณการว่าอาจมีลักษณะอย่างไรโดยอิงจากข้อมูลการฝึก เมื่อคุณบอก world model สิ่งเดียวกัน มันจะจำลองฟิสิกส์: แรงโน้มถ่วงเร่งลูกบอล แรงเสียดทานกับหญ้าทำให้มันช้าลง โมเมนตัมพามันขึ้นไปบนทางลาดตรงข้าม
GWM-1 ของ Runway ทำอะไรจริงๆ
Runway เปิดตัว GWM-1 (General World Model 1) ในเดือนธันวาคม 2025 และมันแสดงถึงก้าวแรกสู่สาธารณะของพวกเขาในการจำลองโลก โมเดลสร้างสิ่งที่พวกเขาเรียกว่า "dynamic simulation environments" ระบบที่เข้าใจไม่เพียงแค่ว่าสิ่งต่างๆ ปรากฏอย่างไร แต่พวกมันพัฒนาไปตามเวลาอย่างไร
ช่วงเวลามีความสำคัญ การเปิดตัวนี้มาพร้อมกับ Gen-4.5 ที่ขึ้นอันดับ 1 บน Video Arena ผลักดัน OpenAI Sora 2 ลงมาที่อันดับ 4 เหล่านี้ไม่ใช่ความสำเร็จที่ไม่เกี่ยวข้องกัน การปรับปรุง physical accuracy ของ Gen-4.5 ที่วัตถุเคลื่อนที่ด้วยน้ำหนัก โมเมนตัม และแรงที่สมจริง น่าจะมาจากการวิจัย world model ที่ให้ข้อมูลกับสถาปัตยกรรมของมัน
Frame Prediction vs World Simulation
Frame prediction: "ลูกบอลบนหญ้า" → จับคู่รูปแบบจากข้อมูลการฝึก World simulation: "ลูกบอลบนหญ้า" → physics engine กำหนดวิถี แรงเสียดทาน การตีกลับ
ทำไมสิ่งนี้จึงเปลี่ยนแปลงทุกอย่าง
1. ฟิสิกส์ที่ใช้งานได้จริง
โมเดลวิดีโอปัจจุบันต่อสู้กับฟิสิกส์เพราะพวกเขาเพียงแค่เห็นฟิสิกส์ ไม่เคยประสบมัน พวกเขารู้ว่าวัตถุที่ตกลงมาจะตก แต่พวกเขาประมาณการวิถีแทนที่จะคำนวณมัน World models พลิกความสัมพันธ์นี้
ประมาณการฟิสิกส์จากรูปแบบภาพ ลูกบิลเลียดอาจกลิ้งผ่านลูกอื่นเพราะโมเดลไม่เคยเรียนรู้การชนแบบ rigid body
จำลองกฎฟิสิกส์ การตรวจจับการชน การถ่ายโอนโมเมนตัม และแรงเสียดทานถูกคำนวณ ไม่ใช่เดา
นี่คือเหตุผลที่ การจำลองฟิสิกส์ของ Sora 2 ทำให้ผู้คนประทับใจ: OpenAI ลงทุนอย่างหนักในความเข้าใจทางกายภาพ World models ทำให้แนวทางนี้เป็นทางการ
2. Temporal Coherence โดยไม่ต้องใช้เทคนิค
จุดที่เจ็บปวดที่สุดใน AI video คือความสอดคล้องตามเวลา ตัวละครเปลี่ยนรูปลักษณ์ วัตถุ teleport สภาพแวดล้อมเปลี่ยนแปลงแบบสุ่ม เราได้สำรวจ วิธีที่โมเดลกำลังเรียนรู้ที่จะจดจำใบหน้า ผ่านนวัตกรรมทางสถาปัตยกรรมเช่น cross-frame attention
World models เสนอแนวทางที่สง่างามกว่า: หากการจำลองติดตามเอนทิตีเป็นวัตถุที่คงอยู่ในพื้นที่เสมือน พวกมันไม่สามารถเปลี่ยนหรือหายไปแบบสุ่มได้ ลูกบอลมีอยู่ในโลกที่จำลอง มันมีคุณสมบัติ (ขนาด สี ตำแหน่ง ความเร็ว) ที่คงอยู่จนกว่าบางสิ่งในการจำลองเปลี่ยนแปลงมัน
3. วิดีโอที่ยาวขึ้นกลายเป็นไปได้
โมเดลปัจจุบันเสื่อมลงตามเวลา Bidirectional diffusion ของ CraftStory ผลักดันไปสู่วิดีโอ 5 นาทีโดยให้เฟรมหลังมีอิทธิพลต่อเฟรมก่อนหน้า World models เข้าถึงปัญหาเดียวกันแตกต่างกัน: หากการจำลองมีเสถียรภาพ คุณสามารถเรียกใช้มันได้นานเท่าที่คุณต้องการ
Seconds
AI video มาตรฐาน: 4-8 วินาทีก่อนคุณภาพพังทลาย
Minutes
เทคนิคเฉพาะทางช่วยให้วิดีโอยาว 1-5 นาที
Unlimited?
World models แยกระยะเวลาออกจากสถาปัตยกรรม
จุดที่ต้องระวัง (มีเสมอ)
World models ฟังดูเหมือนวิธีแก้ปัญหาการสร้างวิดีโอทุกปัญหา พวกมันไม่ใช่ อย่างน้อยก็ยังไม่ใช่
ตรวจสอบความจริง: World models ปัจจุบันจำลองฟิสิกส์แบบสไตล์ ไม่ใช่ฟิสิกส์ที่แม่นยำ พวกเขาเข้าใจว่าสิ่งที่ตกลงมาจะตก ไม่ใช่สมการการเคลื่อนที่ที่แน่นอน
ต้นทุนการคำนวณ
การจำลองโลกนั้นแพง Frame prediction สามารถทำงานบน consumer GPUs ได้ขอบคุณงานจากโปรเจ็กต์เช่น LTX-2 World simulation ต้องการการรักษาสถานะ การติดตามวัตถุ การคำนวณฟิสิกส์ สิ่งนี้ผลักดันความต้องการฮาร์ดแวร์ขึ้นอย่างมาก
การเรียนรู้กฎของโลกนั้นยาก
การสอนโมเดลว่าสิ่งต่างๆ มีลักษณะอย่างไรนั้นตรงไปตรงมา: แสดงตัวอย่างหลายล้านตัวอย่าง การสอนโมเดลว่าโลกทำงานอย่างไรนั้นคลุมเครือกว่า ฟิสิกส์สามารถเรียนรู้ได้จากข้อมูลวิดีโอ แต่เพียงในระดับหนึ่ง โมเดลเห็นว่าวัตถุที่ตกลงมาจะตก แต่มันไม่สามารถสร้างค่าคงที่แรงโน้มถ่วงจากการดูภาพได้
อนาคตแบบผสม: นักวิจัยส่วนใหญ่คาดว่า world models จะรวมการประมาณฟิสิกส์ที่เรียนรู้กับกฎการจำลองที่ชัดเจน เพื่อให้ได้สิ่งที่ดีที่สุดจากทั้งสองแนวทาง
คำถามเกี่ยวกับการควบคุมความคิดสร้างสรรค์
หากโมเดลกำลังจำลองฟิสิกส์ ใครตัดสินใจว่าฟิสิกส์ใด บางครั้งคุณต้องการแรงโน้มถ่วงที่สมจริง บางครั้งคุณต้องการให้ตัวละครของคุณลอย World models ต้องการกลไกในการแทนที่การจำลองเมื่อผู้สร้างต้องการผลลัพธ์ที่ไม่สมจริง
อุตสาหกรรมกำลังมุ่งหน้าไปที่ไหน
Runway ไม่ได้อยู่คนเดียวในทิศทางนี้ เอกสารสถาปัตยกรรมเบื้องหลัง diffusion transformers ได้ให้คำแนะนำเกี่ยวกับการเปลี่ยนแปลงนี้มาหลายเดือน คำถามเป็นเสมอเมื่อไหร่ ไม่ใช่ถ้า
กำลังเกิดขึ้นแล้ว
- Runway GWM-1 เปิดตัวแล้ว
- Gen-4.5 แสดงการสร้างที่ได้รับข้อมูลจากฟิสิกส์
- เอกสารการวิจัยแพร่หลาย
- โปรแกรมการเข้าถึงก่อนสำหรับองค์กร
เร็วๆ นี้
- การใช้งาน world model แบบโอเพนซอร์ส
- สถาปัตยกรรมแบบผสม frame/world
- World models เฉพาะทาง (physics, biology, weather)
- การจำลองโลกแบบเรียลไทม์
ความสนใจขององค์กรนั้นบอกอะไรบางอย่าง Runway ให้การเข้าถึงก่อนแก่ Ubisoft, Disney ลงทุนหนึ่งพันล้านดอลลาร์กับ OpenAI สำหรับการรวม Sora เหล่านี้ไม่ใช่บริษัทที่สนใจสร้างคลิปโซเชียลมีเดียอย่างรวดเร็ว พวกเขาต้องการ AI ที่สามารถจำลองสภาพแวดล้อมเกม สร้างตัวละครแอนิเมชันที่สอดคล้อง ผลิตเนื้อหาที่ทนต่อการตรวจสอบอย่างมืออาชีพ
ความหมายสำหรับผู้สร้าง
- ✓ความสอดคล้องของวิดีโอจะดีขึ้นอย่างมาก
- ✓เนื้อหาที่หนักฟิสิกส์กลายเป็นไปได้
- ✓การสร้างที่ยาวขึ้นโดยไม่มีการพังทลายของคุณภาพ
- ○ต้นทุนจะสูงกว่า frame prediction ในตอนแรก
- ○กลไกการควบคุมความคิดสร้างสรรค์ยังคงพัฒนาอยู่
หากคุณกำลังผลิต AI video วันนี้ world models ไม่ใช่สิ่งที่คุณต้องนำมาใช้ทันที แต่มันเป็นสิ่งที่ควรจับตามอง การเปรียบเทียบระหว่าง Sora 2, Runway และ Veo 3 ที่เราเผยแพร่เมื่อต้นปีนี้จะต้องมีการอัปเดตเมื่อความสามารถของ world model เปิดตัวในแพลตฟอร์มเหล่านี้
สำหรับการใช้งานจริงในตอนนี้ ความแตกต่างมีความสำคัญสำหรับกรณีการใช้งานเฉพาะ:
- การแสดงภาพผลิตภัณฑ์: World models จะเป็นเลิศที่นี่ ฟิสิกส์ที่แม่นยำสำหรับวัตถุที่โต้ตอบกัน
- ศิลปะนามธรรม: Frame prediction อาจเป็นที่ต้องการจริง คุณต้องการผลลัพธ์ภาพที่ไม่คาดคิด ไม่ใช่ความเป็นจริงที่จำลอง
- แอนิเมชันตัวละคร: World models บวก เทคนิคการรักษาเอกลักษณ์ อาจแก้ปัญหาความสอดคล้องได้ในที่สุด
ภาพที่ใหญ่กว่า
World models แสดงถึงการเติบโตของ AI video Frame prediction เพียงพอสำหรับการสร้างคลิปสั้นๆ ความแปลกใหม่ทางภาพ การสาธิตแนวคิด World simulation คือสิ่งที่คุณต้องการสำหรับงานการผลิตจริง ที่เนื้อหาต้องสอดคล้อง น่าเชื่อทางกายภาพ และขยายได้
รักษามุมมอง: เราอยู่ที่ขั้นตอน GWM-1 เทียบเท่ากับ GPT-1 สำหรับการจำลองโลก ช่องว่างระหว่างนี้และ GWM-4 จะมีมหาศาล เช่นเดียวกับช่องว่างระหว่าง GPT-1 และ GPT-4 ที่เปลี่ยนแปลง language AI
Runway ที่ชนะ Google และ OpenAI ในเกณฑ์มาตรฐานด้วยทีม 100 คนบอกเราบางสิ่งที่สำคัญ: แนวทางสถาปัตยกรรมที่ถูกต้องมีความสำคัญมากกว่าทรัพยากร World models อาจเป็นแนวทางนั้น หาก Runway เดิมพันจ่าย พวกเขาจะได้กำหนดรุ่นถัดไปของ video AI
และหากการจำลองฟิสิกส์ดีพอ เราไม่ได้แค่สร้างวิดีโอ เรากำลังสร้างโลกเสมือน หนึ่งการจำลองในแต่ละครั้ง
การอ่านที่เกี่ยวข้อง: สำหรับข้อมูลเพิ่มเติมเกี่ยวกับพื้นฐานทางเทคนิคที่เปิดใช้งานการเปลี่ยนแปลงนี้ ดู การวิเคราะห์เชิงลึกของเราเกี่ยวกับ diffusion transformers สำหรับการเปรียบเทียบเครื่องมือปัจจุบัน ตรวจสอบ Sora 2 vs Runway vs Veo 3
บทความนี้มีประโยชน์หรือไม่?

Henry
นักเทคโนโลยีสร้างสรรค์นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ
Adobe เพิ่งทำให้ Gen-4.5 ของ Runway กลายเป็นหัวใจหลักของวิดีโอ AI ใน Firefly พันธมิตรเชิงกลยุทธ์นี้กำลังเปลี่ยนแปลงเวิร์กโฟลว์สร้างสรรค์สำหรับมืออาชีพ สตูดิโอ และแบรนด์ทั่วโลก

Runway Gen-4.5 ขึ้นอันดับ 1: ทีม 100 คนสามารถแซงหน้า Google และ OpenAI ได้อย่างไร
Runway ได้ขึ้นสู่อันดับ 1 บน Video Arena ด้วย Gen-4.5 พิสูจน์ว่าทีมเล็กสามารถแข่งขันกับบริษัทยักษ์มูลค่าล้านล้านดอลลาร์ในการสร้างวิดีโอ AI ได้

Sora 2 vs Runway Gen-4 vs Veo 3: การต่อสู้เพื่อความเป็นเจ้าแห่ง AI Video
เราเปรียบเทียบตัวสร้างวิดีโอ AI ชั้นนำสามตัวของปี 2025 ครับ เสียงพื้นฐาน คุณภาพภาพ ราคา และกรณีการใช้งานในโลกจริงครับ