Meta Pixel
HenryHenry
3 min read
475 คำ

Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents

World models กำลังสอนให้ AI เข้าใจความเป็นจริงทางกายภาพ ช่วยให้หุ่นยนต์สามารถวางแผนการกระทำและจำลองผลลัพธ์ก่อนที่จะขยับ actuator แม้เพียงตัวเดียว

Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents

Large language models พิชิตข้อความแล้ว Vision models เชี่ยวชาญรูปภาพแล้ว AI agents เรียนรู้การใช้เครื่องมือแล้ว บัดนี้ หมวดหมู่ใหม่กำลังเกิดขึ้นซึ่งอาจยิ่งใหญ่กว่าทั้งหมด: video language models หรือที่นักวิจัยเรียกกันมากขึ้นว่า "world models"

เราใช้เวลาหลายปีที่ผ่านมาสอนให้ AI อ่าน เขียน และแม้แต่ใช้เหตุผลผ่านปัญหาที่ซับซ้อน แต่มีสิ่งหนึ่งที่ควรพิจารณา: ทั้งหมดนี้เกิดขึ้นในโลกดิจิทัล ChatGPT สามารถเขียนบทกวีเกี่ยวกับการเดินผ่านป่า แต่ไม่มีความเข้าใจว่าการก้าวข้ามท่อนไม้ที่ล้มหรือก้มลงใต้กิ่งไม้ต่ำเป็นอย่างไร

World models มาเพื่อเปลี่ยนแปลงสิ่งนี้

Video Language Models คืออะไร?

💡

Video language models (VLMs) ประมวลผลลำดับภาพและภาษาพร้อมกัน ช่วยให้ AI เข้าใจไม่เพียงแค่สิ่งที่อยู่ในเฟรม แต่ยังรวมถึงว่าฉากพัฒนาอย่างไรตามเวลาและอะไรอาจเกิดขึ้นต่อไป

ลองนึกภาพว่าพวกมันเป็นวิวัฒนาการของ vision-language models แต่มีสิ่งสำคัญเพิ่มเติม: ความเข้าใจเชิงเวลา ในขณะที่ VLM มาตรฐานดูภาพเดียวและตอบคำถามเกี่ยวกับมัน video language model สังเกตลำดับที่คลี่คลายและเรียนรู้กฎที่ควบคุมความเป็นจริงทางกายภาพ

นี่ไม่ใช่แค่ความอยากรู้ทางวิชาการ ผลกระทบในทางปฏิบัตินั้นมหาศาล

เมื่อหุ่นยนต์ต้องหยิบถ้วยกาแฟ มันไม่สามารถแค่จดจำ "ถ้วย" ในภาพได้ มันต้องเข้าใจ:

  • วัตถุมีพฤติกรรมอย่างไรเมื่อถูกผลักหรือยก
  • เกิดอะไรขึ้นเมื่อของเหลวกระฉอก
  • การเคลื่อนไหวของมันเองส่งผลต่อฉากอย่างไร
  • การกระทำใดที่เป็นไปได้ทางกายภาพเทียบกับเป็นไปไม่ได้

นี่คือจุดที่ world models เข้ามามีบทบาท

จากการจำลองสู่การกระทำ

🤖

ความฉลาดทางกายภาพ

World models สร้างการจำลองคล้ายวิดีโอของอนาคตที่เป็นไปได้ ช่วยให้หุ่นยนต์ "จินตนาการ" ผลลัพธ์ก่อนที่จะตัดสินใจทำ

แนวคิดนี้สง่างาม: แทนที่จะเขียนกฎทางฟิสิกส์แบบตายตัว คุณฝึก AI ด้วยวิดีโอหลายล้านชั่วโมงที่แสดงว่าโลกทำงานจริงอย่างไร โมเดลเรียนรู้แรงโน้มถ่วง แรงเสียดทาน ความคงอยู่ของวัตถุ และความเป็นเหตุเป็นผลไม่ใช่จากสมการ แต่จากการสังเกต

Cosmos ของ NVIDIA เป็นหนึ่งในความพยายามที่ทะเยอทะยานที่สุดในเรื่องนี้ World model ของพวกเขาถูกออกแบบโดยเฉพาะสำหรับแอปพลิเคชันหุ่นยนต์ ซึ่งการเข้าใจความเป็นจริงทางกายภาพไม่ใช่ทางเลือก แต่เป็นสิ่งจำเป็น

Genie 3 ของ Google DeepMind ใช้แนวทางที่แตกต่าง โดยมุ่งเน้นที่การสร้างโลกแบบโต้ตอบที่โมเดลสามารถ "เล่น" ได้เหมือนสภาพแวดล้อมวิดีโอเกม

หุ่นยนต์แบบดั้งเดิม

กฎทางฟิสิกส์ที่เขียนด้วยมือ, กรณีขอบที่เปราะบาง, อาร์เรย์เซ็นเซอร์ที่มีราคาแพง, การปรับตัวช้าต่อสภาพแวดล้อมใหม่

แนวทาง World Model

สัญชาตญาณทางฟิสิกส์ที่เรียนรู้มา, การเสื่อมสภาพอย่างนุ่มนวล, ความต้องการฮาร์ดแวร์ที่เรียบง่ายกว่า, การถ่ายโอนอย่างรวดเร็วไปยังสถานการณ์ใหม่

การทดลอง PAN

นักวิจัยที่ Mohamed bin Zayed University เพิ่งเปิดตัว PAN ซึ่งเป็น world model ทั่วไปที่ทำสิ่งที่พวกเขาเรียกว่า "การทดลองความคิด" ในการจำลองที่ควบคุม

🧪

PAN ทำงานอย่างไร

โดยใช้ Generative Latent Prediction (GLP) และสถาปัตยกรรม Causal Swin-DPM, PAN รักษาความสอดคล้องของฉากตลอดลำดับที่ยาวนานในขณะที่ทำนายผลลัพธ์ที่เป็นไปได้ทางกายภาพ

นวัตกรรมสำคัญคือการปฏิบัติต่อการสร้างแบบจำลองโลกเป็นปัญหาวิดีโอเชิงกำเนิด แทนที่จะเขียนโปรแกรมฟิสิกส์อย่างชัดเจน โมเดลเรียนรู้ที่จะสร้างการต่อเนื่องของวิดีโอที่เคารพกฎทางฟิสิกส์ เมื่อได้รับฉากเริ่มต้นและการกระทำที่เสนอ มันสามารถ "จินตนาการ" ว่าจะเกิดอะไรขึ้นต่อไป

สิ่งนี้มีผลกระทบอย่างลึกซึ้งต่อหุ่นยนต์ ก่อนที่หุ่นยนต์ฮิวแมนอยด์จะยื่นมือไปหยิบถ้วยกาแฟนั้น มันสามารถรันการทดลองจำลองหลายร้อยครั้ง เรียนรู้ว่ามุมเข้าใกล้แบบไหนได้ผลและแบบไหนจบลงด้วยกาแฟบนพื้น

อนาคตหุ่นยนต์พันล้านตัว

1B
การคาดการณ์หุ่นยนต์ฮิวแมนอยด์ภายในปี 2050
3x
การเติบโตของการลงทุน AI หุ่นยนต์ตั้งแต่ปี 2023

เหล่านี้ไม่ใช่ตัวเลขสุ่มที่ดึงมาเพื่อสร้างผลกระทบดราม่า การคาดการณ์ของอุตสาหกรรมชี้ไปที่อนาคตอย่างแท้จริงที่หุ่นยนต์ฮิวแมนอยด์จะกลายเป็นเรื่องธรรมดาเหมือนสมาร์ทโฟน และทุกตัวจะต้องมี world models เพื่อทำงานอย่างปลอดภัยเคียงข้างมนุษย์

การประยุกต์ใช้ขยายไปไกลกว่าหุ่นยนต์ฮิวแมนอยด์:

ปัจจุบัน

การจำลองโรงงาน

ฝึกอบรมพนักงานในสภาพแวดล้อมเสมือนจริงก่อนส่งพวกเขาไปยังพื้นโรงงานจริง

2025

ยานยนต์อัตโนมัติ

ระบบความปลอดภัยที่ทำนายสถานการณ์อุบัติเหตุและดำเนินการป้องกัน

2026

การนำทางคลังสินค้า

หุ่นยนต์ที่เข้าใจพื้นที่ซับซ้อนและปรับตัวตามผังที่เปลี่ยนแปลง

2027+

ผู้ช่วยในบ้าน

หุ่นยนต์ที่นำทางในพื้นที่อยู่อาศัยของมนุษย์อย่างปลอดภัยและจัดการวัตถุในชีวิตประจำวัน

จุดที่การสร้างวิดีโอพบกับความเข้าใจโลก

หากคุณติดตาม AI video generation คุณอาจเห็นความทับซ้อนบางอย่างที่นี่ เครื่องมืออย่าง Sora 2 และ Veo 3 สร้างวิดีโอที่สมจริงอย่างน่าทึ่งแล้ว พวกมันก็เป็น world models ด้วยหรือเปล่า?

ใช่และไม่ใช่

OpenAI ได้วางตำแหน่ง Sora อย่างชัดเจนว่ามีความสามารถในการจำลองโลก โมเดลนี้เข้าใจบางอย่างเกี่ยวกับฟิสิกส์อย่างชัดเจน ดูการสร้างของ Sora ใดก็ได้ และคุณจะเห็นแสงสว่างที่สมจริง การเคลื่อนไหวที่สมเหตุสมผล และวัตถุที่มีพฤติกรรมถูกต้องเป็นส่วนใหญ่

แต่มีความแตกต่างสำคัญระหว่างการสร้างวิดีโอที่ดูสมเหตุสมผลและการเข้าใจความเป็นเหตุเป็นผลทางกายภาพอย่างแท้จริง ตัวสร้างวิดีโอปัจจุบันถูกปรับให้เหมาะสมสำหรับความสมจริงทางภาพ World models ถูกปรับให้เหมาะสมสำหรับความแม่นยำในการทำนาย

💡

การทดสอบไม่ใช่ "สิ่งนี้ดูจริงไหม?" แต่เป็น "เมื่อให้การกระทำ X โมเดลทำนายผลลัพธ์ Y ได้ถูกต้องไหม?" นั่นเป็นมาตรฐานที่ยากกว่ามากที่จะผ่าน

ปัญหาภาพหลอน

นี่คือความจริงที่ไม่สบายใจ: world models ประสบปัญหาภาพหลอนเช่นเดียวกับที่รบกวน LLMs

เมื่อ ChatGPT ระบุข้อเท็จจริงที่ผิดอย่างมั่นใจ มันน่ารำคาญ เมื่อ world model ทำนายอย่างมั่นใจว่าหุ่นยนต์สามารถเดินทะลุกำแพงได้ มันเป็นอันตราย

⚠️

ภาพหลอนของ world model ในระบบทางกายภาพอาจก่อให้เกิดอันตรายจริง ข้อจำกัดด้านความปลอดภัยและชั้นการตรวจสอบเป็นสิ่งจำเป็นก่อนการใช้งานร่วมกับมนุษย์

ระบบปัจจุบันเสื่อมสภาพในลำดับที่ยาวขึ้น สูญเสียความสอดคล้องยิ่งพวกมันฉายไปไกลในอนาคต สิ่งนี้สร้างความตึงเครียดพื้นฐาน: การทำนายที่มีประโยชน์ที่สุดคือการทำนายระยะยาว แต่พวกมันก็เป็นสิ่งที่เชื่อถือได้น้อยที่สุดเช่นกัน

นักวิจัยกำลังโจมตีปัญหานี้จากหลายมุม บางคนมุ่งเน้นที่ข้อมูลการฝึกที่ดีกว่า คนอื่นทำงานเกี่ยวกับนวัตกรรมสถาปัตยกรรมที่รักษาความสอดคล้องของฉาก ยังมีคนอื่นสนับสนุนแนวทางผสมที่รวม world models ที่เรียนรู้มากับข้อจำกัดทางกายภาพที่ชัดเจน

การพัฒนาก้าวกระโดดของ Qwen 3-VL

ในด้าน vision-language นั้น Qwen 3-VL ของ Alibaba แสดงถึง state of the art ปัจจุบันสำหรับโมเดลโอเพนซอร์ส

โมเดลเรือธง Qwen3-VL-235B แข่งขันกับระบบ proprietary ชั้นนำในเกณฑ์มาตรฐานมัลติโมดัลที่ครอบคลุม Q&A ทั่วไป, 3D grounding, ความเข้าใจวิดีโอ, OCR และความเข้าใจเอกสาร

สิ่งที่ทำให้ Qwen 3-VL น่าสนใจเป็นพิเศษคือความสามารถ "agentic" ของมัน โมเดลสามารถดำเนินการอินเทอร์เฟซกราฟิก จดจำองค์ประกอบ UI เข้าใจฟังก์ชันของพวกมัน และทำงานในโลกจริงผ่านการเรียกใช้เครื่องมือ

นี่คือสะพานเชื่อมระหว่างความเข้าใจและการกระทำที่ world models ต้องการ

ทำไมสิ่งนี้จึงสำคัญสำหรับครีเอเตอร์

หากคุณเป็นครีเอเตอร์วิดีโอ ผู้สร้างภาพยนตร์ หรือแอนิเมเตอร์ world models อาจดูห่างไกลจากงานประจำวันของคุณ แต่ผลกระทบนั้นใกล้กว่าที่คุณคิด

เครื่องมือ AI video ปัจจุบันมีปัญหากับความสอดคล้องทางกายภาพ วัตถุทะลุผ่านกัน แรงโน้มถ่วงทำงานไม่สม่ำเสมอ เหตุและผลกลับสับสน เหล่านี้ล้วนเป็นอาการของโมเดลที่สามารถสร้างพิกเซลที่สมจริงแต่ไม่เข้าใจกฎทางกายภาพที่อยู่เบื้องหลังสิ่งที่พวกมันกำลังแสดง

World models ที่ฝึกจากชุดข้อมูลวิดีโอขนาดใหญ่ในที่สุดอาจป้อนกลับเข้าสู่การสร้างวิดีโอ สร้างเครื่องมือ AI ที่เคารพกฎทางฟิสิกส์โดยธรรมชาติ ลองจินตนาการถึงตัวสร้างวิดีโอที่คุณไม่ต้องขอ "ฟิสิกส์ที่สมจริง" เพราะโมเดลรู้อยู่แล้วว่าความเป็นจริงทำงานอย่างไร

💡

อ่านเพิ่มเติม: สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิวัฒนาการของการสร้างวิดีโอ ดูบทความเชิงลึกของเราเกี่ยวกับ diffusion transformers และ world models ในการสร้างวิดีโอ

เส้นทางข้างหน้า

World models อาจเป็นตัวแทนของเป้าหมายที่ทะเยอทะยานที่สุดใน AI: การสอนเครื่องจักรให้เข้าใจความเป็นจริงทางกายภาพแบบที่มนุษย์ทำ ไม่ใช่ผ่านการเขียนโปรแกรมอย่างชัดเจน แต่ผ่านการสังเกต การอนุมาน และจินตนาการ

เรายังอยู่ในช่วงเริ่มต้น ระบบปัจจุบันเป็นการสาธิตที่น่าประทับใจ ไม่ใช่โซลูชันที่พร้อมใช้งานจริง แต่เส้นทางนั้นชัดเจน

สิ่งที่เรามีตอนนี้:

  • ความสอดคล้องของลำดับจำกัด
  • โมเดลเฉพาะโดเมน
  • ต้นทุนการคำนวณสูง
  • การใช้งานในระดับวิจัย

สิ่งที่กำลังมา:

  • ความเข้าใจเชิงเวลาที่ขยายออก
  • World models วัตถุประสงค์ทั่วไป
  • การใช้งานบนอุปกรณ์ edge
  • การผสานรวมหุ่นยนต์เชิงพาณิชย์

บริษัทที่ลงทุนอย่างหนักในพื้นที่นี้ ได้แก่ NVIDIA, Google DeepMind, OpenAI และสตาร์ทอัพจำนวนมาก กำลังพนันว่าความฉลาดทางกายภาพคือพรมแดนถัดไปหลังจากความฉลาดทางดิจิทัล

เมื่อพิจารณาว่า LLMs สร้างการเปลี่ยนแปลงอย่างมากสำหรับงานที่ใช้ข้อความ ลองจินตนาการถึงผลกระทบเมื่อ AI สามารถเข้าใจและโต้ตอบกับโลกทางกายภาพได้อย่างคล่องแคล่วเท่าเทียมกัน

นั่นคือคำมั่นสัญญาของ video language models นั่นคือเหตุผลที่พรมแดนนี้มีความสำคัญ

💡

อ่านเพิ่มเติม: สำรวจว่า AI video กำลังเปลี่ยนแปลงกระบวนการทำงานสร้างสรรค์อย่างไรในการรายงานของเราเกี่ยวกับ native audio generation และ enterprise adoption

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
RunwayWorld Models

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์

GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

Read
World Models: แนวหน้าใหม่ของการสร้าง AI Video
AI VideoWorld Models

World Models: แนวหน้าใหม่ของการสร้าง AI Video

เหตุใดการเปลี่ยนจาก frame generation ไปสู่ world simulation จึงกำลังเปลี่ยนแปลง AI video และ GWM-1 ของ Runway บอกอะไรเราเกี่ยวกับทิศทางที่เทคโนโลยีนี้กำลังมุ่งหน้า

Read
YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
YouTubeVeo 3

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน

Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

Video Language Models: พรมแดนใหม่ถัดจาก LLM และ AI Agents