Meta Pixel
HenryHenry
2 min read
372 คำ

PixVerse R1: จุดเริ่มต้นของวิดีโอ AI แบบโต้ตอบแบบเรียลไทม์

PixVerse ที่ได้รับการสนับสนุนจาก Alibaba เปิดตัว R1 ซึ่งเป็นโมเดลโลกตัวแรกที่สามารถสร้างวิดีโอ 1080p และตอบสนองต่ออินพุตของผู้ใช้ได้ทันที เปิดประตูสู่เกมส์และภาพยนตร์เชิงโต้ตอบที่ไม่มีที่สิ้นสุด

PixVerse R1: จุดเริ่มต้นของวิดีโอ AI แบบโต้ตอบแบบเรียลไทม์

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

จะเกิดอะไรขึ้นถ้าวิดีโอสามารถตอบสนองต่อคุณได้ในขณะที่ยังคงสร้างขึ้น? PixVerse เพิ่งทำให้คำถามนั้นไร้สาระ

เมื่อวันที่ 13 มกราคม 2026 สตาร์ทอัพ PixVerse ที่ได้รับการสนับสนุนจาก Alibaba ได้เปิดตัวสิ่งที่รู้สึกเหมือนการเปลี่ยนแปลงกระบวนทัศน์มากกว่าการอัปเดตผลิตภัณฑ์ R1 เป็นโมเดลโลกแบบเรียลไทม์ตัวแรกที่สามารถสร้างวิดีโอ 1080p และตอบสนองต่ออินพุตของผู้ใช้ได้ทันที ไม่ใช่เป็นชุด ไม่ใช่หลังแถบความคืบหน้า ตอนนี้เอง ขณะที่คุณดู

💡

การสร้างวิดีโอ AI แบบเรียลไทม์หมายความว่าตัวละครสามารถร้องไห้ เต้นรำ แช่แข็ง หรือสวมท่าทางตามคำสั่ง โดยการเปลี่ยนแปลงเกิดขึ้นทันทีในขณะที่วิดีโอยังคงเล่นต่อไป

จากการประมวลผลแบบแบตช์ไปสู่สตรีมที่ไม่มีที่สิ้นสุด

การสร้างวิดีโอแบบดั้งเดิมทำงานเช่นนี้: คุณเขียนพรอมต์ รอสักครู่ถึงนาที แล้วได้คลิปที่มีความยาวคงที่ เป็นรูปแบบการขอ-ตอบสนองที่ยืมมาจากยุคแรกของการสร้างภาพจากข้อความ PixVerse R1 จึงทำลายแม่พิมพ์นั้นอย่างสิ้นเชิง

ระบบเปลี่ยนการสร้างวิดีโอเป็นสิ่งที่บริษัทเรียกว่า "สตรีมวิज่วลที่ไม่มีที่สิ้นสุด ต่อเนื่อง และเชิงโต้ตอบ" ไม่มีการรอ ไม่มีจุดสิ้นสุดที่กำหนดไว้ล่วงหน้า คุณชี้นำฉากในขณะที่มันแสดงออกมา

1-4
ขั้นตอนการแพร่กระจาย (ลดลงจากหลายสิบ)
1080p
ความละเอียดแบบเรียลไทม์
100M
ผู้ใช้ที่ลงทะเบียน (สิงหาคม 2025)

สถาปัตยกรรมทางเทคนิคเบื้องหลังการสร้างแบบเรียลไทม์

คุณจะทำให้โมเดลการแพร่กระจายเร็วพอสำหรับการใช้งานแบบเรียลไทม์ได้อย่างไร PixVerse แก้ไขโดยสิ่งที่พวกเขาเรียกว่า "temporal trajectory folding"

การสุ่มตัวอย่างการแพร่กระจายมาตรฐานต้องการขั้นตอนการวนซ้ำหลายสิบขั้น โดยแต่ละขั้นจะปรับแต่งผลลัพธ์จากเสียงรบกวนเป็นวิดีโอที่สอดคล้องกัน R1 ยุบกระบวนการนี้ลงไป 1 ถึง 4 ขั้นตอนโดยใช้การทำนายโดยตรง คุณแลกเปลี่ยนความยืดหยุ่นในการสร้างบางอย่างเพื่อให้ได้ความเร็วที่จำเป็นสำหรับการใช้งานแบบโต้ตอบ

ข้อได้เปรียบด้านความเร็ว

การตอบสนองแบบเรียลไทม์ช่วยให้สามารถใช้งานใหม่ได้ซึ่งเป็นไปไม่ได้กับการสร้างแบบแบตช์ เช่น การบรรยายเชิงโต้ตอบและเกมส์ AI แนว

การสมประสิทธิ์ความยืดหยุ่น

การทำนายโดยตรงให้การควบคุมน้อยกว่าต่อการสร้างที่มีเม็ดละเอียดเมื่อเทียบกับการสุ่มตัวอย่างการแพร่กระจายแบบเต็ม

โมเดลพื้นฐานคือสิ่งที่ PixVerse อธิบายว่าเป็น "Omni Native Multimodal Foundation Model" แทนที่จะส่งเส้นทางข้อความ รูปภาพ เสียง และวิดีโอผ่านขั้นตอนการประมวลผลแยกต่างหาก R1 ถือว่าอินพุตทั้งหมดเป็นสตรีมโทเค็นแบบรวม ทางเลือกด้านสถาปัตยกรรมนี้จึงกำจัดเวลาหน่วงการส่งมอบที่ทำให้ระบบมัลติโมดัลแบบดั้งเดิมเจ็บปวด

หมายความว่าอย่างไรสำหรับผู้สร้างสรรค์?

ผลกระทบไปไกลกว่าการแสดงผลเร็วกว่า การสร้างแบบเรียลไทม์ช่วยเปิดใจเขตขาย ขั้นตอนการทำงานสร้างสรรค์ใหม่ทั้งหมด

🎮

เกมส์ AI แนว

ลองนึกถึงเกมส์ที่สภาพแวดล้อมและเรื่องราวพัฒนาการแบบไดนามิกเพื่อตอบสนองต่อการกระทำของผู้เล่น ไม่มีเรื่องราวที่กำหนดไว้ล่วงหน้า ไม่มีขอบเขตของเนื้อหา

🎬

ภาพยนตร์เชิงโต้ตอบ

ระบบย่อยที่ผู้ชมส่วนหนึ่งได้รับอิทธิพลจากวิธีการที่เรื่องราวแสดงออกมา ไม่ใช่เลือกเล่นด้วยตัวเองของคุณเองพร้อมเส้นทางการแยกสาขา แต่เป็นการบรรยายอย่างต่อเนื่องที่ปรับเปลี่ยนตัวเองอีกครั้ง

🎭

การสั่งการสดแบบสด

ผู้กำกับสามารถปรับเปลี่ยนฉากได้แบบเรียลไทม์ ทดลองจังหวะอารมณ์ที่แตกต่างกัน การเปลี่ยนแปลงแสง หรือการกระทำของตัวละครโดยไม่รอให้แสดงผลใหม่

ภูมิชนเชิงการแข่งขัน: ความเหนือกว่า AI วิดีโอของจีน

PixVerse R1 เสริมแข็งรูปแบบที่ได้สร้างขึ้นตลอดปี 2025: ทีมจีนกำลังนำหน้าในการสร้างวิดีโอ AI บริษัท AI benchmarking firm Artificial Analysis ตามที่ 7 ในแบบจำลองการสร้างวิดีโอชั้นนำ 8 แบบมาจากบริษัทจีน เพียงแต่สตาร์ทอัพของอิสราเอล Lightricks เท่านั้นที่ทำให้ชีวิตติดขัด

💡

สำหรับการมองเห็นที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับวิธีการที่บริษัทจีนสร้างสมดุลใหม่ให้กับภูมิชนที่มีอำนาจแข่งขัน โปรดดูการวิเคราะห์ของเรา: how Chinese companies are reshaping the competitive landscape

"Sora ยังกำหนดเพดานคุณภาพในการสร้างวิดีโอ แต่มีข้อจำกัดจากเวลาสร้างและค่าใช้จ่าย API" บันทึกวัน Wei Sun นักวิเคราะห์หลักที่ Counterpoint PixVerse R1 โจมตีข้อ จำกัด เหล่านั้นโดยตรง โดยเสนอข้อเสนอคุณค่าที่แตกต่างกัน: ไม่ใช่คุณภาพสูงสุด แต่เป็นปฏิกิริยาสูงสุด

เมตริกPixVerse R1โมเดลแบบดั้งเดิม
เวลาตอบสนองเรียลไทม์วินาทีเป็นนาที
ความยาววิดีโอสตรีมที่ไม่มีที่สิ้นสุดคลิปคงที่ (5-30 วินาที)
ปฏิสัมพันธ์ผู้ใช้ต่อเนื่องขอแล้วรอ
ความละเอียด1080pถึง 4K (แบตช์)

ธุรกิจของวิดีโอแบบเรียลไทม์

PixVerse ไม่ได้เพียงแต่สร้างเทคโนโลยีเท่านั้น พวกเขากำลังสร้างธุรกิจ บริษัทรายงานรายได้ที่เกิดซ้ำประจำปี 40 ล้านเหรียญสหรัฐในเดือนตุลาคม 2025 และเติบโตไปถึง 100 ล้านผู้ใช้ที่ลงทะเบียน ผู้ร่วมก่อตั้ง Jaden Xie มีเป้าหมายเพื่อเพิ่มฐานผู้ใช้นั้นเป็น 200 ล้านคน โดยกลางปี 2026

สตาร์ทอัพได้ระดมทุนกว่า 60 ล้านเหรียญสหรัฐในฤดูใบไม้ร่วงด้วยการนำหน้า Alibaba ด้วยการมีส่วนร่วม Antler เงินทุนนี้จึงถูกนำไปใช้อย่างแข็งขัน: จำนวนพนักงานอาจเพิ่มเกือบเป็นสองเท่าไปถึง 200 คนภายในสิ้นปี

2023

PixVerse ก่อตั้ง

บริษัทเปิดตัวโดยมุ่งเน้นไปที่การสร้างวิดีโอ AI

สิงหาคม 2025

100M ผู้ใช้

แพลตฟอร์มถึง 100 ล้านผู้ใช้ที่ลงทะเบียน

ฤดูใบไม้ร่วง 2025

ได้รับทุน $60M+

รอบการระดมทุนที่นำโดย Alibaba ที่ $40M ARR

มกราคม 2026

เปิดตัว R1

โมเดลโลกแบบเรียลไทม์ตัวแรกเปิดตัวแบบสดประจำ

ลองด้วยตัวคุณเอง

R1 มีให้ใช้งานตอนนี้ที่ realtime.pixverse.ai แม้ว่าการเข้าถึงจะจำกัดเฉพาะการเชิญในขณะนี้ขณะที่ทีมปรับขนาดโครงสร้างพื้นฐาน ถ้าคุณได้ติดตาม วิวัฒนาการของโมเดลโลก หรือทำการทดลองกับ TurboDiffusion R1 แสดงถึงขั้นตอนตรรกะถัดไป: ไม่เพียงแต่การสร้างที่เร็วกว่า แต่เป็นกระบวนทัศน์ปฏิสัมพันธ์ที่แตกต่างกันโดยพื้นฐาน

คำถามไม่ใช่ "AI สามารถสร้างวิดีโอได้เร็วแค่ไหน" อีกต่อไป คำถามคือ "จะเกิดอะไรขึ้นเมื่อการสร้างวิดีโอมีเวลาหน่วงที่รับรู้ได้เป็นศูนย์" PixVerse เพิ่งเริ่มตอบคำถามนั้น ส่วนที่เหลือของเราจะติดตามมา

จะเกิดอะไรขึ้นต่อไป?

การสร้างแบบเรียลไทม์ที่ 1080p เป็นสิ่งที่น่าประทับใจ แต่วิถีการสร้างชัดเจน: ความละเอียดที่สูงกว่า หน้าต่างบริบทที่ยาวขึ้น และการรวมเอกสารแบบหลายโหมดที่ลึกขึ้น เมื่อโครงสร้างพื้นฐานปรับขนาดและเทคนิคเช่นการ folding trajectory ชั่วคราวเป็นจริง เราอาจเห็นการสร้างแบบเรียลไทม์ 4K กลายเป็นปกติ

สำหรับตอนนี้ R1 เป็นข้อพิสูจน์ของแนวคิดที่เป็นสองเท่าเป็นระบบการผลิต มันแสดงให้เห็นว่าบรรทัดระหว่าง "การสร้างวิดีโอ" และ "การสั่งการวิดีโอ" สามารถเลือนหายจนกว่ามันจะหายไปโดยสิ้นเชิง นี่ไม่ใช่เพียงแค่ความสำเร็จด้านเทคนิค มันเป็นสร้างสรรค์

💡

การอ่านที่เกี่ยวข้อง: เรียนรู้วิธี diffusion transformers พลังการสร้างวิดีโอสมัยใหม่ หรือสำรวจ วิธีการของ Runway ไปยังโมเดลโลกสำหรับวิดีโอเชิงโต้ตอบ

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
RunwayWorld Models

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์

GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

Read
โลกแบบจำลองนอกเหนือวิดีโอ: เหตุใดเกมมิ่งและหุ่นยนต์จึงเป็นสนามทดสอบที่แท้จริงสำหรับ AGI
World ModelsAGI

โลกแบบจำลองนอกเหนือวิดีโอ: เหตุใดเกมมิ่งและหุ่นยนต์จึงเป็นสนามทดสอบที่แท้จริงสำหรับ AGI

จาก DeepMind Genie ไปยัง AMI Labs โลกแบบจำลองกำลังกลายเป็นพื้นฐานสำหรับ AI ที่เข้าใจฟิสิกส์อย่างแท้จริง ตลาดเกมมิ่ง $500B อาจเป็นที่ที่พวกมันพิสูจน์ตัวเองก่อน

Read
Yann LeCun ลาออกจาก Meta เพื่อลงทุน 3.5 พันล้านดอลลาร์ใน World Models
World ModelsAMI Labs

Yann LeCun ลาออกจาก Meta เพื่อลงทุน 3.5 พันล้านดอลลาร์ใน World Models

ผู้ได้รับรางวัล Turing Award เปิดตัว AMI Labs บริษัทสตาร์ทอัพใหม่ที่เน้น world models แทน LLM โดยมีเป้าหมายด้านหุ่นยนต์ การดูแลสุขภาพ และการเข้าใจวิดีโอ

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

PixVerse R1: จุดเริ่มต้นของวิดีโอ AI แบบโต้ตอบแบบเรียลไทม์