PixVerse R1: จุดเริ่มต้นของวิดีโอ AI แบบโต้ตอบแบบเรียลไทม์

จะเกิดอะไรขึ้นถ้าวิดีโอสามารถตอบสนองต่อคุณได้ในขณะที่ยังคงสร้างขึ้น? PixVerse เพิ่งทำให้คำถามนั้นไร้สาระ

เมื่อวันที่ 13 มกราคม 2026 สตาร์ทอัพ PixVerse ที่ได้รับการสนับสนุนจาก Alibaba ได้เปิดตัวสิ่งที่รู้สึกเหมือนการเปลี่ยนแปลงกระบวนทัศน์มากกว่าการอัปเดตผลิตภัณฑ์ R1 เป็นโมเดลโลกแบบเรียลไทม์ตัวแรกที่สามารถสร้างวิดีโอ 1080p และตอบสนองต่ออินพุตของผู้ใช้ได้ทันที ไม่ใช่เป็นชุด ไม่ใช่หลังแถบความคืบหน้า ตอนนี้เอง ขณะที่คุณดู

💡

การสร้างวิดีโอ AI แบบเรียลไทม์หมายความว่าตัวละครสามารถร้องไห้ เต้นรำ แช่แข็ง หรือสวมท่าทางตามคำสั่ง โดยการเปลี่ยนแปลงเกิดขึ้นทันทีในขณะที่วิดีโอยังคงเล่นต่อไป

จากการประมวลผลแบบแบตช์ไปสู่สตรีมที่ไม่มีที่สิ้นสุด

การสร้างวิดีโอแบบดั้งเดิมทำงานเช่นนี้: คุณเขียนพรอมต์ รอสักครู่ถึงนาที แล้วได้คลิปที่มีความยาวคงที่ เป็นรูปแบบการขอ-ตอบสนองที่ยืมมาจากยุคแรกของการสร้างภาพจากข้อความ PixVerse R1 จึงทำลายแม่พิมพ์นั้นอย่างสิ้นเชิง

ระบบเปลี่ยนการสร้างวิดีโอเป็นสิ่งที่บริษัทเรียกว่า "สตรีมวิज่วลที่ไม่มีที่สิ้นสุด ต่อเนื่อง และเชิงโต้ตอบ" ไม่มีการรอ ไม่มีจุดสิ้นสุดที่กำหนดไว้ล่วงหน้า คุณชี้นำฉากในขณะที่มันแสดงออกมา

1-4

ขั้นตอนการแพร่กระจาย (ลดลงจากหลายสิบ)

1080p

ความละเอียดแบบเรียลไทม์

100M

ผู้ใช้ที่ลงทะเบียน (สิงหาคม 2025)

สถาปัตยกรรมทางเทคนิคเบื้องหลังการสร้างแบบเรียลไทม์

คุณจะทำให้โมเดลการแพร่กระจายเร็วพอสำหรับการใช้งานแบบเรียลไทม์ได้อย่างไร PixVerse แก้ไขโดยสิ่งที่พวกเขาเรียกว่า "temporal trajectory folding"

การสุ่มตัวอย่างการแพร่กระจายมาตรฐานต้องการขั้นตอนการวนซ้ำหลายสิบขั้น โดยแต่ละขั้นจะปรับแต่งผลลัพธ์จากเสียงรบกวนเป็นวิดีโอที่สอดคล้องกัน R1 ยุบกระบวนการนี้ลงไป 1 ถึง 4 ขั้นตอนโดยใช้การทำนายโดยตรง คุณแลกเปลี่ยนความยืดหยุ่นในการสร้างบางอย่างเพื่อให้ได้ความเร็วที่จำเป็นสำหรับการใช้งานแบบโต้ตอบ

✓ข้อได้เปรียบด้านความเร็ว

การตอบสนองแบบเรียลไทม์ช่วยให้สามารถใช้งานใหม่ได้ซึ่งเป็นไปไม่ได้กับการสร้างแบบแบตช์ เช่น การบรรยายเชิงโต้ตอบและเกมส์ AI แนว

✗การสมประสิทธิ์ความยืดหยุ่น

การทำนายโดยตรงให้การควบคุมน้อยกว่าต่อการสร้างที่มีเม็ดละเอียดเมื่อเทียบกับการสุ่มตัวอย่างการแพร่กระจายแบบเต็ม

โมเดลพื้นฐานคือสิ่งที่ PixVerse อธิบายว่าเป็น "Omni Native Multimodal Foundation Model" แทนที่จะส่งเส้นทางข้อความ รูปภาพ เสียง และวิดีโอผ่านขั้นตอนการประมวลผลแยกต่างหาก R1 ถือว่าอินพุตทั้งหมดเป็นสตรีมโทเค็นแบบรวม ทางเลือกด้านสถาปัตยกรรมนี้จึงกำจัดเวลาหน่วงการส่งมอบที่ทำให้ระบบมัลติโมดัลแบบดั้งเดิมเจ็บปวด

หมายความว่าอย่างไรสำหรับผู้สร้างสรรค์?

ผลกระทบไปไกลกว่าการแสดงผลเร็วกว่า การสร้างแบบเรียลไทม์ช่วยเปิดใจเขตขาย ขั้นตอนการทำงานสร้างสรรค์ใหม่ทั้งหมด

🎮

เกมส์ AI แนว

ลองนึกถึงเกมส์ที่สภาพแวดล้อมและเรื่องราวพัฒนาการแบบไดนามิกเพื่อตอบสนองต่อการกระทำของผู้เล่น ไม่มีเรื่องราวที่กำหนดไว้ล่วงหน้า ไม่มีขอบเขตของเนื้อหา

🎬

ภาพยนตร์เชิงโต้ตอบ

ระบบย่อยที่ผู้ชมส่วนหนึ่งได้รับอิทธิพลจากวิธีการที่เรื่องราวแสดงออกมา ไม่ใช่เลือกเล่นด้วยตัวเองของคุณเองพร้อมเส้นทางการแยกสาขา แต่เป็นการบรรยายอย่างต่อเนื่องที่ปรับเปลี่ยนตัวเองอีกครั้ง

🎭

การสั่งการสดแบบสด

ผู้กำกับสามารถปรับเปลี่ยนฉากได้แบบเรียลไทม์ ทดลองจังหวะอารมณ์ที่แตกต่างกัน การเปลี่ยนแปลงแสง หรือการกระทำของตัวละครโดยไม่รอให้แสดงผลใหม่

ภูมิชนเชิงการแข่งขัน: ความเหนือกว่า AI วิดีโอของจีน

PixVerse R1 เสริมแข็งรูปแบบที่ได้สร้างขึ้นตลอดปี 2025: ทีมจีนกำลังนำหน้าในการสร้างวิดีโอ AI บริษัท AI benchmarking firm Artificial Analysis ตามที่ 7 ในแบบจำลองการสร้างวิดีโอชั้นนำ 8 แบบมาจากบริษัทจีน เพียงแต่สตาร์ทอัพของอิสราเอล Lightricks เท่านั้นที่ทำให้ชีวิตติดขัด

💡

สำหรับการมองเห็นที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับวิธีการที่บริษัทจีนสร้างสมดุลใหม่ให้กับภูมิชนที่มีอำนาจแข่งขัน โปรดดูการวิเคราะห์ของเรา: how Chinese companies are reshaping the competitive landscape।

"Sora ยังกำหนดเพดานคุณภาพในการสร้างวิดีโอ แต่มีข้อจำกัดจากเวลาสร้างและค่าใช้จ่าย API" บันทึกวัน Wei Sun นักวิเคราะห์หลักที่ Counterpoint PixVerse R1 โจมตีข้อ จำกัด เหล่านั้นโดยตรง โดยเสนอข้อเสนอคุณค่าที่แตกต่างกัน: ไม่ใช่คุณภาพสูงสุด แต่เป็นปฏิกิริยาสูงสุด

เมตริก	PixVerse R1	โมเดลแบบดั้งเดิม
เวลาตอบสนอง	เรียลไทม์	วินาทีเป็นนาที
ความยาววิดีโอ	สตรีมที่ไม่มีที่สิ้นสุด	คลิปคงที่ (5-30 วินาที)
ปฏิสัมพันธ์ผู้ใช้	ต่อเนื่อง	ขอแล้วรอ
ความละเอียด	1080p	ถึง 4K (แบตช์)

ธุรกิจของวิดีโอแบบเรียลไทม์

PixVerse ไม่ได้เพียงแต่สร้างเทคโนโลยีเท่านั้น พวกเขากำลังสร้างธุรกิจ บริษัทรายงานรายได้ที่เกิดซ้ำประจำปี 40 ล้านเหรียญสหรัฐในเดือนตุลาคม 2025 และเติบโตไปถึง 100 ล้านผู้ใช้ที่ลงทะเบียน ผู้ร่วมก่อตั้ง Jaden Xie มีเป้าหมายเพื่อเพิ่มฐานผู้ใช้นั้นเป็น 200 ล้านคน โดยกลางปี 2026

สตาร์ทอัพได้ระดมทุนกว่า 60 ล้านเหรียญสหรัฐในฤดูใบไม้ร่วงด้วยการนำหน้า Alibaba ด้วยการมีส่วนร่วม Antler เงินทุนนี้จึงถูกนำไปใช้อย่างแข็งขัน: จำนวนพนักงานอาจเพิ่มเกือบเป็นสองเท่าไปถึง 200 คนภายในสิ้นปี

2023

PixVerse ก่อตั้ง

บริษัทเปิดตัวโดยมุ่งเน้นไปที่การสร้างวิดีโอ AI

สิงหาคม 2025

100M ผู้ใช้

แพลตฟอร์มถึง 100 ล้านผู้ใช้ที่ลงทะเบียน

ฤดูใบไม้ร่วง 2025

ได้รับทุน $60M+

รอบการระดมทุนที่นำโดย Alibaba ที่ $40M ARR

มกราคม 2026

เปิดตัว R1

โมเดลโลกแบบเรียลไทม์ตัวแรกเปิดตัวแบบสดประจำ

ลองด้วยตัวคุณเอง

R1 มีให้ใช้งานตอนนี้ที่ realtime.pixverse.ai แม้ว่าการเข้าถึงจะจำกัดเฉพาะการเชิญในขณะนี้ขณะที่ทีมปรับขนาดโครงสร้างพื้นฐาน ถ้าคุณได้ติดตาม วิวัฒนาการของโมเดลโลก หรือทำการทดลองกับ TurboDiffusion R1 แสดงถึงขั้นตอนตรรกะถัดไป: ไม่เพียงแต่การสร้างที่เร็วกว่า แต่เป็นกระบวนทัศน์ปฏิสัมพันธ์ที่แตกต่างกันโดยพื้นฐาน

คำถามไม่ใช่ "AI สามารถสร้างวิดีโอได้เร็วแค่ไหน" อีกต่อไป คำถามคือ "จะเกิดอะไรขึ้นเมื่อการสร้างวิดีโอมีเวลาหน่วงที่รับรู้ได้เป็นศูนย์" PixVerse เพิ่งเริ่มตอบคำถามนั้น ส่วนที่เหลือของเราจะติดตามมา

จะเกิดอะไรขึ้นต่อไป?

การสร้างแบบเรียลไทม์ที่ 1080p เป็นสิ่งที่น่าประทับใจ แต่วิถีการสร้างชัดเจน: ความละเอียดที่สูงกว่า หน้าต่างบริบทที่ยาวขึ้น และการรวมเอกสารแบบหลายโหมดที่ลึกขึ้น เมื่อโครงสร้างพื้นฐานปรับขนาดและเทคนิคเช่นการ folding trajectory ชั่วคราวเป็นจริง เราอาจเห็นการสร้างแบบเรียลไทม์ 4K กลายเป็นปกติ

สำหรับตอนนี้ R1 เป็นข้อพิสูจน์ของแนวคิดที่เป็นสองเท่าเป็นระบบการผลิต มันแสดงให้เห็นว่าบรรทัดระหว่าง "การสร้างวิดีโอ" และ "การสั่งการวิดีโอ" สามารถเลือนหายจนกว่ามันจะหายไปโดยสิ้นเชิง นี่ไม่ใช่เพียงแค่ความสำเร็จด้านเทคนิค มันเป็นสร้างสรรค์

💡

การอ่านที่เกี่ยวข้อง: เรียนรู้วิธี diffusion transformers พลังการสร้างวิดีโอสมัยใหม่ หรือสำรวจ วิธีการของ Runway ไปยังโมเดลโลกสำหรับวิดีโอเชิงโต้ตอบ।

PixVerse R1: จุดเริ่มต้นของวิดีโอ AI แบบโต้ตอบแบบเรียลไทม์

จากการประมวลผลแบบแบตช์ไปสู่สตรีมที่ไม่มีที่สิ้นสุด

สถาปัตยกรรมทางเทคนิคเบื้องหลังการสร้างแบบเรียลไทม์

หมายความว่าอย่างไรสำหรับผู้สร้างสรรค์?

เกมส์ AI แนว

ภาพยนตร์เชิงโต้ตอบ

การสั่งการสดแบบสด

ภูมิชนเชิงการแข่งขัน: ความเหนือกว่า AI วิดีโอของจีน

ธุรกิจของวิดีโอแบบเรียลไทม์

PixVerse ก่อตั้ง

100M ผู้ใช้

ได้รับทุน $60M+

เปิดตัว R1

ลองด้วยตัวคุณเอง

จะเกิดอะไรขึ้นต่อไป?

Henry

Like what you read?

บทความที่เกี่ยวข้อง

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์

โลกแบบจำลองนอกเหนือวิดีโอ: เหตุใดเกมมิ่งและหุ่นยนต์จึงเป็นสนามทดสอบที่แท้จริงสำหรับ AGI

Yann LeCun ลาออกจาก Meta เพื่อลงทุน 3.5 พันล้านดอลลาร์ใน World Models

ชอบบทความนี้ไหม?