Meta Pixel
HenryHenry
4 min read
631 คำ

Kling O1: Kuaishou เข้าร่วมการแข่งขัน Unified Multimodal Video

Kuaishou เพิ่งเปิดตัว Kling O1 ซึ่งเป็น unified multimodal AI ที่คิดในรูปแบบวิดีโอ เสียง และข้อความพร้อมกัน การแข่งขันด้านความฉลาดทางภาพและเสียงกำลังร้อนแรงขึ้น

Kling O1: Kuaishou เข้าร่วมการแข่งขัน Unified Multimodal Video

ในขณะที่ทุกคนกำลังดูการเฉลิมฉลองชัยชนะของ Runway ใน Video Arena นั้น Kuaishou ได้เปิดตัวบางสิ่งที่สำคัญอย่างเงียบๆ Kling O1 ไม่ใช่แค่โมเดลวิดีโออีกรูปแบบหนึ่งเท่านั้น มันเป็นตัวแทนของคลื่นลูกใหม่ของสถาปัตยกรรมแบบ unified multimodal ที่ประมวลผลวิดีโอ เสียง และข้อความเป็นระบบการรับรู้เดียวกัน

ทำไมสิ่งนี้จึงแตกต่าง

ผมติดตามเรื่อง AI video มาหลายปีแล้ว เราเคยเห็นโมเดลที่สร้างวิดีโอจากข้อความ โมเดลที่เพิ่มเสียงเข้าไปภายหลัง โมเดลที่ซิงค์เสียงกับวิดีโอที่มีอยู่ แต่ Kling O1 ทำสิ่งใหม่อย่างพื้นฐาน นั่นคือมันคิดในหลายรูปแบบพร้อมกัน

💡

Unified multimodal หมายความว่าโมเดลไม่มีโมดูล "การเข้าใจวิดีโอ" และ "การสร้างเสียง" ที่แยกกันแล้วมาประกอบเข้าด้วยกัน แต่มีสถาปัตยกรรมเดียวที่ประมวลผลความเป็นจริงทางภาพและเสียงเหมือนมนุษย์ นั่นคือเป็นส่วนรวมที่บูรณาการ

ความแตกต่างนั้นละเอียดอ่อนแต่มีนัยสำคัญมหาศาล โมเดลก่อนหน้านี้ทำงานเหมือนทีมงานภาพยนตร์ ผู้กำกับดูแลภาพ นักออกแบบเสียงดูแลเสียง บรรณาธิการดูแลการซิงค์ Kling O1 ทำงานเหมือนสมองเดียวที่กำลังสัมผัสโลก

ก้าวกระโดดทางเทคนิค

O1
Architecture Generation
2.6
Consumer Version
Dec 2025
Release Date

นี่คือสิ่งที่ทำให้ Kling O1 แตกต่างในระดับสถาปัตยกรรม:

แนวทางก่อนหน้า (Multi-Model)

  • Text encoder ประมวลผล prompt
  • Video model สร้างเฟรม
  • Audio model สร้างเสียง
  • Sync model จัดตำแหน่งเอาต์พุต
  • ผลลัพธ์มักจะรู้สึกไม่เชื่อมต่อกัน

Kling O1 (Unified)

  • Encoder เดียวสำหรับทุกรูปแบบ
  • Joint latent space สำหรับเสียงและวิดีโอ
  • การสร้างพร้อมกัน
  • การซิงโครไนซ์โดยธรรมชาติ
  • ผลลัพธ์รู้สึกสอดคล้องกันตามธรรมชาติ

ผลลัพธ์ในทางปฏิบัติคืออะไร? เมื่อ Kling O1 สร้างวิดีโอของฝนตกบนหน้าต่าง มันไม่ได้สร้างภาพฝนแล้วคิดว่าเสียงฝนเป็นอย่างไร แต่มันสร้างประสบการณ์ของฝนตกบนหน้าต่าง โดยเสียงและภาพเกิดขึ้นพร้อมกัน

Kling Video 2.6: เวอร์ชันสำหรับผู้บริโภค

พร้อมกับ O1 นั้น Kuaishou ได้เปิดตัว Kling Video 2.6 พร้อมการสร้างภาพและเสียงพร้อมกัน นี่คือเวอร์ชันที่เข้าถึงได้ของแนวทาง unified:

🎬

การสร้างแบบครั้งเดียว

วิดีโอและเสียงสร้างขึ้นในกระบวนการเดียว ไม่ต้องซิงค์ภายหลัง ไม่ต้องจัดตำแหน่งด้วยตนเอง สิ่งที่คุณพรอมต์คือสิ่งที่คุณได้รับอย่างสมบูรณ์

🎤

เสียงครบสเปกตรัม

บทสนทนา เสียงบรรยาย เอฟเฟกต์เสียง บรรยากาศโดยรอบ ทั้งหมดสร้างขึ้นตามธรรมชาติ และทั้งหมดซิงค์กับเนื้อหาภาพ

ปฏิวัติเวิร์กโฟลว์

กระบวนการแบบวิดีโอ-จากนั้น-เสียงแบบดั้งเดิมหายไป สร้างเนื้อหาภาพและเสียงที่สมบูรณ์จากพรอมต์เดียว

🎯

การควบคุมระดับมืออาชีพ

แม้จะเป็นการสร้างแบบ unified คุณยังได้รับการควบคุมองค์ประกอบ ปรับอารมณ์ จังหวะ และสไตล์ผ่านการพรอมต์

ความหมายในโลกจริง

ให้ผมวาดภาพว่าสิ่งนี้ช่วยให้ทำอะไรได้:

เวิร์กโฟลว์เก่า (5+ ชั่วโมง):

  1. เขียนสคริปต์และสตอรีบอร์ด
  2. สร้างคลิปวิดีโอ (30 นาที)
  3. ตรวจสอบและสร้างคลิปที่มีปัญหาใหม่ (1 ชั่วโมง)
  4. สร้างเสียงแยก (30 นาที)
  5. เปิดโปรแกรมแก้ไขเสียง
  6. ซิงค์เสียงกับวิดีโอด้วยตนเอง (2+ ชั่วโมง)
  7. แก้ไขปัญหาการซิงค์ เรนเดอร์ใหม่ (1 ชั่วโมง)
  8. ส่งออกเวอร์ชันสุดท้าย

เวิร์กโฟลว์ Kling O1 (30 นาที):

  1. เขียนพรอมต์อธิบายฉากภาพและเสียง
  2. สร้างคลิปที่สมบูรณ์
  3. ตรวจสอบและทำซ้ำหากจำเป็น
  4. ส่งออก

นั่นไม่ใช่การปรับปรุงแบบค่อยเป็นค่อยไป แต่เป็นการเปลี่ยนแปลงประเภทของความหมายของ "การสร้างวิดีโอด้วย AI"

เปรียบเทียบอย่างไร

พื้นที่ AI video มีผู้คนแออัดมาก นี่คือตำแหน่งที่ Kling O1 อยู่:

จุดแข็งของ Kling O1
  • สถาปัตยกรรมแบบ unified multimodal แท้จริง
  • การสร้างภาพและเสียงโดยธรรมชาติ
  • ความเข้าใจการเคลื่อนไหวที่แข็งแกร่ง
  • คุณภาพภาพที่สามารถแข่งขันได้
  • ไม่มีสิ่งผิดปกติในการซิงค์โดยการออกแบบ
การแลกเปลี่ยน
  • โมเดลใหม่กว่า ยังคงเติบโต
  • เครื่องมือระบบนิเวศน้อยกว่า Runway
  • เอกสารส่วนใหญ่เป็นภาษาจีน
  • การเข้าถึง API ยังกำลังเปิดตัวทั่วโลก

เมื่อเทียบกับภูมิทัศน์ปัจจุบัน:

ModelVisual QualityAudioUnified ArchitectureAccess
Runway Gen-4.5#1 on ArenaPost-addNoGlobal
Sora 2StrongNativeYesLimited
Veo 3StrongNativeYesAPI
Kling O1StrongNativeYesRolling out

ภูมิทัศน์ได้เปลี่ยนไป: สถาปัตยกรรมภาพและเสียงแบบ unified กำลังกลายเป็นมาตรฐานสำหรับโมเดลระดับสูง Runway ยังคงเป็นข้อยกเว้นด้วยเวิร์กโฟลว์เสียงแยก

การผลักดัน AI Video ของจีน

💡

Kling ของ Kuaishou เป็นส่วนหนึ่งของรูปแบบที่กว้างขึ้น บริษัทเทคโนโลยีจีนกำลังส่งมอบโมเดลวิดีโอที่น่าประทับใจด้วยความเร็วที่น่าทึ่ง

ในช่วงสองสัปดาห์ที่ผ่านมา:

  • ByteDance Vidi2: โมเดล open-source พารามิเตอร์ 12B
  • Tencent HunyuanVideo-1.5: เป็นมิตรกับ GPU ผู้บริโภค (14GB VRAM)
  • Kuaishou Kling O1: unified multimodal แรก
  • Kuaishou Kling 2.6: ภาพและเสียงพร้อมสำหรับการผลิต

สำหรับด้าน open-source ของการผลักดันนี้ โปรดดู The Open-Source AI Video Revolution

นี่ไม่ใช่เรื่องบังเอิญ บริษัทเหล่านี้เผชิญกับข้อจำกัดการส่งออกชิปและข้อจำกัดบริการคลาวด์ของสหรัฐฯ การตอบสนองของพวกเขา? สร้างแตกต่าง เปิดตัวอย่างเปิดเผย แข่งขันด้านนวัตกรรมสถาปัตยกรรมแทนกำลังคำนวณดิบ

ความหมายสำหรับผู้สร้างสรรค์

หากคุณกำลังสร้างเนื้อหาวิดีโอ นี่คือความคิดที่อัปเดตของผม:

  • เนื้อหาโซเชียลอย่างรวดเร็ว: การสร้างแบบ unified ของ Kling 2.6 เหมาะสมมาก
  • คุณภาพภาพสูงสุด: Runway Gen-4.5 ยังคงนำหน้า
  • โปรเจกต์ที่ให้ความสำคัญกับเสียง: Kling O1 หรือ Sora 2
  • การสร้างท้องถิ่น/ส่วนตัว: Open-source (HunyuanVideo, Vidi2)

คำตอบของ "เครื่องมือที่ถูกต้อง" เพิ่งซับซ้อนมากขึ้น แต่นั่นเป็นสิ่งที่ดี การแข่งขันหมายถึงตัวเลือก และตัวเลือกหมายถึงคุณสามารถจับคู่เครื่องมือกับงานแทนที่จะประนีประนอม

ภาพใหญ่กว่า

⚠️

เรากำลังเห็นการเปลี่ยนผ่านจาก "การสร้างวิดีโอด้วย AI" ไปเป็น "การสร้างประสบการณ์ภาพและเสียงด้วย AI" Kling O1 เข้าร่วมกับ Sora 2 และ Veo 3 ในฐานะโมเดลที่สร้างขึ้นสำหรับจุดหมายปลายทางแทนที่จะทำซ้ำจากจุดเริ่มต้น

การเปรียบเทียบที่ผมกลับมาดูบ่อยๆ: สมาร์ทโฟนยุคแรกคือโทรศัพท์ที่มีแอปเพิ่มเข้ามา iPhone คือคอมพิวเตอร์ที่สามารถโทรออกได้ ความสามารถเหมือนกันบนกระดาษ แต่แนวทางต่างกันโดยพื้นฐาน

Kling O1 เหมือน Sora 2 และ Veo 3 ถูกสร้างขึ้นตั้งแต่เริ่มต้นเป็นระบบภาพและเสียง โมเดลก่อนหน้านี้เป็นระบบวิดีโอที่มีเสียงติดตั้งเข้ามา แนวทาง unified ปฏิบัติต่อเสียงและภาพเป็นด้านที่แยกไม่ออกของความเป็นจริงเดียว

ลองด้วยตัวคุณเอง

Kling เข้าถึงได้ผ่านแพลตฟอร์มเว็บของพวกเขา โดยการเข้าถึง API กำลังขยายตัว หากคุณต้องการสัมผัสประสบการณ์การสร้างแบบ unified multimodal:

  1. เริ่มต้นด้วยสิ่งที่เรียบง่าย: ลูกบอลตีกลับ ฝนตกบนหน้าต่าง
  2. สังเกตว่าเสียงเป็นของภาพอย่างไร
  3. ลองสิ่งที่ซับซ้อน: การสนทนา ฉากถนนที่คึกคัก
  4. รู้สึกถึงความแตกต่างจากเสียงที่ซิงค์ภายหลัง

เทคโนโลยียังใหม่ พรอมต์บางส่วนจะทำให้ผิดหวัง แต่เมื่อมันทำงาน คุณจะรู้สึกถึงการเปลี่ยนแปลง นี่ไม่ใช่วิดีโอบวกเสียง นี่คือการสร้างประสบการณ์

สิ่งที่จะเกิดขึ้นต่อไป

ความหมายขยายเกินกว่าการสร้างวิดีโอ:

ระยะใกล้ (2026):

  • การสร้างแบบ unified ที่ยาวขึ้น
  • AV แบบโต้ตอบแบบเรียลไทม์
  • การขยายการควบคุมที่ละเอียด
  • โมเดลเพิ่มเติมที่นำสถาปัตยกรรมแบบ unified มาใช้

ระยะกลาง (2027+):

  • ความเข้าใจฉากอย่างเต็มรูปแบบ
  • ประสบการณ์ AV แบบโต้ตอบ
  • เครื่องมือการผลิตเสมือนจริง
  • สื่อสร้างสรรค์ใหม่ทั้งหมด

ช่องว่างระหว่างการจินตนาการประสบการณ์และการสร้างมันยังคงยุบลง Kling O1 ไม่ใช่คำตอบสุดท้าย แต่มันเป็นสัญญาณที่ชัดเจนของทิศทาง: แบบ unified แบบองค์รวม แบบประสบการณ์

ธันวาคม 2025 กำลังกลายเป็นเดือนที่สำคัญสำหรับ AI video ชัยชนะของ Runway ใน arena การระเบิดของ open-source จาก ByteDance และ Tencent และการเข้าร่วมของ Kling ในพื้นที่ unified multimodal เครื่องมือกำลังพัฒนาเร็วกว่าที่ใครคาดไว้

หากคุณกำลังสร้างด้วย AI video โปรดใส่ใจกับ Kling ไม่ใช่เพราะมันดีที่สุดในทุกอย่างในวันนี้ แต่เพราะมันแสดงถึงที่ที่ทุกอย่างกำลังมุ่งหน้าไปในวันพรุ่งนี้

อนาคตของ AI video ไม่ใช่วิดีโอที่ดีขึ้นบวกเสียงที่ดีขึ้น แต่เป็นความฉลาดทางภาพและเสียงแบบ unified และอนาคตนั้นเพิ่งมาถึง


Sources

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
AI VideoPika Labs

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์

Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

Read
คู่มือฉบับสมบูรณ์สำหรับการเขียน Prompt วิดีโอ AI ในปี 2025
AI VideoPrompt Engineering

คู่มือฉบับสมบูรณ์สำหรับการเขียน Prompt วิดีโอ AI ในปี 2025

เรียนรู้ศิลปะการสร้าง prompt ที่สามารถสร้างวิดีโอ AI ที่สวยงามน่าทึ่ง ด้วยกรอบการทำงาน 6 ชั้น คำศัพท์ทางภาพยนตร์ และเทคนิคเฉพาะแพลตฟอร์ม

Read
ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า
AI VideoCharacter Consistency

ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า

การศึกษาเชิงเทคนิคลึกซึ้งเกี่ยวกับการนวัตกรรมด้านสถาปัตยกรรมที่ช่วยให้โมเดลวิดีโอ AI สามารถรักษาเอกลักษณ์ตัวละครระหว่างฉากต่างๆ ได้ตั้งแต่กลไกความสนใจ ไปจนถึงการฝังข้อมูลที่รักษาเอกลักษณ์ครับ

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

Kling O1: Kuaishou เข้าร่วมการแข่งขัน Unified Multimodal Video