Kling 2.6: Voice Cloning และ Motion Control นิยามใหม่ของการสร้างวิดีโอ AI

ลองจินตนาการดูว่าตัวละคร AI ของคุณสามารถพูดด้วยเสียงของคุณ เต้นตามการเคลื่อนไหวของคุณ และทำทั้งหมดนี้ในการสร้างครั้งเดียว? Kling 2.6 ทำให้สิ่งนี้เป็นจริงแล้ว

Kuaishou เปิดตัว Kling Video 2.6 เมื่อวันที่ 3 ธันวาคม และนี่ไม่ใช่แค่การอัปเดตธรรมดา การเปิดตัวครั้งนี้เปลี่ยนแปลงวิธีคิดของเราเกี่ยวกับการสร้างวิดีโอ AI อย่างสิ้นเชิง ด้วยการนำเสนอสิ่งที่อุตสาหกรรมตามหามาหลายปี: การสร้างภาพและเสียงพร้อมกัน

การปฏิวัติแบบ Single-Pass

นี่คือเวิร์กโฟลว์วิดีโอ AI แบบดั้งเดิม: สร้างวิดีโอไม่มีเสียง จากนั้นพยายามเพิ่มเสียงแยกต่างหาก หวังว่า lip-sync จะไม่แปลกเกินไป ภาวนาให้เอฟเฟกต์เสียงตรงกับแอคชั่น มันยุ่งยาก ใช้เวลานาน และมักจะสร้างความรู้สึก "เสียงไม่ตรงกับภาพ" ที่เราทุกคนเรียนรู้ที่จะยอมรับ

Kling 2.6 โยนเวิร์กโฟลว์นั้นทิ้งไป

💡

ด้วยการสร้างภาพและเสียงพร้อมกัน คุณอธิบายสิ่งที่ต้องการใน prompt เดียว และโมเดลจะสร้างวิดีโอ คำพูด เอฟเฟกต์เสียง และบรรยากาศแวดล้อมพร้อมกัน ไม่มี pass เสียงแยกต่างหาก ไม่มีการซิงค์ด้วยตนเอง สร้างครั้งเดียว รวมทุกอย่าง

โมเดลรองรับประเภทเสียงที่หลากหลายน่าประทับใจ:

ประเภทเสียง

10 วิ

ความยาวสูงสุด

1080p

ความละเอียด

ตั้งแต่คำพูดและบทสนทนาไปจนถึงการบรรยาย การร้องเพลง แร็พ และ soundscape แบบ ambient, Kling 2.6 สามารถสร้างเสียงแบบเดี่ยวหรือรวมกันได้ ตัวละครสามารถพูดในขณะที่นกร้องอยู่เบื้องหลังและเสียงเท้าก้องบนถนนหิน ทั้งหมดถูกสังเคราะห์ใน pass เดียว

Voice Cloning: เสียงของคุณ ริมฝีปากของพวกเขา

การฝึกเสียงแบบกำหนดเองกลายเป็นจุดเด่น อัปโหลดตัวอย่างเสียงของคุณ ฝึกโมเดล และทันใดนั้นตัวละคร AI ของคุณก็พูดด้วยลักษณะเสียงของคุณ

✓ศักยภาพเชิงสร้างสรรค์

เหมาะสำหรับครีเอเตอร์ที่ต้องการเสียงตัวละครที่มีแบรนด์ พอดแคสเตอร์ที่กำลังทดลองกับโฮสต์ AI หรือนักดนตรีที่สำรวจเสียงร้องสังเคราะห์

✗ข้อพิจารณาด้านจริยธรรม

Voice cloning ทำให้เกิดความกังวลเรื่องความยินยอมและการใช้ในทางที่ผิด Kuaishou จำเป็นต้องมีระบบยืนยันตัวตนที่แข็งแกร่งเพื่อป้องกันการทำซ้ำเสียงโดยไม่ได้รับอนุญาต

การประยุกต์ใช้งานจริงน่าสนใจมาก ลองจินตนาการ YouTuber สร้างวิดีโออธิบายแบบอนิเมชั่นที่อวาตาร์การ์ตูนของพวกเขาพูดด้วยเสียงจริงของพวกเขาอย่างเป็นธรรมชาติ หรือนักพัฒนาเกมสร้างต้นแบบบทสนทนาตัวละครโดยไม่ต้องจ้างนักพากย์เสียงในช่วงพัฒนาแรก อุปสรรคระหว่าง "วิสัยทัศน์เชิงสร้างสรรค์ของคุณ" และ "เนื้อหาที่สามารถทำได้จริง" บางลงไปอีก

ปัจจุบันระบบรองรับการสร้างเสียงภาษาจีนและอังกฤษ มีแนวโน้มว่าจะมีภาษาเพิ่มขึ้นเมื่อเทคโนโลยีพัฒนาขึ้น

Motion Control เริ่มจริงจัง

Kling 2.6 ไม่ได้แค่ปรับปรุงเสียง แต่ยังปรับปรุง motion capture อย่างมากด้วย ระบบ motion ที่อัปเดตแก้ไขปัญหาสองอย่างที่คงอยู่ซึ่งรบกวนวิดีโอ AI:

✋

ความชัดของมือ

ลดความเบลอและ artifact ในการเคลื่อนไหวมือ นิ้วไม่รวมกันเป็นก้อนไม่ชัดอีกต่อไปในระหว่างท่าทางที่ซับซ้อน

😊

ความแม่นยำของใบหน้า

Lip-sync และการเรนเดอร์การแสดงออกที่เป็นธรรมชาติมากขึ้น ตัวละครดูเหมือนกำลังพูดคำจริงๆ ไม่ใช่แค่ขยับปากแบบสุ่ม

คุณสามารถอัปโหลดการอ้างอิงการเคลื่อนไหวระหว่าง 3-30 วินาทีและสร้างลำดับที่ยาวขึ้นในขณะที่ปรับรายละเอียดฉากผ่าน text prompt ถ่ายตัวเองเต้น อัปโหลดการอ้างอิง และสร้างตัวละคร AI ที่แสดงท่าเดียวกันในสภาพแวดล้อมที่แตกต่างกันโดยสิ้นเชิง

💡

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่โมเดลวิดีโอ AI จัดการกับ motion และความสอดคล้องทางเวลา โปรดดู การวิเคราะห์เชิงลึกเรื่อง diffusion transformer ของเรา

ภูมิทัศน์การแข่งขัน

Kling 2.6 เผชิญการแข่งขันที่รุนแรง Google Veo 3, OpenAI Sora 2 และ Runway Gen-4.5 ทั้งหมดเสนอการสร้างเสียงแบบ native แล้ว แต่ Kuaishou มีอาวุธลับ: Kwai

Kwai ซึ่งเทียบได้กับ TikTok ในด้านขนาด ให้ข้อได้เปรียบด้านข้อมูลการฝึกจำนวนมหาศาลแก่ Kuaishou วิดีโอสั้นหลายพันล้านรายการที่มีเสียงซิงค์ให้โมเดลได้สิ่งที่คู่แข่งไม่สามารถทำซ้ำได้ง่าย: ตัวอย่างจากโลกจริงว่ามนุษย์รวมเสียง ดนตรี และการเคลื่อนไหวในเนื้อหาสร้างสรรค์อย่างไร

เปรียบเทียบราคา API

ผู้ให้บริการ	ราคาต่อวินาที	หมายเหตุ
Kling 2.6	$0.07-$0.14	ผ่าน Fal.ai, Artlist, Media.io
Runway Gen-4.5	~$0.25	API โดยตรง
Sora 2	~$0.20	เครดิตรวมใน ChatGPT Plus

ราคาที่แข่งขันได้ของ Kling วางตำแหน่งให้เป็นตัวเลือกที่เป็นมิตรกับงบประมาณสำหรับครีเอเตอร์ที่มีปริมาณงานสูง

ความหมายสำหรับครีเอเตอร์

วิธีการสร้างพร้อมกันไม่ใช่แค่น่าประทับใจทางเทคนิค แต่เป็นการปฏิวัติเวิร์กโฟลว์ พิจารณาเวลาที่ประหยัดได้:

แบบดั้งเดิม

เวิร์กโฟลว์เก่า

สร้างวิดีโอไม่มีเสียง (2-5 นาที) → สร้างเสียงแยก (5-10 นาที) → ซิงค์และปรับ (10-20 นาที) → แก้ไขส่วนที่ไม่ตรงกัน (???)

Kling 2.6

เวิร์กโฟลว์ใหม่

เขียน prompt พร้อมคำอธิบายเสียง → สร้าง → เสร็จ

สำหรับครีเอเตอร์ที่ผลิตเนื้อหาสั้นปริมาณมาก การเพิ่มประสิทธิภาพนี้ทวีคูณอย่างมาก สิ่งที่ใช้เวลาหนึ่งชั่วโมงตอนนี้ใช้เวลาเพียงไม่กี่นาที

ข้อจำกัดที่ควรทราบ

ไม่มีอะไรสมบูรณ์แบบ คลิปสิบวินาทียังคงเป็นขีดจำกัดสูงสุด การเต้นที่ซับซ้อนบางครั้งให้ผลลัพธ์ที่ไม่เป็นธรรมชาติ Voice cloning ต้องใช้ตัวอย่างเสียงคุณภาพดีเพื่อหลีกเลี่ยง artifact แบบหุ่นยนต์

และมีคำถามที่กว้างกว่าเกี่ยวกับความเป็นของแท้ทางสร้างสรรค์ เมื่อ AI สามารถโคลนเสียงของคุณและจำลองการเคลื่อนไหวของคุณได้ อะไรที่ยังคงเป็น "คุณ" อย่างเฉพาะตัวในกระบวนการสร้างสรรค์?

⚠️

เทคโนโลยี voice cloning ต้องการการใช้งานอย่างรับผิดชอบ โปรดตรวจสอบให้แน่ใจว่าคุณได้รับความยินยอมอย่างเหมาะสมก่อนโคลนเสียงของใครก็ตาม และตระหนักถึงนโยบายแพลตฟอร์มเกี่ยวกับสื่อสังเคราะห์

มองไปข้างหน้า

Kling 2.6 แสดงให้เห็นว่าวิดีโอ AI กำลังมุ่งหน้าไปที่ไหน: การสร้างแบบ multimodal แบบบูรณาการที่วิดีโอ เสียง และการเคลื่อนไหวรวมเข้าเป็นสื่อสร้างสรรค์ที่เป็นหนึ่งเดียว คำถามไม่ใช่ว่าเทคโนโลยีนี้จะกลายเป็นมาตรฐานหรือไม่ แต่เป็นว่าคู่แข่งจะตามทันความสามารถเหล่านี้ได้เร็วแค่ไหน

สำหรับครีเอเตอร์ที่เต็มใจทดลอง ตอนนี้คือเวลาสำรวจ เครื่องมือเข้าถึงได้ ราคาสมเหตุสมผล และความเป็นไปได้ทางสร้างสรรค์ใหม่จริงๆ เพียงจำไว้ว่า: พลังในการสร้างที่ยิ่งใหญ่มาพร้อมกับความรับผิดชอบที่ยิ่งใหญ่

💡

บทความที่เกี่ยวข้อง: เรียนรู้ว่าการสร้างเสียงแบบ native กำลังเปลี่ยนแปลงอุตสาหกรรมอย่างไรใน ยุคเงียบสิ้นสุดลง หรือเปรียบเทียบเครื่องมือชั้นนำในการวิเคราะห์ Sora 2 vs Runway vs Veo 3 ของเรา

Kling 2.6 พร้อมใช้งานผ่านแพลตฟอร์มของ Kuaishou และผู้ให้บริการบุคคลที่สามรวมถึง Fal.ai, Artlist และ Media.io การเข้าถึง API เริ่มต้นที่ประมาณ $0.07 ต่อวินาทีของวิดีโอที่สร้าง