Kling 2.6: Voice Cloning และ Motion Control นิยามใหม่ของการสร้างวิดีโอ AI
การอัปเดตล่าสุดของ Kuaishou นำเสนอการสร้างภาพและเสียงพร้อมกัน การฝึกเสียงแบบกำหนดเอง และการจับการเคลื่อนไหวที่แม่นยำ ซึ่งอาจเปลี่ยนแปลงวิธีที่ครีเอเตอร์ทำงานกับวิดีโอ AI

Kuaishou เปิดตัว Kling Video 2.6 เมื่อวันที่ 3 ธันวาคม และนี่ไม่ใช่แค่การอัปเดตธรรมดา การเปิดตัวครั้งนี้เปลี่ยนแปลงวิธีคิดของเราเกี่ยวกับการสร้างวิดีโอ AI อย่างสิ้นเชิง ด้วยการนำเสนอสิ่งที่อุตสาหกรรมตามหามาหลายปี: การสร้างภาพและเสียงพร้อมกัน
การปฏิวัติแบบ Single-Pass
นี่คือเวิร์กโฟลว์วิดีโอ AI แบบดั้งเดิม: สร้างวิดีโอไม่มีเสียง จากนั้นพยายามเพิ่มเสียงแยกต่างหาก หวังว่า lip-sync จะไม่แปลกเกินไป ภาวนาให้เอฟเฟกต์เสียงตรงกับแอคชั่น มันยุ่งยาก ใช้เวลานาน และมักจะสร้างความรู้สึก "เสียงไม่ตรงกับภาพ" ที่เราทุกคนเรียนรู้ที่จะยอมรับ
Kling 2.6 โยนเวิร์กโฟลว์นั้นทิ้งไป
ด้วยการสร้างภาพและเสียงพร้อมกัน คุณอธิบายสิ่งที่ต้องการใน prompt เดียว และโมเดลจะสร้างวิดีโอ คำพูด เอฟเฟกต์เสียง และบรรยากาศแวดล้อมพร้อมกัน ไม่มี pass เสียงแยกต่างหาก ไม่มีการซิงค์ด้วยตนเอง สร้างครั้งเดียว รวมทุกอย่าง
โมเดลรองรับประเภทเสียงที่หลากหลายน่าประทับใจ:
ตั้งแต่คำพูดและบทสนทนาไปจนถึงการบรรยาย การร้องเพลง แร็พ และ soundscape แบบ ambient, Kling 2.6 สามารถสร้างเสียงแบบเดี่ยวหรือรวมกันได้ ตัวละครสามารถพูดในขณะที่นกร้องอยู่เบื้องหลังและเสียงเท้าก้องบนถนนหิน ทั้งหมดถูกสังเคราะห์ใน pass เดียว
Voice Cloning: เสียงของคุณ ริมฝีปากของพวกเขา
การฝึกเสียงแบบกำหนดเองกลายเป็นจุดเด่น อัปโหลดตัวอย่างเสียงของคุณ ฝึกโมเดล และทันใดนั้นตัวละคร AI ของคุณก็พูดด้วยลักษณะเสียงของคุณ
การประยุกต์ใช้งานจริงน่าสนใจมาก ลองจินตนาการ YouTuber สร้างวิดีโออธิบายแบบอนิเมชั่นที่อวาตาร์การ์ตูนของพวกเขาพูดด้วยเสียงจริงของพวกเขาอย่างเป็นธรรมชาติ หรือนักพัฒนาเกมสร้างต้นแบบบทสนทนาตัวละครโดยไม่ต้องจ้างนักพากย์เสียงในช่วงพัฒนาแรก อุปสรรคระหว่าง "วิสัยทัศน์เชิงสร้างสรรค์ของคุณ" และ "เนื้อหาที่สามารถทำได้จริง" บางลงไปอีก
ปัจจุบันระบบรองรับการสร้างเสียงภาษาจีนและอังกฤษ มีแนวโน้มว่าจะมีภาษาเพิ่มขึ้นเมื่อเทคโนโลยีพัฒนาขึ้น
Motion Control เริ่มจริงจัง
Kling 2.6 ไม่ได้แค่ปรับปรุงเสียง แต่ยังปรับปรุง motion capture อย่างมากด้วย ระบบ motion ที่อัปเดตแก้ไขปัญหาสองอย่างที่คงอยู่ซึ่งรบกวนวิดีโอ AI:
ความชัดของมือ
ลดความเบลอและ artifact ในการเคลื่อนไหวมือ นิ้วไม่รวมกันเป็นก้อนไม่ชัดอีกต่อไปในระหว่างท่าทางที่ซับซ้อน
ความแม่นยำของใบหน้า
Lip-sync และการเรนเดอร์การแสดงออกที่เป็นธรรมชาติมากขึ้น ตัวละครดูเหมือนกำลังพูดคำจริงๆ ไม่ใช่แค่ขยับปากแบบสุ่ม
คุณสามารถอัปโหลดการอ้างอิงการเคลื่อนไหวระหว่าง 3-30 วินาทีและสร้างลำดับที่ยาวขึ้นในขณะที่ปรับรายละเอียดฉากผ่าน text prompt ถ่ายตัวเองเต้น อัปโหลดการอ้างอิง และสร้างตัวละคร AI ที่แสดงท่าเดียวกันในสภาพแวดล้อมที่แตกต่างกันโดยสิ้นเชิง
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่โมเดลวิดีโอ AI จัดการกับ motion และความสอดคล้องทางเวลา โปรดดู การวิเคราะห์เชิงลึกเรื่อง diffusion transformer ของเรา
ภูมิทัศน์การแข่งขัน
Kling 2.6 เผชิญการแข่งขันที่รุนแรง Google Veo 3, OpenAI Sora 2 และ Runway Gen-4.5 ทั้งหมดเสนอการสร้างเสียงแบบ native แล้ว แต่ Kuaishou มีอาวุธลับ: Kwai
Kwai ซึ่งเทียบได้กับ TikTok ในด้านขนาด ให้ข้อได้เปรียบด้านข้อมูลการฝึกจำนวนมหาศาลแก่ Kuaishou วิดีโอสั้นหลายพันล้านรายการที่มีเสียงซิงค์ให้โมเดลได้สิ่งที่คู่แข่งไม่สามารถทำซ้ำได้ง่าย: ตัวอย่างจากโลกจริงว่ามนุษย์รวมเสียง ดนตรี และการเคลื่อนไหวในเนื้อหาสร้างสรรค์อย่างไร
เปรียบเทียบราคา API
| ผู้ให้บริการ | ราคาต่อวินาที | หมายเหตุ |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | ผ่าน Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | API โดยตรง |
| Sora 2 | ~$0.20 | เครดิตรวมใน ChatGPT Plus |
ราคาที่แข่งขันได้ของ Kling วางตำแหน่งให้เป็นตัวเลือกที่เป็นมิตรกับงบประมาณสำหรับครีเอเตอร์ที่มีปริมาณงานสูง
ความหมายสำหรับครีเอเตอร์
วิธีการสร้างพร้อมกันไม่ใช่แค่น่าประทับใจทางเทคนิค แต่เป็นการปฏิวัติเวิร์กโฟลว์ พิจารณาเวลาที่ประหยัดได้:
เวิร์กโฟลว์เก่า
สร้างวิดีโอไม่มีเสียง (2-5 นาที) → สร้างเสียงแยก (5-10 นาที) → ซิงค์และปรับ (10-20 นาที) → แก้ไขส่วนที่ไม่ตรงกัน (???)
เวิร์กโฟลว์ใหม่
เขียน prompt พร้อมคำอธิบายเสียง → สร้าง → เสร็จ
สำหรับครีเอเตอร์ที่ผลิตเนื้อหาสั้นปริมาณมาก การเพิ่มประสิทธิภาพนี้ทวีคูณอย่างมาก สิ่งที่ใช้เวลาหนึ่งชั่วโมงตอนนี้ใช้เวลาเพียงไม่กี่นาที
ข้อจำกัดที่ควรทราบ
ไม่มีอะไรสมบูรณ์แบบ คลิปสิบวินาทียังคงเป็นขีดจำกัดสูงสุด การเต้นที่ซับซ้อนบางครั้งให้ผลลัพธ์ที่ไม่เป็นธรรมชาติ Voice cloning ต้องใช้ตัวอย่างเสียงคุณภาพดีเพื่อหลีกเลี่ยง artifact แบบหุ่นยนต์
และมีคำถามที่กว้างกว่าเกี่ยวกับความเป็นของแท้ทางสร้างสรรค์ เมื่อ AI สามารถโคลนเสียงของคุณและจำลองการเคลื่อนไหวของคุณได้ อะไรที่ยังคงเป็น "คุณ" อย่างเฉพาะตัวในกระบวนการสร้างสรรค์?
เทคโนโลยี voice cloning ต้องการการใช้งานอย่างรับผิดชอบ โปรดตรวจสอบให้แน่ใจว่าคุณได้รับความยินยอมอย่างเหมาะสมก่อนโคลนเสียงของใครก็ตาม และตระหนักถึงนโยบายแพลตฟอร์มเกี่ยวกับสื่อสังเคราะห์
มองไปข้างหน้า
Kling 2.6 แสดงให้เห็นว่าวิดีโอ AI กำลังมุ่งหน้าไปที่ไหน: การสร้างแบบ multimodal แบบบูรณาการที่วิดีโอ เสียง และการเคลื่อนไหวรวมเข้าเป็นสื่อสร้างสรรค์ที่เป็นหนึ่งเดียว คำถามไม่ใช่ว่าเทคโนโลยีนี้จะกลายเป็นมาตรฐานหรือไม่ แต่เป็นว่าคู่แข่งจะตามทันความสามารถเหล่านี้ได้เร็วแค่ไหน
สำหรับครีเอเตอร์ที่เต็มใจทดลอง ตอนนี้คือเวลาสำรวจ เครื่องมือเข้าถึงได้ ราคาสมเหตุสมผล และความเป็นไปได้ทางสร้างสรรค์ใหม่จริงๆ เพียงจำไว้ว่า: พลังในการสร้างที่ยิ่งใหญ่มาพร้อมกับความรับผิดชอบที่ยิ่งใหญ่
บทความที่เกี่ยวข้อง: เรียนรู้ว่าการสร้างเสียงแบบ native กำลังเปลี่ยนแปลงอุตสาหกรรมอย่างไรใน ยุคเงียบสิ้นสุดลง หรือเปรียบเทียบเครื่องมือชั้นนำในการวิเคราะห์ Sora 2 vs Runway vs Veo 3 ของเรา
Kling 2.6 พร้อมใช้งานผ่านแพลตฟอร์มของ Kuaishou และผู้ให้บริการบุคคลที่สามรวมถึง Fal.ai, Artlist และ Media.io การเข้าถึง API เริ่มต้นที่ประมาณ $0.07 ต่อวินาทีของวิดีโอที่สร้าง
บทความนี้มีประโยชน์หรือไม่?

Henry
นักเทคโนโลยีสร้างสรรค์นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

ByteDance Seedance 1.5 Pro: โมเดลที่สร้างเสียงและวิดีโอพร้อมกัน
ByteDance เปิดตัว Seedance 1.5 Pro พร้อมการสร้างภาพและเสียงแบบเนทีฟ การควบคุมกล้องระดับภาพยนตร์ และการซิงค์ริมฝีปากหลายภาษา ใช้งานฟรีใน CapCut