Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI
Bản cập nhật mới nhất của Kuaishou giới thiệu khả năng tạo âm thanh và hình ảnh đồng thời, huấn luyện giọng nói tùy chỉnh và chụp chuyển động chính xác, có thể thay đổi cách các nhà sáng tạo tiếp cận sản xuất video AI.

Kuaishou đã phát hành Kling Video 2.6 vào ngày 3 tháng 12, và đây không chỉ là một bản cập nhật thông thường. Bản phát hành này thay đổi cơ bản cách chúng ta nghĩ về việc tạo video AI bằng cách giới thiệu điều mà ngành công nghiệp đã theo đuổi nhiều năm: tạo âm thanh và hình ảnh đồng thời.
Cuộc cách mạng một bước
Đây là quy trình video AI truyền thống: tạo video im lặng, sau đó vật vã thêm âm thanh riêng. Hy vọng đồng bộ môi không quá kỳ lạ. Cầu nguyện hiệu ứng âm thanh phù hợp với hành động. Nó cứng nhắc, tốn thời gian, và thường tạo ra cảm giác "âm thanh và hình ảnh không khớp" mà tất cả chúng ta đã học cách chấp nhận.
Kling 2.6 loại bỏ quy trình đó.
Với việc tạo âm thanh và hình ảnh đồng thời, bạn mô tả những gì bạn muốn trong một prompt duy nhất, và mô hình tạo ra video, lời nói, hiệu ứng âm thanh và bầu không khí cùng một lúc. Không cần bước âm thanh riêng. Không cần đồng bộ thủ công. Một lần tạo, mọi thứ đều có.
Mô hình hỗ trợ nhiều loại âm thanh ấn tượng:
Từ lời nói và hội thoại đến thuyết minh, hát, rap và âm thanh môi trường, Kling 2.6 có thể tạo các loại âm thanh độc lập hoặc kết hợp. Một nhân vật có thể nói trong khi chim hót phía sau và tiếng bước chân vang trên đá, tất cả được tổng hợp trong một lần chạy.
Sao chép giọng nói: Giọng của bạn, môi của họ
Huấn luyện giọng nói tùy chỉnh là điểm nổi bật. Tải lên mẫu giọng nói của bạn, huấn luyện mô hình, và nhân vật AI của bạn sẽ nói với đặc điểm giọng nói của bạn.
Các ứng dụng thực tế rất hấp dẫn. Hãy tưởng tượng một YouTuber tạo video giải thích hoạt hình nơi avatar hoạt hình của họ nói tự nhiên bằng giọng thật của họ. Hoặc một nhà phát triển game tạo mẫu đối thoại nhân vật mà không cần thuê diễn viên lồng tiếng cho các bản mẫu đầu. Rào cản giữa "tầm nhìn sáng tạo của bạn" và "nội dung thực hiện được" đã mỏng đi.
Hiện tại, hệ thống hỗ trợ tạo giọng nói tiếng Trung và tiếng Anh. Nhiều ngôn ngữ khác có thể sẽ được bổ sung khi công nghệ phát triển.
Kiểm soát chuyển động trở nên nghiêm túc
Kling 2.6 không chỉ cải thiện âm thanh. Nó cũng cải thiện đáng kể khả năng chụp chuyển động. Hệ thống chuyển động cập nhật giải quyết hai vấn đề dai dẳng trong video AI:
Độ rõ của tay
Giảm mờ và nhiễu ảnh trong chuyển động tay. Các ngón tay không còn hòa lẫn vào nhau thành khối vô định trong các cử chỉ phức tạp.
Độ chính xác khuôn mặt
Đồng bộ môi và thể hiện biểu cảm tự nhiên hơn. Nhân vật thực sự trông như đang nói các từ, không chỉ di chuyển miệng ngẫu nhiên.
Bạn có thể tải lên tham chiếu chuyển động từ 3-30 giây và tạo các chuỗi mở rộng trong khi điều chỉnh chi tiết cảnh qua các prompt văn bản. Quay video bạn đang nhảy, tải lên tham chiếu, và tạo nhân vật AI thực hiện cùng các động tác trong môi trường hoàn toàn khác.
Để tìm hiểu thêm về cách các mô hình video AI xử lý chuyển động và tính nhất quán thời gian, xem bài viết sau của chúng tôi về các transformer khuếch tán.
Bối cảnh cạnh tranh
Kling 2.6 đối mặt với cạnh tranh gay gắt. Google Veo 3, OpenAI Sora 2 và Runway Gen-4.5 đều cung cấp khả năng tạo âm thanh tự nhiên. Nhưng Kuaishou có vũ khí bí mật: Kwai.
Kwai, có quy mô tương đương TikTok, mang lại cho Kuaishou lợi thế lớn về dữ liệu huấn luyện. Hàng tỷ video ngắn với âm thanh đồng bộ cung cấp cho mô hình điều mà đối thủ không dễ dàng sao chép: các ví dụ thực tế về cách mọi người thực sự kết hợp giọng nói, âm nhạc và chuyển động trong nội dung sáng tạo.
So sánh giá API
| Nhà cung cấp | Giá mỗi giây | Ghi chú |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Qua Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | API trực tiếp |
| Sora 2 | ~$0.20 | Bao gồm tín dụng ChatGPT Plus |
Giá cạnh tranh của Kling định vị nó là lựa chọn tiết kiệm cho các nhà sáng tạo có khối lượng lớn.
Điều này có ý nghĩa gì với các nhà sáng tạo
Phương pháp tạo đồng thời không chỉ ấn tượng về mặt kỹ thuật, mà còn là cuộc cách mạng quy trình làm việc. Hãy nghĩ về thời gian tiết kiệm được:
Quy trình cũ
Tạo video im lặng (2-5 phút) → Tạo âm thanh riêng (5-10 phút) → Đồng bộ và điều chỉnh (10-20 phút) → Sửa lỗi không khớp (???)
Quy trình mới
Viết prompt với mô tả âm thanh → Tạo → Xong
Đối với các nhà sáng tạo sản xuất khối lượng lớn nội dung ngắn, lợi ích hiệu quả này tăng lên đáng kể. Những gì mất một giờ giờ chỉ mất vài phút.
Những hạn chế
Không có gì là hoàn hảo. Clip 10 giây vẫn là giới hạn. Vũ đạo phức tạp đôi khi cho kết quả không tự nhiên. Sao chép giọng nói yêu cầu mẫu chất lượng tốt để tránh nhiễu robot.
Và có câu hỏi rộng hơn về tính xác thực sáng tạo. Khi AI có thể sao chép giọng nói và mô phỏng chuyển động của bạn, điều gì vẫn duy nhất là "của bạn" trong quá trình sáng tạo?
Công nghệ sao chép giọng nói yêu cầu sử dụng có trách nhiệm. Luôn đảm bảo bạn có sự đồng ý phù hợp trước khi sao chép giọng nói của bất kỳ ai, và nhận thức về chính sách của các nền tảng liên quan đến phương tiện tổng hợp.
Nhìn về phía trước
Kling 2.6 cho thấy video AI đang hướng tới đâu: tạo đa phương thức tích hợp nơi video, âm thanh và chuyển động hòa nhập thành một phương tiện sáng tạo thống nhất. Câu hỏi không phải là liệu công nghệ này có trở thành tiêu chuẩn hay không, mà là các đối thủ sẽ bắt kip nhanh như thế nào.
Đối với các nhà sáng tạo sẵn sàng thí nghiệm, bây giờ là lúc để khám phá. Các công cụ có thể truy cập, giá cả hợp lý, và các khả năng sáng tạo thực sự mới mẻ. Chỉ nhớ rằng: với sức mạnh tạo lớn đến trách nhiệm lớn.
Bài đọc liên quan: Tìm hiểu cách tạo âm thanh tự nhiên đang chuyển đổi ngành trong Kỷ nguyên im lặng kết thúc, hoặc so sánh các công cụ hàng đầu trong phân tích Sora 2 vs Runway vs Veo 3 của chúng tôi.
Kling 2.6 có sẵn qua nền tảng Kuaishou và các nhà cung cấp bên thứ ba bao gồm Fal.ai, Artlist và Media.io. Truy cập API bắt đầu từ khoảng $0.07 mỗi giây video được tạo.
Bài viết này có hữu ích không?

Henry
Chuyên gia Công nghệ Sáng tạoChuyên gia công nghệ sáng tạo đến từ Lausanne, khám phá nơi AI gặp gỡ nghệ thuật. Thử nghiệm với các mô hình sinh tạo giữa những buổi làm nhạc điện tử.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

Pika 2.5: Đại chúng hóa Video AI thông qua Tốc độ, Giá cả và Công cụ Sáng tạo
Pika Labs phát hành phiên bản 2.5, kết hợp tốc độ tạo nhanh hơn, vật lý nâng cao và các công cụ sáng tạo như Pikaframes và Pikaffects để làm cho video AI có thể tiếp cận được với mọi người.

Snapchat Animate It: AI Tạo Video Đến Với Mạng Xã Hội
Snapchat vừa ra mắt Animate It, công cụ tạo video AI đầu tiên được tích hợp vào nền tảng mạng xã hội lớn. Với 400 triệu người dùng hàng ngày, AI video không còn chỉ dành cho các nhà sáng tạo nữa.

ByteDance Seedance 1.5 Pro: Mô hình tạo âm thanh và video cùng lúc
ByteDance phát hành Seedance 1.5 Pro với khả năng tạo âm thanh-hình ảnh tích hợp, điều khiển camera cấp điện ảnh và đồng bộ môi với nhiều ngôn ngữ. Có sẵn miễn phí trên CapCut.