Meta Pixel
HenryHenry
8 min read
1425 từ

Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI

Bản cập nhật mới nhất của Kuaishou giới thiệu khả năng tạo âm thanh và hình ảnh đồng thời, huấn luyện giọng nói tùy chỉnh và chụp chuyển động chính xác, có thể thay đổi cách các nhà sáng tạo tiếp cận sản xuất video AI.

Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI
Bạn đã bao giờ tự hỏi nếu nhân vật AI của mình có thể nói bằng giọng bạn, nhảy theo chuyển động của bạn, và làm tất cả trong một lần tạo duy nhất? Kling 2.6 đã biến điều đó thành hiện thực.

Kuaishou đã phát hành Kling Video 2.6 vào ngày 3 tháng 12, và đây không chỉ là một bản cập nhật thông thường. Bản phát hành này thay đổi cơ bản cách chúng ta nghĩ về việc tạo video AI bằng cách giới thiệu điều mà ngành công nghiệp đã theo đuổi nhiều năm: tạo âm thanh và hình ảnh đồng thời.

Cuộc cách mạng một bước

Đây là quy trình video AI truyền thống: tạo video im lặng, sau đó vật vã thêm âm thanh riêng. Hy vọng đồng bộ môi không quá kỳ lạ. Cầu nguyện hiệu ứng âm thanh phù hợp với hành động. Nó cứng nhắc, tốn thời gian, và thường tạo ra cảm giác "âm thanh và hình ảnh không khớp" mà tất cả chúng ta đã học cách chấp nhận.

Kling 2.6 loại bỏ quy trình đó.

💡

Với việc tạo âm thanh và hình ảnh đồng thời, bạn mô tả những gì bạn muốn trong một prompt duy nhất, và mô hình tạo ra video, lời nói, hiệu ứng âm thanh và bầu không khí cùng một lúc. Không cần bước âm thanh riêng. Không cần đồng bộ thủ công. Một lần tạo, mọi thứ đều có.

Mô hình hỗ trợ nhiều loại âm thanh ấn tượng:

7+
Loại âm thanh
10s
Độ dài tối đa
1080p
Độ phân giải

Từ lời nói và hội thoại đến thuyết minh, hát, rap và âm thanh môi trường, Kling 2.6 có thể tạo các loại âm thanh độc lập hoặc kết hợp. Một nhân vật có thể nói trong khi chim hót phía sau và tiếng bước chân vang trên đá, tất cả được tổng hợp trong một lần chạy.

Sao chép giọng nói: Giọng của bạn, môi của họ

Huấn luyện giọng nói tùy chỉnh là điểm nổi bật. Tải lên mẫu giọng nói của bạn, huấn luyện mô hình, và nhân vật AI của bạn sẽ nói với đặc điểm giọng nói của bạn.

Tiềm năng sáng tạo
Hoàn hảo cho các nhà sáng tạo nội dung muốn giọng nhân vật thương hiệu, podcaster thí nghiệm với người dẫn chương trình AI, hoặc nhạc sĩ khám phá giọng hát tổng hợp.
Cân nhắc đạo đức
Sao chép giọng nói đặt ra các vấn đề rõ ràng về sự đồng ý và lạm dụng. Kuaishou sẽ cần các hệ thống xác minh mạnh mẽ để ngăn chặn sao chép giọng nói trái phép.

Các ứng dụng thực tế rất hấp dẫn. Hãy tưởng tượng một YouTuber tạo video giải thích hoạt hình nơi avatar hoạt hình của họ nói tự nhiên bằng giọng thật của họ. Hoặc một nhà phát triển game tạo mẫu đối thoại nhân vật mà không cần thuê diễn viên lồng tiếng cho các bản mẫu đầu. Rào cản giữa "tầm nhìn sáng tạo của bạn" và "nội dung thực hiện được" đã mỏng đi.

Hiện tại, hệ thống hỗ trợ tạo giọng nói tiếng Trung và tiếng Anh. Nhiều ngôn ngữ khác có thể sẽ được bổ sung khi công nghệ phát triển.

Kiểm soát chuyển động trở nên nghiêm túc

Kling 2.6 không chỉ cải thiện âm thanh. Nó cũng cải thiện đáng kể khả năng chụp chuyển động. Hệ thống chuyển động cập nhật giải quyết hai vấn đề dai dẳng trong video AI:

Độ rõ của tay

Giảm mờ và nhiễu ảnh trong chuyển động tay. Các ngón tay không còn hòa lẫn vào nhau thành khối vô định trong các cử chỉ phức tạp.

😊

Độ chính xác khuôn mặt

Đồng bộ môi và thể hiện biểu cảm tự nhiên hơn. Nhân vật thực sự trông như đang nói các từ, không chỉ di chuyển miệng ngẫu nhiên.

Bạn có thể tải lên tham chiếu chuyển động từ 3-30 giây và tạo các chuỗi mở rộng trong khi điều chỉnh chi tiết cảnh qua các prompt văn bản. Quay video bạn đang nhảy, tải lên tham chiếu, và tạo nhân vật AI thực hiện cùng các động tác trong môi trường hoàn toàn khác.

💡

Để tìm hiểu thêm về cách các mô hình video AI xử lý chuyển động và tính nhất quán thời gian, xem bài viết sau của chúng tôi về các transformer khuếch tán.

Bối cảnh cạnh tranh

Kling 2.6 đối mặt với cạnh tranh gay gắt. Google Veo 3, OpenAI Sora 2 và Runway Gen-4.5 đều cung cấp khả năng tạo âm thanh tự nhiên. Nhưng Kuaishou có vũ khí bí mật: Kwai.

Kwai, có quy mô tương đương TikTok, mang lại cho Kuaishou lợi thế lớn về dữ liệu huấn luyện. Hàng tỷ video ngắn với âm thanh đồng bộ cung cấp cho mô hình điều mà đối thủ không dễ dàng sao chép: các ví dụ thực tế về cách mọi người thực sự kết hợp giọng nói, âm nhạc và chuyển động trong nội dung sáng tạo.

So sánh giá API

Nhà cung cấpGiá mỗi giâyGhi chú
Kling 2.6$0.07-$0.14Qua Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25API trực tiếp
Sora 2~$0.20Bao gồm tín dụng ChatGPT Plus

Giá cạnh tranh của Kling định vị nó là lựa chọn tiết kiệm cho các nhà sáng tạo có khối lượng lớn.

Điều này có ý nghĩa gì với các nhà sáng tạo

Phương pháp tạo đồng thời không chỉ ấn tượng về mặt kỹ thuật, mà còn là cuộc cách mạng quy trình làm việc. Hãy nghĩ về thời gian tiết kiệm được:

Truyền thống

Quy trình cũ

Tạo video im lặng (2-5 phút) → Tạo âm thanh riêng (5-10 phút) → Đồng bộ và điều chỉnh (10-20 phút) → Sửa lỗi không khớp (???)

Kling 2.6

Quy trình mới

Viết prompt với mô tả âm thanh → Tạo → Xong

Đối với các nhà sáng tạo sản xuất khối lượng lớn nội dung ngắn, lợi ích hiệu quả này tăng lên đáng kể. Những gì mất một giờ giờ chỉ mất vài phút.

Những hạn chế

Không có gì là hoàn hảo. Clip 10 giây vẫn là giới hạn. Vũ đạo phức tạp đôi khi cho kết quả không tự nhiên. Sao chép giọng nói yêu cầu mẫu chất lượng tốt để tránh nhiễu robot.

Và có câu hỏi rộng hơn về tính xác thực sáng tạo. Khi AI có thể sao chép giọng nói và mô phỏng chuyển động của bạn, điều gì vẫn duy nhất là "của bạn" trong quá trình sáng tạo?

⚠️

Công nghệ sao chép giọng nói yêu cầu sử dụng có trách nhiệm. Luôn đảm bảo bạn có sự đồng ý phù hợp trước khi sao chép giọng nói của bất kỳ ai, và nhận thức về chính sách của các nền tảng liên quan đến phương tiện tổng hợp.

Nhìn về phía trước

Kling 2.6 cho thấy video AI đang hướng tới đâu: tạo đa phương thức tích hợp nơi video, âm thanh và chuyển động hòa nhập thành một phương tiện sáng tạo thống nhất. Câu hỏi không phải là liệu công nghệ này có trở thành tiêu chuẩn hay không, mà là các đối thủ sẽ bắt kip nhanh như thế nào.

Đối với các nhà sáng tạo sẵn sàng thí nghiệm, bây giờ là lúc để khám phá. Các công cụ có thể truy cập, giá cả hợp lý, và các khả năng sáng tạo thực sự mới mẻ. Chỉ nhớ rằng: với sức mạnh tạo lớn đến trách nhiệm lớn.

💡

Bài đọc liên quan: Tìm hiểu cách tạo âm thanh tự nhiên đang chuyển đổi ngành trong Kỷ nguyên im lặng kết thúc, hoặc so sánh các công cụ hàng đầu trong phân tích Sora 2 vs Runway vs Veo 3 của chúng tôi.

Kling 2.6 có sẵn qua nền tảng Kuaishou và các nhà cung cấp bên thứ ba bao gồm Fal.ai, Artlist và Media.io. Truy cập API bắt đầu từ khoảng $0.07 mỗi giây video được tạo.

Bài viết này có hữu ích không?

Henry

Henry

Chuyên gia Công nghệ Sáng tạo

Chuyên gia công nghệ sáng tạo đến từ Lausanne, khám phá nơi AI gặp gỡ nghệ thuật. Thử nghiệm với các mô hình sinh tạo giữa những buổi làm nhạc điện tử.

Bài viết liên quan

Tiếp tục khám phá với những bài viết liên quan

Bạn có thích bài viết này không?

Khám phá thêm thông tin chi tiết và cập nhật những nội dung mới nhất của chúng tôi.

Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI