Kling 2.6: Pengklonan Suara dan Kawalan Gerakan Mentakrifkan Semula Penciptaan Video AI
Kemas kini terbaru Kuaishou memperkenalkan penjanaan audio-visual serentak, latihan suara tersuai dan tangkapan gerakan tepat yang boleh mengubah cara pencipta menghampiri penghasilan video AI.

Kuaishou melancarkan Kling Video 2.6 pada 3 Disember, dan ini bukan sekadar kemas kini kecil. Keluaran ini mengubah secara asas cara kita memikirkan penciptaan video AI dengan memperkenalkan sesuatu yang telah dikejar oleh industri selama bertahun-tahun: penjanaan audio-visual serentak.
Revolusi Laluan Tunggal
Beginilah aliran kerja video AI tradisional: jana video senyap, kemudian bergegas menambah audio secara berasingan. Berharap sinkronisasi bibir tidak terlalu janggal. Berdoa agar kesan bunyi sepadan dengan aksi. Ia rumit, memakan masa, dan sering menghasilkan perasaan "audio-video tidak sepadan" yang kita semua telah belajar untuk terima.
Kling 2.6 membuang aliran kerja itu ke luar tingkap.
Dengan penjanaan audio-visual serentak, anda menerangkan apa yang anda mahu dalam satu gesaan, dan model menghasilkan video, pertuturan, kesan bunyi dan suasana ambien bersama-sama. Tiada laluan audio berasingan. Tiada penyegerakan manual. Satu penjanaan, semuanya termasuk.
Model ini menyokong pelbagai jenis audio yang mengagumkan:
Dari pertuturan dan dialog hingga penceritaan, nyanyian, rap dan landskap bunyi ambien, Kling 2.6 boleh menjana jenis audio kendiri atau gabungan. Watak boleh bercakap sementara burung berkicau di latar belakang dan langkah kaki bergema di atas batu jalanan, semuanya disintesis dalam satu laluan.
Pengklonan Suara: Suara Anda, Bibir Mereka
Latihan suara tersuai mencuri perhatian. Muat naik sampel suara anda, latih model, dan tiba-tiba watak yang dijana AI anda bercakap dengan ciri-ciri vokal anda.
Aplikasi praktikal sangat menarik. Bayangkan seorang YouTuber mencipta video penerangan animasi di mana avatar kartun mereka bercakap secara semula jadi dengan suara sebenar mereka. Atau pembangun permainan yang membuat prototaip dialog watak tanpa mengupah pelakon suara untuk lelaran awal. Penghalang antara "visi kreatif anda" dan "kandungan yang boleh dilaksanakan" baru sahaja menjadi lebih nipis.
Pada masa ini, sistem menyokong penjanaan suara dalam bahasa Cina dan Inggeris. Lebih banyak bahasa mungkin akan menyusul apabila teknologi matang.
Kawalan Gerakan Menjadi Serius
Kling 2.6 bukan sahaja menambah baik audio. Ia juga meningkatkan tangkapan gerakan secara dramatik. Sistem gerakan yang dikemas kini menangani dua masalah berterusan yang melanda video AI:
Kejelasan Tangan
Pengurangan kabur dan artifak pada pergerakan tangan. Jari tidak lagi bergabung menjadi gumpalan amorfus semasa gerak isyarat kompleks.
Ketepatan Wajah
Sinkronisasi bibir dan pemaparan ekspresi yang lebih semula jadi. Watak benar-benar kelihatan seperti mereka sedang menyebut kata-kata, bukan sekadar menggerakkan mulut secara rawak.
Anda boleh memuat naik rujukan gerakan antara 3-30 saat dan mencipta urutan lanjutan sambil melaraskan butiran adegan melalui gesaan teks. Rakam diri anda menari, muat naik rujukan, dan jana watak AI yang melakukan gerakan yang sama dalam persekitaran yang sama sekali berbeza.
Untuk mengetahui lebih lanjut tentang cara model video AI mengendalikan gerakan dan konsistensi temporal, sila lihat penyelaman mendalam kami tentang transformer difusi.
Landskap Persaingan
Kling 2.6 menghadapi persaingan sengit. Google Veo 3, OpenAI Sora 2 dan Runway Gen-4.5 semuanya menawarkan penjanaan audio asli sekarang. Tetapi Kuaishou mempunyai senjata rahsia: Kwai.
Kwai, setanding dengan TikTok dari segi skala, memberikan Kuaishou kelebihan data latihan yang besar. Berbilion video format pendek dengan audio yang disegerakkan memberikan model sesuatu yang tidak boleh ditiru dengan mudah oleh pesaing: contoh dunia sebenar tentang bagaimana manusia sebenarnya menggabungkan suara, muzik dan gerakan dalam kandungan kreatif.
Perbandingan Harga API
| Penyedia | Kos per Saat | Nota |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Melalui Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | API Langsung |
| Sora 2 | ~$0.20 | Kredit termasuk ChatGPT Plus |
Harga agresif Kling meletakkannya sebagai pilihan mesra bajet untuk pencipta bervolum tinggi.
Apa Maknanya untuk Pencipta
Pendekatan penjanaan serentak bukan sahaja mengagumkan dari segi teknikal, ia adalah revolusi aliran kerja. Pertimbangkan masa yang dijimatkan:
Aliran Kerja Lama
Jana video senyap (2-5 min) → Cipta audio berasingan (5-10 min) → Segerak dan laras (10-20 min) → Betulkan ketidakpadanan (???)
Aliran Kerja Baharu
Tulis gesaan dengan penerangan audio → Jana → Selesai
Bagi pencipta yang menghasilkan kandungan format pendek dalam jumlah besar, peningkatan kecekapan ini berganda secara dramatik. Apa yang mengambil masa sejam kini mengambil masa beberapa minit.
Kelemahannya
Tiada yang sempurna. Klip sepuluh saat kekal sebagai had maksimum. Koreografi kompleks kadangkala menghasilkan hasil yang ganjil. Pengklonan suara memerlukan kualiti sampel yang teliti untuk mengelakkan artifak robotik.
Dan ada persoalan yang lebih luas tentang keaslian kreatif. Apabila AI boleh mengklon suara anda dan meniru gerakan anda, apa yang kekal unik sebagai "anda" dalam proses kreatif?
Teknologi pengklonan suara memerlukan penggunaan yang bertanggungjawab. Sentiasa pastikan anda mempunyai persetujuan yang sewajarnya sebelum mengklon suara sesiapa, dan ambil maklum tentang dasar platform berkenaan media sintetik.
Melihat ke Hadapan
Kling 2.6 menunjukkan ke mana video AI sedang menuju: penjanaan multimodal bersepadu di mana video, audio dan gerakan bergabung menjadi medium kreatif yang bersatu. Persoalannya bukan sama ada teknologi ini akan menjadi standard, tetapi seberapa cepat pesaing akan menyamai keupayaan ini.
Bagi pencipta yang sanggup bereksperimen, sekarang adalah masanya untuk meneroka. Alat-alat ini boleh diakses, harga berpatutan, dan kemungkinan kreatif benar-benar baharu. Ingatlah: dengan kuasa generatif yang besar datang tanggungjawab yang besar.
Bacaan Berkaitan: Ketahui bagaimana penjanaan audio asli sedang mengubah industri dalam Era Senyap Berakhir, atau bandingkan alat terkemuka dalam analisis Sora 2 vs Runway vs Veo 3 kami.
Kling 2.6 tersedia melalui platform Kuaishou dan penyedia pihak ketiga termasuk Fal.ai, Artlist dan Media.io. Akses API bermula pada kira-kira $0.07 per saat video yang dijana.
Adakah artikel ini membantu?

Henry
Teknologis KreatifTeknologis kreatif dari Lausanne yang meneroka pertemuan antara AI dan seni. Bereksperimen dengan model generatif di antara sesi muzik elektronik.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

YouTube Membawa Veo 3 Fast ke Shorts: Penjanaan Video AI Percuma untuk 2.5 Bilion Pengguna
Google mengintegrasikan model Veo 3 Fast terus ke YouTube Shorts, menawarkan penjanaan video daripada teks dengan audio secara percuma untuk pencipta di seluruh dunia. Inilah maknanya untuk platform dan kebolehcapaian video AI.

Pika 2.5: Mendemokratikkan Video AI Melalui Kelajuan, Harga, dan Alat Kreatif
Pika Labs mengeluarkan versi 2.5, menggabungkan penjanaan lebih pantas, fizik yang dipertingkatkan, dan alat kreatif seperti Pikaframes dan Pikaffects untuk menjadikan video AI boleh diakses oleh semua orang.

Snapchat Animate It: Penjanaan Video AI Tiba Dalam Media Sosial
Snapchat baru sahaja melancarkan Animate It, alat penjanaan video AI prompt terbuka pertama yang dibina ke dalam platform sosial utama. Dengan 400 juta pengguna harian, video AI bukan lagi hanya untuk pencipta.