Kling 2.6: Balss klonēšana un kustības kontrole parveidē MI video veidošanu
Kuaishou jaunākais atjauninājums ievies vienlaicīgu audio-vizuālo ģenerēšanu, pielāgotu balss apmācību un precīzu kustības tveršanu, kas varētu mainīt veidu, kā veidotāji pieiet MI video ražošanai.

Kuaishou izlaida Kling Video 2.6 3. decembrī, un tas nav tikai pakāpenisku uzlabojumu. Šī laidiens būtīski maina veidu, kā mēs domājam par MI video veidošanu, ieviešot kaut ko, ko nozare cenšas sasniegt jau gadiem: vienlaicīgu audio-vizuālo ģenerēšanu.
Vienas piegajiena revolucija
Lūk, tradicionālo MI video darbbpūsma: ģenerējiet klusu video, tad steidzieties pievienot audio atsevišķi. Ceraties, ka lūpu sinhronizācija nav pārāk neveikla. Lūdzieties, lai skaņas efekti atbilstu darbībai. Tas ir neērts, laikietilpīgs un bieži rada to savaido "neatbilstošu audio-video" sajūtu, ko mēs visi esam iemācījušies paciest.
Kling 2.6 izmeta šo darbbpūsmu pa logu.
Ar vienlaicīgu audio-vizuālo ģenerēšanu jūs aprakstāt to, ko vēlaties, vienā vaicājumā, un modelis radīs video, runu, skaņas efektus un apkārtējās vides atmosfēru kopā. Nav atsevišķa audio piegājiena. Nav manuālas sinhronizācijas. Viena ģenerēšana, viss iekļauts.
Modelis atbalsta iespaidīgu audio tipu klāstu:
No runas un dialoga lidz stastījumam, dziesmam, repam un apkartejas vides skanu ainavām, Kling 2.6 var generet atseviškšus vai kombinetus audio tipus. Varons var runat, kamēr putni čivina fonā un soli atbalsojas pa brugentu akmeņiem, viss sintezets vienā piegajienā.
Balss klonēšana: jūsu balss, viņu lūpas
Pielāgota balss apmācība nozog uzmanību. Augšupielādējiet savas balss paraugs, apmāciet modeli, un pēkšņi jūsu MI radītie varoņi runā ar jūsu vokālām īpatnībām.
Praktiskie pielietojumi ir fascinējoši. Iedomājieties YouTube autoru, kas veido animētas skaidrojošas video, kur viņu multfilmas avatars runā dabīgi ar viņu īsteno balsi. Vai spēļu izstrādātāju, kas prototipē varoņu dialogu, nealinojot balss aktierus agrīnām iterācijām. Robeža starp "jūsu radošo redzējumu" un "izpildāmu saturu" tikko kļuvusi plānāka.
Šobrīd sistēma atbalsta ķīniešu un angļu balss ģenerēšanu. Vairāk valodu, iespējams, sekos, tehnologijai nobriestot.
Kustības kontrole kļūst nopietna
Kling 2.6 ne tikai uzlabo audio. Tas arī dramatīski uzlabo kustības tveršanu. Atjauninātā kustības sistēma risinā divas noturīgas problēmas, kas nomoka MI video:
Roku skaidrība
Samazināts izplūdums un artefakti roku kustībā. Pirksti vairs nesaplūst amorfas masas sarežģītu žestu laikā.
Sejas precizitāte
Dabiskāka lūpu sinhronizācija un izteiksmes renderēšana. Varoņi izskatās, it kā viņi tiešām saka vārdus, nevis tikai nejauši kustina muti.
Jūs varat augšupielādēt kustības references no 3-30 sekundēm un veidot pagarinātas sekvences, vienlaikus pielāgojot ainas detaļas ar teksta vaicājumiem. Nofilmējiet sevi dejojot, augšupielādējiet referenci, un ģenerējiet MI varoni, kas izpilda tos pašus kustējumus pilnīgi cita vide.
Lai uzzinātu vairāk par to, kā MI video modeļi apstrādā kustības un temporālo konsekvenci, skatiet mūsu padziļinātā apskatu par difūzijas transformeriem.
Konkurences ainavā
Kling 2.6 saskaras ar cietu konkurenci. Google Veo 3, OpenAI Sora 2 un Runway Gen-4.5 visi tagad piedāvā nativu audio ģenerēšanu. Bet Kuaishou ir slepens ierocis: Kwai.
Kwai, pēc mēroga salīdzināms ar TikTok, nodrošina Kuaishou ar milzīgiem apmācības datu priekšrocības. Miljardiem īsu formāta video ar sinhronizētu audio dod modelim kaut ko, ko konkurenti nevar viegli atdarīt: reālas dzīves piemērus par to, ka cilvēki patiesam kombinē balsi, mūziku un kustības radošā saturā.
API cenu salīdzinājums
| Piegādātājs | Cena par sekundi | Piezīmes |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Caur Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | Tieša API |
| Sora 2 | ~$0.20 | ChatGPT Plus iekļautie kredīti |
Kling agresīvā cenu politika to pozicionē ka budžetam draudzīgu opciju liela apjoma veidotājiem.
Ko tas nozīmē veidotājiem
Vienlaicīga ģenerēšanas pieeja nav tikai tehniski iespaidīga, tā ir darbbpūsmas revolūcija. Apsveriet ietaupīto laiku:
Vecā darbplusma
Generet klusu video (2-5 min) → Veidot audio atseviški (5-10 min) → Sinhronizet un pielagot (10-20 min) → Labot neatbilstibas (???)
Jaunā darbplusma
Rakstit vaicajumu ar audio aprakstu → Generet → Gatavs
Veidotājiem, kas ražo lielus apjomus īsa formāta satura, šis efektivitātes ieguvums dramatīski vairojas. Kas prasīja stundu, tagad prasa minūtes.
Aizķeršanās
Nekas nav ideāls. Desmit sekunžu klipi paliek griesti. Sarežģīta horeogrāfija dažreiz rada savaido rezultātus. Balss klonēšanai nepieciešama rūpīga paraugu kvalitāte, lai izvairītos no robotisku artefaktu.
Un ir plašāks jautājums par radošo autentiskumu. Kad MI var klonēt jūsu balsi un atkārtot jūsu kustības, kas paliek unikāli "jūs" radošajā procesā?
Balss klonēšanas tehnologija prasa atbildīgu lietošanu. Vienmēr pārliecinieties, ka jums ir atbilstoša piekrišana pirms jebkura balss klonēšanas, un esiet informēti par platformu politikām attiecībā uz sintetiskiem medijiem.
Skatoties uz priekšu
Kling 2.6 parāda, kurp MI video virzās: uz integrētu multimodālu ģenerēšanu, kur video, audio un kustības saplūst vienotā radošā medijā. Jautājums nav par to, vai šī tehnoloģija kļūs par standartu, bet gan par to, cik ātri konkurenti sasniegs šīs iespējas.
Veidotājiem, kas ir gatavi eksperimentēt, tagad ir laiks izpētīt. Rīki ir pieejami, cenas ir saprātīgas, un radošās iespējas ir patiesi jaunas. Tikai atcerieties: ar lielu ģeneratīvo spēku nāk liela atbildība.
Saistītā lasīšana: Uzziniet, kā natīvā audio ģenerēšana transformē nozari rakstā Klusais laikmets beidzas, vai salīdziniet vadošos rīkus mūsu Sora 2 vs Runway vs Veo 3 analīzē.
Kling 2.6 ir pieejams caur Kuaishou platformu un trešo pušu piegādātajiem, ieskaitot Fal.ai, Artlist un Media.io. API piekļuve sākas no aptuveni $0.07 par ģenerētā video sekundi.
Vai šis raksts bija noderīgs?

Henry
Radošais TehnoloģistsRadošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.
Saistītie raksti
Turpiniet izpēti ar šiem saistītajiem rakstiem

YouTube Ienes Veo 3 Fast Shorts Platformā: Bezmaksas AI Video Ģenerēšana 2,5 Miljardiem Lietotāju
Google integrē savu Veo 3 Fast modeli tieši YouTube Shorts, piedāvājot bezmaksas teksta-uz-video ģenerēšanu ar audio veidotājiem visā pasaulē. Lūk, ko tas nozīmē platformai un AI video pieejamībai.

MiniMax Hailuo 02: Ķīnas budžeta AI video modelis izaicina miljonārus
MiniMax Hailuo 02 nodrošina konkurētspējīgu video kvalitāti par daļu no cenas. Desmit video vienā Veo 3 klipa cena. Lūk, kas padara šo Ķīnas izaicinātāju nozīmīgu.

Pika 2.5: Pieejams AI video caur ātrumu, cenu un rīkiem
Pika Labs izlaiž versiju 2.5 ar ātrāku ģenerēšanu, uzlabotu fiziku un rīkiem kā Pikaframes un Pikaffects darbam ar video.