Kling 2.6: hääle kloonimine ja liikumise juhtimine muudavad AI-video loomist
Kuaishou uusim uuendus toob üheaegse audio-visuaalse genereerimise, kohandatud hääletreeningu ja täpse liikumise jäädvustamise, mis võivad muuta loojate lähenemist AI-video tootmisele.

Kuaishou avaldas Kling Video 2.6 3. detsembril ja see pole lihtsalt järjekordne väike uuendus. See väljalase muudab põhjalikult meie mõtlemist AI-video loomisest, tuues midagi, mida tööstus on aastaid taganud: üheaegne audio-visuaalne genereerimine.
Ühe käiguga revolutsioon
Traditsiooniline AI-video töövoog näeb välja nii: genereeri hääletu video, siis lisa audio eraldi. Looda, et huulte sünkroniseerimine pole liiga kohmakas. Palu, et heliefektid sobiksid tegevusega. See on tülikas, aeganõudev ja tekitab sageli selle imelikult tuttava "sobimatu audio-video" tunde.
Kling 2.6 viskab selle töövoo aknast välja.
Üheaegse audio-visuaalse genereerimisega kirjeldad soovitut ühes promptis ja mudel toodab video, kõne, heliefektid ja atmosfääri koos. Pole eraldi audiokäiku. Pole käsitsi sünkroniseerimist. Üks genereerimine, kõik kaasas.
Mudel toetab muljetavaldavat valikut audiotüüpe:
Kõnest ja dialoogist jutustuse, laulmise, räpi ja atmosfääriliste helimaastikeni, Kling 2.6 suudab genereerida eraldiseisvaid või kombineeritud audiotüüpe. Tegelane võib rääkida, samal ajal kui linnud siristavad taustal ja sammud kajavad munakividel, kõik sünteesitud ühe käiguga.
Hääle kloonimine: sinu hääl, nende huuled
Kohandatud hääletreening varastab tähelepanu. Laadi üles oma häälenäidis, treeni mudelit ja äkitselt räägivad sinu AI-genereeritud tegelased sinu hääleomadustega.
Praktilised rakendused on põnevad. Kujuta ette YouTuberit, kes loob animeeritud selgitusvideoid, kus tema koomiksitegelane räägib loomulikult tema päris häälega. Või mängude arendajat, kes prototüübib tegelaste dialoogi ilma varaste iteratsioonide jaoks näitlejaid palkamata. Barjäär "sinu loomingulise visiooni" ja "teostata sisu" vahel muutus õhemaks.
Praegu toetab süsteem hiina ja inglise keeles hääle genereerimist. Tõenäoliselt lisandub rohkem keeli tehnoloogia küpsedes.
Liikumise juhtimine tõsisemaks
Kling 2.6 ei paranda ainult audiot. See parandab oluliselt ka liikumise jäädvustamist. Uuendatud liikumissüsteem lahendab kaks püsivat probleemi, mis vaevavad AI-videot:
Käte selgus
Vähendatud hägusus ja artefaktid käeliigutustes. Sõrmed ei sula enam keeruliste žestide ajal amorfseteks massideks.
Näo täpsus
Loomulikum huulte sünkroniseerimine ja ilmete renderdamine. Tegelased näevad tegelikult välja nagu nad ütleksid sõnu, mitte lihtsalt liigutaksid suud juhuslikult.
Saad üles laadida 3-30 sekundilisi liikumisviiteid ja luua pikendatud järjestusi, kohandades stseeni detaile tekstipromptide kaudu. Filmi ennast tantsimas, laadi viide üles ja genereeri AI-tegelane, kes sooritab samu liigutusi täiesti erinevas keskkonnas.
Lisateavet selle kohta, kuidas AI-video mudelid käsitlevad liikumist ja ajalist järjepidevust, leiad meie süvakäsitlusest diffusioonitransformeritest.
Konkurentsimaastik
Kling 2.6 seisab silmitsi tugeva konkurentsiga. Google Veo 3, OpenAI Sora 2 ja Runway Gen-4.5 pakuvad nüüd kõik natiivset audio genereerimist. Kuid Kuaishoul on salajane relv: Kwai.
Kwai, mis on TikTokiga sarnases suurusjärgus, annab Kuaishoule tohutu treeningandmete eelise. Miljardid lühivideod sünkroniseeritud audioga annavad mudelile midagi, mida konkurendid ei saa kergesti kopeerida: reaalseid näiteid sellest, kuidas inimesed tegelikult kombineerivad häält, muusikat ja liikumist loomingulises sisus.
API hindade võrdlus
| Pakkuja | Hind sekundi kohta | Märkused |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Läbi Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | Otse API |
| Sora 2 | ~$0.20 | ChatGPT Plus krediidid kaasas |
Klingi agressiivne hinnakujundus positsioneerib selle soodsa valikuna suure mahuga loojatele.
Mida see loojatele tähendab
Üheaegne genereerimislähenemine pole ainult tehniliselt muljetavaldav, see on töövoo revolutsioon. Mõtle säästetud ajale:
Vana töövoog
Genereeri hääletu video (2-5 min) -> Loo audio eraldi (5-10 min) -> Sünkroniseeri ja kohanda (10-20 min) -> Paranda mittesobivused (???)
Uus töövoog
Kirjuta prompt audikirjeldusega -> Genereeri -> Valmis
Loojatele, kes toodavad suuri koguseid lühivideosisu, see efektiivsuse kasv kumuleerub märkimisväärselt. Mis võttis tund aega, võtab nüüd minuteid.
Puudus
Miski pole täiuslik. Kümnesekundilised klipid jäävad laeks. Keeruline koreograafia tekitab mõnikord imelikke tulemusi. Hääle kloonimine nõuab hoolikat näidise kvaliteeti, et vältida robotlikke artefakte.
Ja on laiem küsimus loomingulisest autentsusest. Kui AI suudab kloonida sinu häält ja kopeerida sinu liigutusi, mis jääb loominguprotsessis ainulaadselt "sinuks"?
Hääle kloonimise tehnoloogia nõuab vastutustundlikku kasutamist. Veendu alati, et sul on korralik nõusolek enne kellegi hääle kloonimist, ja ole teadlik platvormipoliitikast sünteetilise meedia osas.
Vaade tulevikku
Kling 2.6 näitab, kuhu AI-video liigub: integreeritud multimodaalne genereerimine, kus video, audio ja liikumine ühinevad ühtseks loominguliseks meediumiks. Küsimus pole selles, kas see tehnoloogia muutub standardiks, vaid kui kiiresti konkurendid nende võimetega järele jõuavad.
Loojatele, kes on valmis katsetama, on nüüd aeg uurida. Tööriistad on kättesaadavad, hinnad on mõistlikud ja loomingulised võimalused on tõeliselt uudsed. Lihtsalt mäleta: suure generatiivse jõuga kaasneb suur vastutus.
Seotud lugemine: Uuri, kuidas natiivne audio genereerimine muudab tööstust artiklis Vaikne ajastu lõpeb, või võrdle juhtivaid tööriistu meie Sora 2 vs Runway vs Veo 3 analüüsis.
Kling 2.6 on saadaval Kuaishou platvormi ja kolmanda osapoole pakkujate kaudu, sealhulgas Fal.ai, Artlist ja Media.io. API juurdepääs algab ligikaudu $0.07 genereeritud video sekundi kohta.
Kas see artikkel oli kasulik?

Henry
Loov tehnoloogLoov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.
Seotud artiklid
Jätkake uurimist nende seotud postitustega

YouTube toob Veo 3 Fasti Shortsidesse: tasuta AI-videote loomine 2,5 miljardile kasutajale
Google integreerib oma Veo 3 Fast mudeli otse YouTube Shortsidesse, pakkudes loojatele üle maailma tasuta tekst-videoks genereerimist koos heliga. Mida see tähendab platvormile ja AI-video kättesaadavusele.

MiniMax Hailuo 02: Hiina eelarve AI videomudelis kutsub välja jätikud
MiniMax Hailuo 02 annab konkurentsivoimalust videokaadust murdosa hinnast. Kümme videot ühe Veo 3 klipi hinnast. Siin on, mis teeb sellest Hiina väljakutsujast märkimisväärne.

Pika 2.5: AI-video demokratiseerimine kiiruse, hinna ja loovate tööriistade kaudu
Pika Labs avaldab versiooni 2.5, mis ühendab kiiremad genereerimise, täiustatud füüsika ja loovad tööriistad nagu Pikaframes ja Pikaffects, et teha AI-video kõigile kättesaadavaks.