Meta Pixel
HenryHenry
5 min read
818 sõna

Kling 2.6: hääle kloonimine ja liikumise juhtimine muudavad AI-video loomist

Kuaishou uusim uuendus toob üheaegse audio-visuaalse genereerimise, kohandatud hääletreeningu ja täpse liikumise jäädvustamise, mis võivad muuta loojate lähenemist AI-video tootmisele.

Kling 2.6: hääle kloonimine ja liikumise juhtimine muudavad AI-video loomist
Mis oleks, kui sinu AI-genereeritud tegelased saaksid rääkida sinu häälega, tantsida sinu liigutustega ja teha seda kõike ühe genereerimisega? Kling 2.6 tegi selle reaalsuseks.

Kuaishou avaldas Kling Video 2.6 3. detsembril ja see pole lihtsalt järjekordne väike uuendus. See väljalase muudab põhjalikult meie mõtlemist AI-video loomisest, tuues midagi, mida tööstus on aastaid taganud: üheaegne audio-visuaalne genereerimine.

Ühe käiguga revolutsioon

Traditsiooniline AI-video töövoog näeb välja nii: genereeri hääletu video, siis lisa audio eraldi. Looda, et huulte sünkroniseerimine pole liiga kohmakas. Palu, et heliefektid sobiksid tegevusega. See on tülikas, aeganõudev ja tekitab sageli selle imelikult tuttava "sobimatu audio-video" tunde.

Kling 2.6 viskab selle töövoo aknast välja.

💡

Üheaegse audio-visuaalse genereerimisega kirjeldad soovitut ühes promptis ja mudel toodab video, kõne, heliefektid ja atmosfääri koos. Pole eraldi audiokäiku. Pole käsitsi sünkroniseerimist. Üks genereerimine, kõik kaasas.

Mudel toetab muljetavaldavat valikut audiotüüpe:

7+
Audiotüüpi
10s
Max pikkus
1080p
Resolutsioon

Kõnest ja dialoogist jutustuse, laulmise, räpi ja atmosfääriliste helimaastikeni, Kling 2.6 suudab genereerida eraldiseisvaid või kombineeritud audiotüüpe. Tegelane võib rääkida, samal ajal kui linnud siristavad taustal ja sammud kajavad munakividel, kõik sünteesitud ühe käiguga.

Hääle kloonimine: sinu hääl, nende huuled

Kohandatud hääletreening varastab tähelepanu. Laadi üles oma häälenäidis, treeni mudelit ja äkitselt räägivad sinu AI-genereeritud tegelased sinu hääleomadustega.

Loominguline potentsiaal
Ideaalne sisuloojatele, kes soovivad bränditud tegelashääli, podcastijatele, kes katsetavad AI-saatejuhtidega, või muusikutele, kes uurivad sünteetilisi vokaale.
Eetilised kaalutlused
Hääle kloonimine tekitab ilmseid muresid nõusoleku ja väärkasutuse osas. Kuaishou vajab tugevaid verifitseerimissüsteeme loata hääle kopeerimise vältimiseks.

Praktilised rakendused on põnevad. Kujuta ette YouTuberit, kes loob animeeritud selgitusvideoid, kus tema koomiksitegelane räägib loomulikult tema päris häälega. Või mängude arendajat, kes prototüübib tegelaste dialoogi ilma varaste iteratsioonide jaoks näitlejaid palkamata. Barjäär "sinu loomingulise visiooni" ja "teostata sisu" vahel muutus õhemaks.

Praegu toetab süsteem hiina ja inglise keeles hääle genereerimist. Tõenäoliselt lisandub rohkem keeli tehnoloogia küpsedes.

Liikumise juhtimine tõsisemaks

Kling 2.6 ei paranda ainult audiot. See parandab oluliselt ka liikumise jäädvustamist. Uuendatud liikumissüsteem lahendab kaks püsivat probleemi, mis vaevavad AI-videot:

Käte selgus

Vähendatud hägusus ja artefaktid käeliigutustes. Sõrmed ei sula enam keeruliste žestide ajal amorfseteks massideks.

😊

Näo täpsus

Loomulikum huulte sünkroniseerimine ja ilmete renderdamine. Tegelased näevad tegelikult välja nagu nad ütleksid sõnu, mitte lihtsalt liigutaksid suud juhuslikult.

Saad üles laadida 3-30 sekundilisi liikumisviiteid ja luua pikendatud järjestusi, kohandades stseeni detaile tekstipromptide kaudu. Filmi ennast tantsimas, laadi viide üles ja genereeri AI-tegelane, kes sooritab samu liigutusi täiesti erinevas keskkonnas.

💡

Lisateavet selle kohta, kuidas AI-video mudelid käsitlevad liikumist ja ajalist järjepidevust, leiad meie süvakäsitlusest diffusioonitransformeritest.

Konkurentsimaastik

Kling 2.6 seisab silmitsi tugeva konkurentsiga. Google Veo 3, OpenAI Sora 2 ja Runway Gen-4.5 pakuvad nüüd kõik natiivset audio genereerimist. Kuid Kuaishoul on salajane relv: Kwai.

Kwai, mis on TikTokiga sarnases suurusjärgus, annab Kuaishoule tohutu treeningandmete eelise. Miljardid lühivideod sünkroniseeritud audioga annavad mudelile midagi, mida konkurendid ei saa kergesti kopeerida: reaalseid näiteid sellest, kuidas inimesed tegelikult kombineerivad häält, muusikat ja liikumist loomingulises sisus.

API hindade võrdlus

PakkujaHind sekundi kohtaMärkused
Kling 2.6$0.07-$0.14Läbi Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25Otse API
Sora 2~$0.20ChatGPT Plus krediidid kaasas

Klingi agressiivne hinnakujundus positsioneerib selle soodsa valikuna suure mahuga loojatele.

Mida see loojatele tähendab

Üheaegne genereerimislähenemine pole ainult tehniliselt muljetavaldav, see on töövoo revolutsioon. Mõtle säästetud ajale:

Traditsiooniline

Vana töövoog

Genereeri hääletu video (2-5 min) -> Loo audio eraldi (5-10 min) -> Sünkroniseeri ja kohanda (10-20 min) -> Paranda mittesobivused (???)

Kling 2.6

Uus töövoog

Kirjuta prompt audikirjeldusega -> Genereeri -> Valmis

Loojatele, kes toodavad suuri koguseid lühivideosisu, see efektiivsuse kasv kumuleerub märkimisväärselt. Mis võttis tund aega, võtab nüüd minuteid.

Puudus

Miski pole täiuslik. Kümnesekundilised klipid jäävad laeks. Keeruline koreograafia tekitab mõnikord imelikke tulemusi. Hääle kloonimine nõuab hoolikat näidise kvaliteeti, et vältida robotlikke artefakte.

Ja on laiem küsimus loomingulisest autentsusest. Kui AI suudab kloonida sinu häält ja kopeerida sinu liigutusi, mis jääb loominguprotsessis ainulaadselt "sinuks"?

⚠️

Hääle kloonimise tehnoloogia nõuab vastutustundlikku kasutamist. Veendu alati, et sul on korralik nõusolek enne kellegi hääle kloonimist, ja ole teadlik platvormipoliitikast sünteetilise meedia osas.

Vaade tulevikku

Kling 2.6 näitab, kuhu AI-video liigub: integreeritud multimodaalne genereerimine, kus video, audio ja liikumine ühinevad ühtseks loominguliseks meediumiks. Küsimus pole selles, kas see tehnoloogia muutub standardiks, vaid kui kiiresti konkurendid nende võimetega järele jõuavad.

Loojatele, kes on valmis katsetama, on nüüd aeg uurida. Tööriistad on kättesaadavad, hinnad on mõistlikud ja loomingulised võimalused on tõeliselt uudsed. Lihtsalt mäleta: suure generatiivse jõuga kaasneb suur vastutus.

💡

Seotud lugemine: Uuri, kuidas natiivne audio genereerimine muudab tööstust artiklis Vaikne ajastu lõpeb, või võrdle juhtivaid tööriistu meie Sora 2 vs Runway vs Veo 3 analüüsis.

Kling 2.6 on saadaval Kuaishou platvormi ja kolmanda osapoole pakkujate kaudu, sealhulgas Fal.ai, Artlist ja Media.io. API juurdepääs algab ligikaudu $0.07 genereeritud video sekundi kohta.

Kas see artikkel oli kasulik?

Henry

Henry

Loov tehnoloog

Loov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.

Seotud artiklid

Jätkake uurimist nende seotud postitustega

Kas see artikkel meeldis teile?

Avastage rohkem põnevaid teadmisi ja püsige kursis meie uusima sisuga.

Kling 2.6: hääle kloonimine ja liikumise juhtimine muudavad AI-video loomist