Meta Pixel
HenryHenry
5 min read
908 vārdi

Kling 2.6: Balss klonēšana un kustības kontrole parveidē MI video veidošanu

Kuaishou jaunākais atjauninājums ievies vienlaicīgu audio-vizuālo ģenerēšanu, pielāgotu balss apmācību un precīzu kustības tveršanu, kas varētu mainīt veidu, kā veidotāji pieiet MI video ražošanai.

Kling 2.6: Balss klonēšana un kustības kontrole parveidē MI video veidošanu
Ka butu, ja jusu MI raditas varonas varetu runat ar jusu balsi, dejot ar jusējam kustibam un darīt to visu vienā genereshanas reize? Kling 2.6 tikko to padarija iespejamu.

Kuaishou izlaida Kling Video 2.6 3. decembrī, un tas nav tikai pakāpenisku uzlabojumu. Šī laidiens būtīski maina veidu, kā mēs domājam par MI video veidošanu, ieviešot kaut ko, ko nozare cenšas sasniegt jau gadiem: vienlaicīgu audio-vizuālo ģenerēšanu.

Vienas piegajiena revolucija

Lūk, tradicionālo MI video darbbpūsma: ģenerējiet klusu video, tad steidzieties pievienot audio atsevišķi. Ceraties, ka lūpu sinhronizācija nav pārāk neveikla. Lūdzieties, lai skaņas efekti atbilstu darbībai. Tas ir neērts, laikietilpīgs un bieži rada to savaido "neatbilstošu audio-video" sajūtu, ko mēs visi esam iemācījušies paciest.

Kling 2.6 izmeta šo darbbpūsmu pa logu.

💡

Ar vienlaicīgu audio-vizuālo ģenerēšanu jūs aprakstāt to, ko vēlaties, vienā vaicājumā, un modelis radīs video, runu, skaņas efektus un apkārtējās vides atmosfēru kopā. Nav atsevišķa audio piegājiena. Nav manuālas sinhronizācijas. Viena ģenerēšana, viss iekļauts.

Modelis atbalsta iespaidīgu audio tipu klāstu:

7+
Audio tipi
10s
Maks. garums
1080p
Izškirtspeja

No runas un dialoga lidz stastījumam, dziesmam, repam un apkartejas vides skanu ainavām, Kling 2.6 var generet atseviškšus vai kombinetus audio tipus. Varons var runat, kamēr putni čivina fonā un soli atbalsojas pa brugentu akmeņiem, viss sintezets vienā piegajienā.

Balss klonēšana: jūsu balss, viņu lūpas

Pielāgota balss apmācība nozog uzmanību. Augšupielādējiet savas balss paraugs, apmāciet modeli, un pēkšņi jūsu MI radītie varoņi runā ar jūsu vokālām īpatnībām.

Radosha potencials
Ideāli satura veidotajiem, kuri vel zimolu varonu balsas, podkasteriem, kas eksperimente ar MI vadītajiem, vai muzikantiem, kas izpēta sintetiskas vokales.
Etiskas apsvērumi
Balss klonēshana rada acimredzamas bažhas par piekrišanu un launpratigu izmantošanu. Kuaishou bus nepieciešamas spēcigas verificacijas sistēmas, lai novērstu neatļautu balss replikaciju.

Praktiskie pielietojumi ir fascinējoši. Iedomājieties YouTube autoru, kas veido animētas skaidrojošas video, kur viņu multfilmas avatars runā dabīgi ar viņu īsteno balsi. Vai spēļu izstrādātāju, kas prototipē varoņu dialogu, nealinojot balss aktierus agrīnām iterācijām. Robeža starp "jūsu radošo redzējumu" un "izpildāmu saturu" tikko kļuvusi plānāka.

Šobrīd sistēma atbalsta ķīniešu un angļu balss ģenerēšanu. Vairāk valodu, iespējams, sekos, tehnologijai nobriestot.

Kustības kontrole kļūst nopietna

Kling 2.6 ne tikai uzlabo audio. Tas arī dramatīski uzlabo kustības tveršanu. Atjauninātā kustības sistēma risinā divas noturīgas problēmas, kas nomoka MI video:

Roku skaidrība

Samazināts izplūdums un artefakti roku kustībā. Pirksti vairs nesaplūst amorfas masas sarežģītu žestu laikā.

😊

Sejas precizitāte

Dabiskāka lūpu sinhronizācija un izteiksmes renderēšana. Varoņi izskatās, it kā viņi tiešām saka vārdus, nevis tikai nejauši kustina muti.

Jūs varat augšupielādēt kustības references no 3-30 sekundēm un veidot pagarinātas sekvences, vienlaikus pielāgojot ainas detaļas ar teksta vaicājumiem. Nofilmējiet sevi dejojot, augšupielādējiet referenci, un ģenerējiet MI varoni, kas izpilda tos pašus kustējumus pilnīgi cita vide.

💡

Lai uzzinātu vairāk par to, kā MI video modeļi apstrādā kustības un temporālo konsekvenci, skatiet mūsu padziļinātā apskatu par difūzijas transformeriem.

Konkurences ainavā

Kling 2.6 saskaras ar cietu konkurenci. Google Veo 3, OpenAI Sora 2 un Runway Gen-4.5 visi tagad piedāvā nativu audio ģenerēšanu. Bet Kuaishou ir slepens ierocis: Kwai.

Kwai, pēc mēroga salīdzināms ar TikTok, nodrošina Kuaishou ar milzīgiem apmācības datu priekšrocības. Miljardiem īsu formāta video ar sinhronizētu audio dod modelim kaut ko, ko konkurenti nevar viegli atdarīt: reālas dzīves piemērus par to, ka cilvēki patiesam kombinē balsi, mūziku un kustības radošā saturā.

API cenu salīdzinājums

PiegādātājsCena par sekundiPiezīmes
Kling 2.6$0.07-$0.14Caur Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25Tieša API
Sora 2~$0.20ChatGPT Plus iekļautie kredīti

Kling agresīvā cenu politika to pozicionē ka budžetam draudzīgu opciju liela apjoma veidotājiem.

Ko tas nozīmē veidotājiem

Vienlaicīga ģenerēšanas pieeja nav tikai tehniski iespaidīga, tā ir darbbpūsmas revolūcija. Apsveriet ietaupīto laiku:

Tradicionali

Vecā darbplusma

Generet klusu video (2-5 min) → Veidot audio atseviški (5-10 min) → Sinhronizet un pielagot (10-20 min) → Labot neatbilstibas (???)

Kling 2.6

Jaunā darbplusma

Rakstit vaicajumu ar audio aprakstu → Generet → Gatavs

Veidotājiem, kas ražo lielus apjomus īsa formāta satura, šis efektivitātes ieguvums dramatīski vairojas. Kas prasīja stundu, tagad prasa minūtes.

Aizķeršanās

Nekas nav ideāls. Desmit sekunžu klipi paliek griesti. Sarežģīta horeogrāfija dažreiz rada savaido rezultātus. Balss klonēšanai nepieciešama rūpīga paraugu kvalitāte, lai izvairītos no robotisku artefaktu.

Un ir plašāks jautājums par radošo autentiskumu. Kad MI var klonēt jūsu balsi un atkārtot jūsu kustības, kas paliek unikāli "jūs" radošajā procesā?

⚠️

Balss klonēšanas tehnologija prasa atbildīgu lietošanu. Vienmēr pārliecinieties, ka jums ir atbilstoša piekrišana pirms jebkura balss klonēšanas, un esiet informēti par platformu politikām attiecībā uz sintetiskiem medijiem.

Skatoties uz priekšu

Kling 2.6 parāda, kurp MI video virzās: uz integrētu multimodālu ģenerēšanu, kur video, audio un kustības saplūst vienotā radošā medijā. Jautājums nav par to, vai šī tehnoloģija kļūs par standartu, bet gan par to, cik ātri konkurenti sasniegs šīs iespējas.

Veidotājiem, kas ir gatavi eksperimentēt, tagad ir laiks izpētīt. Rīki ir pieejami, cenas ir saprātīgas, un radošās iespējas ir patiesi jaunas. Tikai atcerieties: ar lielu ģeneratīvo spēku nāk liela atbildība.

💡

Saistītā lasīšana: Uzziniet, kā natīvā audio ģenerēšana transformē nozari rakstā Klusais laikmets beidzas, vai salīdziniet vadošos rīkus mūsu Sora 2 vs Runway vs Veo 3 analīzē.

Kling 2.6 ir pieejams caur Kuaishou platformu un trešo pušu piegādātajiem, ieskaitot Fal.ai, Artlist un Media.io. API piekļuve sākas no aptuveni $0.07 par ģenerētā video sekundi.

Vai šis raksts bija noderīgs?

Henry

Henry

Radošais Tehnoloģists

Radošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.

Saistītie raksti

Turpiniet izpēti ar šiem saistītajiem rakstiem

Vai jums patika šis raksts?

Atklājiet vairāk ieskatu un sekojiet līdzi mūsu jaunākajam saturam.

Kling 2.6: Balss klonēšana un kustības kontrole parveidē MI video veidošanu