Meta Pixel
HenryHenry
5 min read
936 besed

Kling 2.6: Kloniranje glasu in nadzor gibanja spremenita ustvarjanje AI videov

Najnovejša posodobitev Kuaishouja prinašа sočasno generiranje zvoka in slike, trening glasov po meri ter natančno zaznavanje gibanja, kar lahko spremeni pristop ustvarjalcev k produkciji AI videov.

Kling 2.6: Kloniranje glasu in nadzor gibanja spremenita ustvarjanje AI videov
Kaj, če bi vaši AI liki lahko govorili z vašim glasom, plesali z vašimi gibi in vse to naredili v enem samem generacijskem koraku? Kling 2.6 je to uresničil.

Kuaishou je 3. decembra izdal Kling Video 2.6 in to ni le še ena postopna nadgradnja. Ta izdaja bistveno spreminja način razmišljanja o ustvarjanju AI videov, saj uvaja nekaj, kar industrija lovi že leta: sočasno generiranje zvoka in slike.

Revolucija enega prehoda

Tradicionalni potek dela z AI videi je bil takšen: najprej ustvariš nem video, nato pa se boriš z ločenim dodajanjem zvoka. Upaj, da sinhronizacija ustnic ni prevč neprijetna. Moliš, da zvočni učinki ustrezajo dogajanju. Okoren, dolgotrajen proces, ki pogosto ustvari tisti čudni občutek "neusklajenega zvoka in slike", ki smo se ga vsi navadili sprejemati.

Kling 2.6 ta potek dela pomete skozi okno.

💡

Pri sočasnem generiranju zvoka in slike opišeš, kaj želiš, v enem samem pozivu, model pa ustvari video, govor, zvočne učinke in ambientalno vzdušje skupaj. Brez ločenega zvočnega prehoda. Brez ročne sinhronizacije. Ena generacija, vse vključeno.

Model podpira impresivno paleto vrst zvoka:

7+
Vrste zvoka
10s
Najv. dolžina
1080p
Ločljivost

Od govora in dialogov do pripovedovanja, petja, repa in ambientalnih zvočnih kulis, Kling 2.6 lahko generira samostojne ali kombinirane vrste zvoka. Lik lahko govori, medtem ko v ozadju cvrkutajo ptice in koraki odmevajo po tlaku, vse sintetizirano v enem prehodu.

Kloniranje glasu: vaš glas, njihove ustnice

Trening glasov po meri krade pozornost. Naloži vzorec svojega glasu, natreniraš model in nenadoma tvoji AI liki govorijo s tvojimi glasovnimi značilnostmi.

Ustvarjalni potencial
Odlično za ustvarjalce vsebin, ki želijo blagovne glasove likov, podkasterje, ki eksperimentirajo z AI voditelji, ali glasbenike, ki raziskujejo sintetične vokale.
Etični pomisleki
Kloniranje glasu odpira očitna vprašanja o soglasju in zlorabi. Kuaishou bo potreboval robustne sisteme preverjanja, da prepričajo nepooblaščeno kopiranje glasov.

Praktične uporabe so fascinantne. Predstavljaj si YouTuberja, ki ustvarja animirane razlagalne videe, kjer njegov animirani avatar naravno govori z njegovim dejanskim glasom. Ali razvijalca iger, ki prototipira dialoge likov brez najemanja glasovnih igralcev za zgodnje iteracije. Pregrada med "tvojo ustvarjalno vizijo" in "izvedljivo vsebino" je postala tanjša.

Trenutno sistem podpira generiranje glasov v kitajščini in angleščini. Več jezikov bo verjetno sledilo z zorenjem tehnologije.

Nadzor gibanja postaja resna

Kling 2.6 ne izboljšuje le zvoka. Dramatično izboljšuje tudi zajem gibanja. Posodobljen sistem gibanja naslavljа dva vztrajna problema, ki pestita AI video:

Jasnost rok

Zmanjšana zamegljenost in artefakti pri gibanju rok. Prsti se ne zlivajo več v amorfne kepe med kompleksnimi gestami.

😊

Natančnost obraza

Bolj naravna sinhronizacija ustnic in upodabljanje izrazov. Liki dejansko izgledajo, kot da govorijo besede, ne le naključno premikajo usta.

Lahko naloži reference gibanja med 3-30 sekundami in ustvariš podaljšane sekvence ob prilagajanju podrobnosti scene prek besedilnih pozivov. Posnamis sebe, kako plešeš, naloži referenco in generiraj AI lik, ki izvaja iste gibe v povsem drugem okolju.

💡

Več o tem, kako AI video modeli obvladujejo gibanje in časovno doslednost, najdeš v našem poglobljnem članku o difuzijskih transformatorjih.

Konkurenčna krajina

Kling 2.6 se srečuje z močno konkurenco. Google Veo 3, OpenAI Sora 2 in Runway Gen-4.5 vsi zdaj ponujajo nativno generiranje zvoka. Toda Kuaishou ima skrivno orožje: Kwai.

Kwai, po obsegu primerljiv s TikTokom, daje Kuaishouju ogromne prednosti pri podatkih za učenje. Milijarde kratkih videov s sinhroniziranim zvokom dajejo modelu nekaj, česar konkurenti ne morejo zlahka ponoviti: primere iz resničnega sveta, kako ljudje dejansko kombinirajo glas, glasbo in gibanje v ustvarjalnih vsebinah.

Primerjava cen API

PonudnikCena na sekundoOpombe
Kling 2.6$0.07-$0.14Prek Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25Neposreden API
Sora 2~$0.20Vključeni krediti ChatGPT Plus

Agresivno oblikovanje cen Klinga ga postavlja kot proračunsko prijazno možnost za ustvarjalce z velikim obsegom.

Kaj to pomeni za ustvarjalce

Pristop sočasnega generiranja ni le tehnično impresiven, je revolucija poteka dela. Pomisli na prihranjeni čas:

Tradicionalno

Stari potek dela

Generiraj nem video (2-5 min) → Ustvari zvok ločeno (5-10 min) → Sinhroniziraj in prilagodi (10-20 min) → Popravi neskladja (???)

Kling 2.6

Novi potek dela

Napiši poziv z opisom zvoka → Generiraj → Končano

Za ustvarjalce, ki producirajo velike količine kratkih vsebin, ta pridobitev učinkovitosti drastično narašča. Kar je trajalo uro, zdaj traja minute.

Trik

Nič ni popolno. Desetsekundni posnetki ostajajo zgornja meja. Kompleksna koreografija včasih prinese čudne rezultate. Kloniranje glasu zahteva kakovostne vzorce, da se izogneš robotskim artefaktom.

In tu je širše vprašanje ustvarjalne avtentičnosti. Ko lahko AI klonira tvoj glas in ponovi tvoje gibe, kaj ostane edinstvenosno "tvoje" v ustvarjalnem procesu?

⚠️

Tehnologija kloniranja glasu zahteva odgovorno uporabo. Vedno se prepričaj, da imaš ustrezno soglasje, preden kloniš glas kogarkoli, in se zavedaj politik platform glede sintetičnih medijev.

Pogled naprej

Kling 2.6 kaže, kam gre AI video: proti integriranemu multimodalnemu generiranju, kjer se video, zvok in gibanje zlijejo v enotni ustvarjalni medij. Vprašanje ni, ali bo ta tehnologija postala standard, ampak kako hitro bodo konkurenti dosegli te zmogljivosti.

Za ustvarjalce, pripravljene eksperimentirati, je zdaj čas za raziskovanje. Orodja so dostopna, cene razumne in ustvarjalne možnosti resnično nove. Le ne pozabi: z veliko generativno močjo pride velika odgovornost.

💡

Sorodno branje: Izvedi, kako nativno generiranje zvoka spreminja industrijo v Konec tihe dobe, ali primerjaj vodilna orodja v naši analizi Sora 2 vs Runway vs Veo 3.

Kling 2.6 je na voljo prek platforme Kuaishou in tretjih ponudnikov, vključno s Fal.ai, Artlist in Media.io. Dostop do API se začne pri približno $0.07 na sekundo generiranega videa.

Vam je bil ta članek v pomoč?

Henry

Henry

Ustvarjalni Tehnolog

Ustvarjalni tehnolog iz Lausanne, ki raziskuje, kje se UI srečuje z umetnostjo. Eksperimentira z generativnimi modeli med sesjami elektronske glasbe.

Sorodni članki

Nadaljujte raziskovanje s temi sorodnimi objavami

Vam je bil članek všeč?

Odkrijte več vpogledov in ostanite na tekočem z našimi najnovejšimi vsebinami.

Kling 2.6: Kloniranje glasu in nadzor gibanja spremenita ustvarjanje AI videov