Meta Pixel
HenryHenry
5 min read
936 orð

Kling 2.6: Raddklonun og hreyfistjornun breyta skopmyndaskapnaoi med gervigreind

Nyasta uppfaersla Kuaishou kynnir samtimis hljod- og myndframleidslu, sersnidin raddthjolfun og narkvaema hreyfistokkun sem gaeti breytt thvi hvernig hofundar nalgas AI-myndbandaskapnad.

Kling 2.6: Raddklonun og hreyfistjornun breyta skopmyndaskapnaoi med gervigreind
Hvað ef persónurnar þínar í gervigreindarmyndböndum gætu talað með þinni rödd, dansað með þínum hreyfingum, og gert þetta allt í einni framleiðslulotu? Kling 2.6 hefur gert þetta að veruleika.

Kuaishou gaf út Kling Video 2.6 þann 3. desember, og þetta er ekki bara önnur smávægileg uppfærsla. Þessi útgáfa breytir í grundvallaratriðum hvernig við hugsum um gervigreindarmyndbandasköpun með því að kynna eitthvað sem iðnaðurinn hefur elt í mörg ár: samtímis hljóð- og myndframleiðslu.

Byltingin í einni framleiðslulotu

Hér er hefðbundið vinnuflæði AI-myndbanda: framleiða þögult myndband, síðan reyna að bæta við hljóði sérstaklega. Vona að varasamsvarið sé ekki of klaufalegt. Biðjast fyrir að hljóðáhrifin passi við athöfnina. Þetta er óþjált, tímafrekt, og framleiðir oft þá undarlegu "ósamræmdu hljóð-mynd" tilfinningu sem við höfum öll lært að þola.

Kling 2.6 hendir þessu vinnuflæði út um gluggann.

💡

Með samtímis hljóð- og myndframleiðslu lýsir þú því sem þú vilt í einni skipun, og líkanið framleiðir myndband, tal, hljóðáhrif og umhverfisandrúmsloft saman. Engin sérstök hljóðlota. Engin handvirk samstilling. Ein framleiðsla, allt innifalið.

Líkanið styður áhrifamikið úrval hljóðtegunda:

7+
Hljóðtegundir
10s
Hámarkslengd
1080p
Upplausn

Frá tali og samtölum til frásagnar, söng, rapp og umhverfishljóðs, Kling 2.6 getur framleitt einstakar eða samsettar hljóðtegundir. Persóna getur talað á meðan fuglar kvaka í bakgrunni og fótspor enduróma á hellulögðum götum, allt samþætt í einni framleiðslu.

Raddklónun: Þín rödd, þeirra varir

Sérsniðin raddþjálfun stelur sviðsljósinu. Hladdu upp sýnishorni af rödd þinni, þjálfa líkanið, og skyndilega tala gervigreindarpersónurnar þínar með þínum raddeiginleikum.

Skapandi möguleikar
Fullkomið fyrir efnishöfunda sem vilja vörumerktar raddir persóna, hlaðvarpsstjóra sem gera tilraunir með AI-gestgjafa, eða tónlistarmenn sem kanna tilbúinn söng.
Siðferðilegar athugasemdir
Raddklónun vekur augljósar áhyggjur um samþykki og misnotkun. Kuaishou þarf öflugt staðfestingarkerfi til að koma í veg fyrir óleyfilega raddafritun.

Hagnýt notkun er heillandi. Ímyndaðu þér YouTube-höfund sem býr til teiknimynda-útskýringarmyndbönd þar sem teiknaður avatar þeirra talar náttúrulega með raunverulegri rödd þeirra. Eða tölvuleikjaframleiðanda sem gerir prófanir á persónusamtölum án þess að ráða raddsleikara fyrir fyrstu útgáfur. Hindrunin á milli "skapandi sýnar þinnar" og "framkvæmanlegs efnis" varð einmitt þynnri.

Eins og er styður kerfið kínverska og enska raddframleiðslu. Fleiri tungumál munu líklega fylgja eftir því sem tæknin þroskast.

Hreyfistjórnun verður alvarleg

Kling 2.6 bætir ekki bara hljóð. Það eykur hreyfistokkun verulega líka. Uppfært hreyfikerfi tekst á við tvö viðvarandi vandamál sem hrjá AI-myndbönd:

Skýrleiki handa

Minnkað þokun og gölluð á handhreyfingum. Fingur blandast ekki lengur saman í formlaus klumpa við flóknar bendingar.

😊

Nákvæmni andlits

Náttúrulegri varasamsvarað og birtingu tjáninga. Persónur líta í raun út eins og þær séu að segja orðin, ekki bara að hreyfa varir sínar af handahófi.

Þú getur hlaðið upp hreyfitilvísunum á bilinu 3-30 sekúndur og búið til lengri raðir meðan þú stillir sviðsmyndarsmáatriði með textaskipunum. Taktu upp þig dansa, hladdu tilvísuninni upp, og framleiddu AI-persónu sem framkvæmir sömu hreyfingar í alveg öðru umhverfi.

💡

Fyrir meira um hvernig AI-myndbandslíkön meðhöndla hreyfingu og tímalegt samræmi, sjá djúpköfun okkar um diffusion transformers.

Samkeppnislandslagið

Kling 2.6 stendur frammi fyrir harðri samkeppni. Google Veo 3, OpenAI Sora 2, og Runway Gen-4.5 bjóða öll innfædda hljóðframleiðslu núna. En Kuaishou hefur leynivopn: Kwai.

Kwai, sem er sambærilegt TikTok að stærð, gefur Kuaishou gríðarlega þjálfunargagnayfirburði. Milljarðar stuttmyndabanda með samstilltu hljóði gefa líkaninu eitthvað sem keppinautar geta ekki auðveldlega afritað: raunheimsdæmi um hvernig menn raunverulega sameina rödd, tónlist og hreyfingu í skapandi efni.

API-verðsamanburður

VeitandiKostnaður á sekúnduAthugasemdir
Kling 2.6$0.07-$0.14Gegnum Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25Beint API
Sora 2~$0.20ChatGPT Plus innifalinn inneign

Árásargjörn verðlagning Kling staðsetur það sem hagkvæma kostinn fyrir höfunda með mikið magn.

Hvað þetta þýðir fyrir höfunda

Samtímis framleiðsluaðferðin er ekki bara tæknilega áhrifamikil, hún er bylting í vinnuflæði. Hugleiddu tímann sem sparast:

Hefðbundið

Gamla vinnuflæðið

Framleiða þögult myndband (2-5 mín) → Búa til hljóð sérstaklega (5-10 mín) → Samstilla og stilla (10-20 mín) → Laga ósamræmi (???)

Kling 2.6

Nýja vinnuflæðið

Skrifa skipun með hljóðlýsingu → Framleiða → Búið

Fyrir höfunda sem framleiða mikið magn af stuttu efni, margfaldast þessi hagkvæmnisaukning verulega. Það sem tók klukkustund tekur nú mínútur.

Gallinn

Ekkert er fullkomið. Tíu sekúndna klippur eru enn þakið. Flókin dansstígapör skila stundum undarlegum niðurstöðum. Raddklónun krefst vandaðra sýnishornagæða til að forðast vélrænni galla.

Og það er víðtækari spurning um skapandi áreiðanleika. Þegar gervigreind getur klónað rödd þína og afritað hreyfingar þínar, hvað er eftir sem er einstakt "þú" í skapandi ferlinu?

⚠️

Raddklónunartækni krefst ábyrgrar notkunar. Gakktu alltaf úr skugga um að þú hafir rétt samþykki áður en þú klónar rödd einhvers, og vertu meðvitaður um reglur vettvangs varðandi tilbúna miðla.

Að horfa fram á við

Kling 2.6 sýnir hvert AI-myndband stefnir: samþætt fjölþáttagreind þar sem myndband, hljóð og hreyfing sameinast í sameinaðan skapandi miðil. Spurningin er ekki hvort þessi tækni verði staðall, heldur hversu hratt keppinautar munu jafnast á við þessa hæfileika.

Fyrir höfunda sem eru tilbúnir að gera tilraunir, núna er tíminn til að kanna. Verkfærin eru aðgengileg, verðlagningin er sanngjörn, og skapandi möguleikar eru sannarlega nýstárlegir. Mundu bara: með mikilli framleitt veldi fylgir mikil ábyrgð.

💡

Tengd lesning: Lærðu hvernig innbyggð hljóðframleiðsla er að breyta iðnaðinum í The Silent Era Ends, eða berðu saman leiðandi verkfæri í greiningu okkar Sora 2 vs Runway vs Veo 3.

Kling 2.6 er aðgengilegt í gegnum vettvang Kuaishou og þriðju aðila þar á meðal Fal.ai, Artlist, og Media.io. API-aðgangur byrjar á um það bil $0.07 á sekúndu af framleiddu myndbandi.

Var þessi grein gagnleg?

Henry

Henry

Skapandi tæknimaður

Skapandi tæknimaður frá Lausanne sem kannar þar sem gervigreind hittir listir. Tilraunir með framleiðandi líkön á milli rafeindatónleikaþátta.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Kling 2.6: Raddklonun og hreyfistjornun breyta skopmyndaskapnaoi med gervigreind