Meta Pixel
HenryHenry
5 min read
983 думи

Kling 2.6: Клониране на глас и контрол на движението променят AI видео създаването

Последната актуализация на Kuaishou въвежда едновременно аудио-визуално генериране, обучение на персонализиран глас и прецизен motion capture, които могат да променят подхода на създателите към AI видео продукция.

Kling 2.6: Клониране на глас и контрол на движението променят AI видео създаването
Какво ако вашите AI-генерирани персонажи можеха да говорят с вашия глас, да танцуват с вашите движения и да правят всичко това в едно единствено генериране? Kling 2.6 направи това реалност.

Kuaishou пуснаха Kling Video 2.6 на 3 декември и това не е просто поредната малка актуализация. Тази версия фундаментално променя как мислим за AI видео създаването, като въвежда нещо, което индустрията преследва от години: едновременно аудио-визуално генериране.

Революцията на единичното генериране

Ето традиционния AI видео работен процес: генерирате безшумно видео, после се борите да добавите аудио отделно. Надявате се синхронът на устните да не е твърде неудобен. Молите се звуковите ефекти да съвпадат с действието. Тромаво е, отнема време и често произвежда онова странно усещане за "несъответстващо аудио-видео", с което всички сме се научили да се примиряваме.

Kling 2.6 изхвърля този работен процес през прозореца.

💡

С едновременното аудио-визуално генериране описвате какво искате в една единствена заявка и моделът произвежда видео, реч, звукови ефекти и околна атмосфера заедно. Без отделен аудио етап. Без ръчна синхронизация. Едно генериране, всичко включено.

Моделът поддържа впечатляващ набор от аудио типове:

7+
Аудио типове
10s
Макс. дължина
1080p
Резолюция

От реч и диалог до нарация, пеене, рап и околни звукови пейзажи, Kling 2.6 може да генерира самостоятелни или комбинирани аудио типове. Персонаж може да говори, докато птици чуруликат на заден план и стъпки ехтят по калдъръм, всичко синтезирано в един етап.

Клониране на глас: Вашият глас, техните устни

Обучението на персонализиран глас краде вниманието. Качвате образец от вашия глас, обучавате модела и изведнъж вашите AI-генерирани персонажи говорят с вашите гласови характеристики.

Творчески потенциал
Идеално за създатели на съдържание, които искат брандирани гласове на персонажи, подкастъри, експериментиращи с AI водещи, или музиканти, изследващи синтетични вокали.
Етични съображения
Клонирането на глас повдига очевидни въпроси за съгласие и злоупотреба. Kuaishou ще трябва да изгради стабилни системи за верификация, за да предотврати неоторизирано репликиране на глас.

Практическите приложения са интересни. Представете си YouTuber, създаващ анимирани обяснителни видеа, в които неговият карикатурен аватар говори естествено с истинския му глас. Или разработчик на игри, тестващ диалози на персонажи без да наема гласови актьори за ранните итерации. Бариерата между "вашата творческа визия" и "изпълнимо съдържание" стана по-тънка.

В момента системата поддържа генериране на глас на китайски и английски. Вероятно ще последват още езици с развитието на технологията.

Контролът на движението става сериозен

Kling 2.6 не само подобрява аудиото. Драматично подобрява и motion capture. Обновената система за движение решава два упорити проблема, които измъчват AI видеото:

Яснота на ръцете

Намалено размазване и артефакти при движение на ръцете. Пръстите вече не се сливат в аморфни петна при сложни жестове.

😊

Прецизност на лицето

По-естествен синхрон на устните и рендериране на изрази. Персонажите наистина изглеждат сякаш казват думите, а не просто движат устата си произволно.

Можете да качите референции за движение между 3-30 секунди и да създадете удължени секвенции, докато коригирате детайлите на сцената чрез текстови заявки. Снимайте се как танцувате, качете референцията и генерирайте AI персонаж, изпълняващ същите движения в напълно различна среда.

💡

За повече информация как AI видео моделите обработват движение и времева последователност, вижте нашия задълбочен анализ на дифузионните трансформери.

Конкурентният пейзаж

Kling 2.6 е изправен пред сериозна конкуренция. Google Veo 3, OpenAI Sora 2 и Runway Gen-4.5 вече предлагат вградено аудио генериране. Но Kuaishou има тайно оръжие: Kwai.

Kwai, сравним по мащаб с TikTok, предоставя на Kuaishou огромни предимства в данните за обучение. Милиарди кратки видеа със синхронизирано аудио дават на модела нещо, което конкурентите не могат лесно да възпроизведат: реални примери за това как хората действително комбинират глас, музика и движение в творческо съдържание.

Сравнение на API ценообразуване

ДоставчикЦена на секундаБележки
Kling 2.6$0.07-$0.14Чрез Fal.ai, Artlist, Media.io
Runway Gen-4.5~$0.25Директен API
Sora 2~$0.20Включени кредити в ChatGPT Plus

Агресивното ценообразуване на Kling го позиционира като бюджетна опция за създатели с голям обем.

Какво означава това за създателите

Подходът на едновременно генериране не е просто технически впечатляващ, той е революция в работния процес. Помислете за спестеното време:

Традиционно

Стар работен процес

Генериране на безшумно видео (2-5 мин) → Създаване на аудио отделно (5-10 мин) → Синхронизация и корекции (10-20 мин) → Поправяне на несъответствия (???)

Kling 2.6

Нов работен процес

Напишете заявка с аудио описание → Генерирайте → Готово

За създатели, произвеждащи големи обеми кратко съдържание, това увеличение на ефективността се умножава драматично. Това, което отнемаше час, сега отнема минути.

Уловката

Нищо не е перфектно. Десет секунди клипове остават таванът. Сложната хореография понякога произвежда странни резултати. Клонирането на глас изисква качествени образци, за да се избегнат роботизирани артефакти.

И има по-широкият въпрос за творческата автентичност. Когато AI може да клонира вашия глас и да репликира вашите движения, какво остава уникално "ваше" в творческия процес?

⚠️

Технологията за клониране на глас изисква отговорна употреба. Винаги се уверявайте, че имате правилно съгласие преди да клонирате нечий глас и бъдете наясно с политиките на платформите относно синтетични медии.

Поглед напред

Kling 2.6 показва накъде се насочва AI видеото: интегрирано мултимодално генериране, където видео, аудио и движение се сливат в единна творческа среда. Въпросът не е дали тази технология ще стане стандарт, а колко бързо конкурентите ще догонят тези възможности.

За създатели, готови да експериментират, сега е моментът да изследват. Инструментите са достъпни, ценообразуването е разумно и творческите възможности са наистина нови. Само помнете: с голяма генеративна сила идва голяма отговорност.

💡

Свързано четиво: Научете как вграденото аудио генериране трансформира индустрията в Ерата на тишината свършва или сравнете водещите инструменти в нашия анализ Sora 2 vs Runway vs Veo 3.

Kling 2.6 е достъпен чрез платформата на Kuaishou и доставчици трети страни, включително Fal.ai, Artlist и Media.io. API достъпът започва от приблизително $0.07 на секунда генерирано видео.

Беше ли полезна тази статия?

Henry

Henry

Творчески технолог

Творчески технолог от Лозана, който изследва къде изкуственият интелект среща изкуството. Експериментира с генеративни модели между сесии по електронна музика.

Свързани статии

Продължете да изследвате със свързаните публикации

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

Kling 2.6: Клониране на глас и контрол на движението променят AI видео създаването