Kling 2.6: клонирање глас и контрола на движење ја редефинираат креацијата на AI видео
Најновото ажурирање на Kuaishou воведува истовремено аудио-визуелно генерирање, прилагодена обука на глас и прецизно фаќање движење што би можело да го промени пристапот на креаторите кон AI видео продукција.

Kuaishou го објави Kling Video 2.6 на 3 декември и ова не е само уште едно мало ажурирање. Ова издание фундаментално го менува начинот на кој размислуваме за креирање AI видео со воведување на нешто што индустријата го гонеше со години: истовремено аудио-визуелно генерирање.
Револуцијата на еден премин
Еве го традиционалниот AI видео работен тек: генерирај нем видео, потоа се бори со додавање аудио одделно. Надевај се дека синхронизацијата на усните нема да биде премногу незгодна. Моли се звучните ефекти да одговараат на акцијата. Тоа е незгодно, одзема време и често го произведува тој чуден осет на "неусогласено аудио-видео" што сите научивме да го толерираме.
Kling 2.6 го фрла тој работен тек низ прозорец.
Со истовремено аудио-визуелно генерирање, опишуваш што сакаш во еден prompt и моделот произведува видео, говор, звучни ефекти и атмосфера заедно. Нема одделен аудио премин. Нема рачна синхронизација. Едно генерирање, се е вклучено.
Моделот поддржува импресивен опсег на аудио типови:
Од говор и дијалог до нарација, пеење, реп и амбиентални звучни пејзажи, Kling 2.6 може да генерира самостојни или комбинирани аудио типови. Лик може да зборува додека птици цвркотат во позадина и чекори одекнуваат на калдрма, се синтетизирано во еден премин.
Клонирање глас: твојот глас, нивните усни
Прилагодената обука на глас ја краде сцената. Качи примерок од твојот глас, обучи го моделот и одеднаш твоите AI-генерирани ликови зборуваат со твоите вокални карактеристики.
Практичните примени се фасцинантни. Замисли YouTuber кој креира анимирани објаснувачки видеа каде неговиот цртан аватар зборува природно со неговиот вистински глас. Или развивач на игри кој прави прототип на дијалог на ликови без ангажирање глумци за рани итерации. Бариерата меѓу "твојата креативна визија" и "извршлива содржина" токму стана потенка.
Моментално системот поддржува генерирање глас на кинески и англиски. Веројатно ќе следат повеќе јазици како технологијата созрева.
Контролата на движење станува сериозна
Kling 2.6 не го подобрува само аудиото. Драматично го подобрува и фаќањето движење. Ажурираниот систем за движење се справува со два упорни проблеми што го мачат AI видеото:
Јасност на раце
Намалено замаглување и артефакти на движења на раце. Прстите повеќе не се спојуваат во аморфни маси за време на сложени гестови.
Прецизност на лице
Поприродна синхронизација на усни и рендерирање на изрази. Ликовите всушност изгледаат како да ги изговараат зборовите, не само случајно да ја движат устата.
Можеш да качиш референци за движење меѓу 3-30 секунди и да креираш продолжени секвенци додека ги прилагодуваш деталите на сцената преку текстуални promptови. Сними се себеси како танцуваш, качи ја референцата и генерирај AI лик кој ги изведува истите движења во сосема поинаква средина.
За повеќе за тоа како AI видео моделите се справуваат со движење и временска конзистентност, види го нашиот длабински преглед на дифузиони трансформери.
Конкурентскиот пејзаж
Kling 2.6 се соочува со силна конкуренција. Google Veo 3, OpenAI Sora 2 и Runway Gen-4.5 сите сега нудат нативно аудио генерирање. Но Kuaishou има тајно оружје: Kwai.
Kwai, споредлив со TikTok по размер, му обезбедува на Kuaishou масивни предности во податоци за обука. Милијарди кратки видеа со синхронизирано аудио му даваат на моделот нешто што конкурентите не можат лесно да го реплицираат: примери од реалниот свет за тоа како луѓето всушност комбинираат глас, музика и движење во креативна содржина.
Споредба на API цени
| Провајдер | Цена по секунда | Белешки |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Преку Fal.ai, Artlist, Media.io |
| Runway Gen-4.5 | ~$0.25 | Директен API |
| Sora 2 | ~$0.20 | ChatGPT Plus вклучени кредити |
Агресивното ценирање на Kling го позиционира како буџетска опција за креатори со голем волумен.
Што значи ова за креаторите
Пристапот на истовремено генерирање не е само технички импресивен, тоа е револуција на работен тек. Размисли за заштеденото време:
Стар работен тек
Генерирај нем видео (2-5 мин) -> Креирај аудио одделно (5-10 мин) -> Синхронизирај и прилагоди (10-20 мин) -> Поправи неусогласености (???)
Нов работен тек
Напиши prompt со аудио опис -> Генерирај -> Готово
За креатори кои произведуваат големи количини краток содржај, оваа ефикасност драматично се акумулира. Она што траеше час сега трае минути.
Недостатокот
Ништо не е совршено. Десетсекундните клипови остануваат горната граница. Сложената кореографија понекогаш произведува чудни резултати. Клонирањето глас бара внимателен квалитет на примерок за да се избегнат роботски артефакти.
И има пошироко прашање за креативна автентичност. Кога AI може да го клонира твојот глас и да ги реплицира твоите движења, што останува уникатно "твое" во креативниот процес?
Технологијата за клонирање глас бара одговорна употреба. Секогаш осигурај се дека имаш соодветна согласност пред клонирање на нечиј глас и биди свесен за политиките на платформите во врска со синтетички медиуми.
Поглед напред
Kling 2.6 покажува каде оди AI видеото: интегрирано мултимодално генерирање каде видео, аудио и движење се спојуваат во унифициран креативен медиум. Прашањето не е дали оваа технологија ќе стане стандард, туку колку брзо конкурентите ќе ги достигнат овие способности.
За креатори спремни да експериментираат, сега е време да истражуваат. Алатките се достапни, цените се разумни и креативните можности се навистина нови. Само запомни: со голема генеративна моќ доаѓа голема одговорност.
Поврзано читање: Дознај како нативното аудио генерирање ја трансформира индустријата во Немата ера завршува, или споредба на водечки алатки во нашата анализа Sora 2 vs Runway vs Veo 3.
Kling 2.6 е достапен преку платформата на Kuaishou и провајдери од трета страна вклучувајќи Fal.ai, Artlist и Media.io. API пристап започнува од приближно $0.07 по секунда генерирано видео.
Дали оваа статија беше корисна?

Henry
Креативен технологКреативен технолог од Лозана кој истражува каде вештачката интелигенција се среќава со уметноста. Експериментира со генеративни модели помеѓу сесиите на електронска музика.
Поврзани статии
Продолжете со истражување со овие поврзани објави

YouTube го Носи Veo 3 Fast во Shorts: Бесплатно AI Генерирање Видео за 2,5 Милијарди Корисници
Google го интегрира својот модел Veo 3 Fast директно во YouTube Shorts, нудејќи бесплатно генерирање видео од текст со звук за креатори ширум светот. Еве што значи ова за платформата и достапноста на AI видео.

Pika 2.5: Достапно AI видео преку брзина, цена и алатки
Pika Labs издава верзија 2.5 со побрзо генерирање, подобрена физика и алатки како Pikaframes и Pikaffects за работа со видео.

ByteDance Seedance 1.5 Pro: Моделот што генерира аудио и видео заедно
ByteDance објави Seedance 1.5 Pro со природна аудио-визуелна генерација, кинематографска контрола на камера и повеќејазична синхронизација на усни. Достапен бесплатно на CapCut.