Kling 2.6: 음성 복제와 모션 컨트롤이 AI 영상 제작의 새로운 기준을 제시합니다
Kuaishou의 최신 업데이트는 동시 오디오-비디오 생성, 맞춤형 음성 훈련, 정밀 모션 캡처 기능을 도입했습니다. 이러한 혁신은 크리에이터들이 AI 영상 제작에 접근하는 방식을 근본적으로 바꿀 수 있습니다.

Kuaishou는 12월 3일 Kling Video 2.6을 출시했으며, 이는 단순한 점진적 업데이트가 아닙니다. 이번 릴리스는 업계가 수년간 추구해 온 기술, 바로 동시 오디오-비디오 생성을 도입함으로써 AI 영상 제작에 대한 우리의 생각을 근본적으로 변화시킵니다.
단일 패스 혁명
기존의 AI 영상 워크플로우를 살펴보겠습니다. 무음 영상을 생성한 후 별도로 오디오를 추가해야 합니다. 립싱크가 너무 어색하지 않기를 바라고, 효과음이 동작과 일치하기를 기도합니다. 번거롭고 시간이 많이 소요되며, 우리 모두가 참아내는 법을 배운 그 불편한 "오디오-비디오 불일치" 느낌을 자주 만들어냅니다.
Kling 2.6은 이러한 워크플로우를 완전히 바꿔놓습니다.
동시 오디오-비디오 생성을 통해 하나의 프롬프트로 원하는 것을 설명하면, 모델이 영상, 음성, 효과음, 주변 분위기를 함께 생성합니다. 별도의 오디오 패스가 필요 없습니다. 수동 동기화도 없습니다. 한 번의 생성으로 모든 것이 포함됩니다.
이 모델은 인상적인 범위의 오디오 유형을 지원합니다:
대화와 대사부터 내레이션, 노래, 랩, 주변 음향까지, Kling 2.6은 독립적이거나 결합된 오디오 유형을 생성할 수 있습니다. 캐릭터가 말하는 동안 배경에서 새가 지저귀고 조약돌 위에 발소리가 울려 퍼지는 것까지, 모두 한 번의 패스로 합성됩니다.
음성 복제: 당신의 목소리, 그들의 입술
맞춤형 음성 훈련이 주목받는 기능입니다. 여러분의 음성 샘플을 업로드하고 모델을 훈련시키면, AI로 생성된 캐릭터가 여러분의 음성 특성으로 말하게 됩니다.
실용적인 응용 분야는 매우 흥미롭습니다. 만화 아바타가 실제 목소리로 자연스럽게 말하는 애니메이션 설명 영상을 제작하는 유튜버를 상상해 보십시오. 또는 초기 단계에서 성우를 고용하지 않고 캐릭터 대사 프로토타입을 만드는 게임 개발자도 생각해 볼 수 있습니다. 창의적 비전과 실행 가능한 콘텐츠 사이의 장벽이 더욱 얇아졌습니다.
현재 시스템은 중국어와 영어 음성 생성을 지원합니다. 기술이 성숙해지면 더 많은 언어가 추가될 것으로 예상됩니다.
모션 컨트롤의 본격적인 발전
Kling 2.6은 오디오만 개선한 것이 아닙니다. 모션 캡처도 획기적으로 향상되었습니다. 업데이트된 모션 시스템은 AI 영상을 괴롭히는 두 가지 지속적인 문제를 해결합니다:
손 선명도
손 움직임의 흐림과 아티팩트가 감소했습니다. 복잡한 제스처 중에도 손가락이 더 이상 불분명한 덩어리로 합쳐지지 않습니다.
얼굴 정밀도
더 자연스러운 립싱크와 표정 렌더링이 가능합니다. 캐릭터가 실제로 단어를 말하는 것처럼 보이며, 단순히 입을 무작위로 움직이는 것이 아닙니다.
3초에서 30초 사이의 모션 레퍼런스를 업로드하고 텍스트 프롬프트를 통해 장면 세부 사항을 조정하면서 확장된 시퀀스를 만들 수 있습니다. 춤추는 자신을 촬영하고, 레퍼런스를 업로드한 다음, 완전히 다른 환경에서 같은 동작을 수행하는 AI 캐릭터를 생성할 수 있습니다.
AI 영상 모델이 모션과 시간적 일관성을 어떻게 처리하는지에 대한 자세한 내용은 디퓨전 트랜스포머에 대한 심층 분석을 참조해 주십시오.
경쟁 환경
Kling 2.6은 치열한 경쟁에 직면해 있습니다. Google Veo 3, OpenAI Sora 2, Runway Gen-4.5 모두 현재 네이티브 오디오 생성을 제공하고 있습니다. 하지만 Kuaishou에는 비밀 무기가 있습니다: 바로 Kwai입니다.
규모 면에서 TikTok에 비견되는 Kwai는 Kuaishou에 방대한 훈련 데이터 우위를 제공합니다. 동기화된 오디오가 포함된 수십억 개의 숏폼 영상은 경쟁사가 쉽게 복제할 수 없는 것을 모델에 제공합니다. 바로 인간이 창의적 콘텐츠에서 실제로 음성, 음악, 모션을 어떻게 결합하는지에 대한 실제 사례입니다.
API 가격 비교
| 제공업체 | 초당 비용 | 비고 |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | Fal.ai, Artlist, Media.io 통해 |
| Runway Gen-4.5 | ~$0.25 | 직접 API |
| Sora 2 | ~$0.20 | ChatGPT Plus 포함 크레딧 |
Kling의 공격적인 가격 정책은 대량 콘텐츠 크리에이터를 위한 경제적인 옵션으로 자리매김하고 있습니다.
크리에이터에게 이것이 의미하는 바
동시 생성 접근 방식은 기술적으로 인상적일 뿐만 아니라 워크플로우의 혁명입니다. 절약되는 시간을 살펴보십시오:
이전 워크플로우
무음 영상 생성 (2-5분) → 별도로 오디오 생성 (5-10분) → 동기화 및 조정 (10-20분) → 불일치 수정 (???)
새로운 워크플로우
오디오 설명이 포함된 프롬프트 작성 → 생성 → 완료
대량의 숏폼 콘텐츠를 제작하는 크리에이터에게 이러한 효율성 향상은 기하급수적으로 증가합니다. 한 시간이 걸리던 작업이 이제 몇 분이면 됩니다.
한계점
완벽한 것은 없습니다. 10초 클립이 여전히 최대 길이입니다. 복잡한 안무는 때때로 부자연스러운 결과를 만들어냅니다. 음성 복제는 로봇 같은 아티팩트를 피하기 위해 신중한 샘플 품질이 필요합니다.
그리고 창의적 진정성에 관한 더 넓은 질문이 있습니다. AI가 여러분의 목소리를 복제하고 움직임을 재현할 수 있을 때, 창작 과정에서 고유하게 "여러분"인 것은 무엇이 남는 것일까요?
음성 복제 기술은 책임감 있는 사용을 요구합니다. 누군가의 음성을 복제하기 전에 항상 적절한 동의를 얻었는지 확인하시고, 합성 미디어에 관한 플랫폼 정책을 숙지하시기 바랍니다.
미래 전망
Kling 2.6은 AI 영상이 향하는 방향을 보여줍니다: 영상, 오디오, 모션이 통합된 창의적 매체로 융합되는 통합 멀티모달 생성입니다. 문제는 이 기술이 표준이 될 것인지가 아니라, 경쟁사들이 이러한 기능을 얼마나 빨리 따라잡을 것인지입니다.
실험에 열린 크리에이터에게 지금이 탐구할 때입니다. 도구는 접근 가능하고, 가격은 합리적이며, 창의적 가능성은 진정으로 새롭습니다. 다만 기억하십시오: 위대한 생성 능력에는 위대한 책임이 따릅니다.
관련 읽을거리: 네이티브 오디오 생성이 업계를 어떻게 변화시키고 있는지 침묵의 시대가 끝나다에서 알아보시거나, Sora 2 vs Runway vs Veo 3 분석에서 주요 도구들을 비교해 보십시오.
Kling 2.6은 Kuaishou 플랫폼과 Fal.ai, Artlist, Media.io를 포함한 서드파티 제공업체를 통해 이용 가능합니다. API 접근은 생성된 영상 초당 약 $0.07부터 시작합니다.
이 글이 도움이 되었나요?

Henry
크리에이티브 기술자AI와 예술이 만나는 지점을 탐구하는 로잔 출신 크리에이티브 기술자입니다. 전자 음악 세션 사이사이 생성 모델을 실험합니다.
관련 글
관련 글을 더 살펴보세요

Pika 2.5: 속도, 가격, 창작 도구로 AI 비디오 대중화하기
Pika Labs가 버전 2.5를 출시하여 더 빠른 생성, 향상된 물리 엔진, Pikaframes 및 Pikaffects와 같은 창작 도구를 결합하여 AI 비디오를 모두가 접근할 수 있게 만들었습니다.

ByteDance Seedance 1.5 Pro: 오디오와 비디오를 함께 생성하는 모델
ByteDance가 네이티브 오디오-비주얼 생성, 영화급 카메라 제어, 다국어 립싱크 기능을 갖춘 Seedance 1.5 Pro를 출시했습니다. CapCut에서 무료로 사용할 수 있습니다.

Adobe와 Runway의 전략적 제휴: Gen-4.5가 Firefly에 가져오는 영상 제작의 새로운 시대
Adobe가 Runway의 Gen-4.5를 Firefly의 AI 영상 엔진으로 채택했습니다. 이 전략적 제휴를 통해 전 세계 전문가, 스튜디오, 브랜드의 크리에이티브 워크플로우가 혁신됩니다.