Kling O1: Kuaishou가 통합 멀티모달 비디오 경쟁에 합류
Kuaishou가 비디오, 오디오, 텍스트를 동시에 처리하는 통합 멀티모달 AI인 Kling O1을 출시했습니다. 시청각 인텔리전스 경쟁이 본격화되고 있습니다.

Runway가 비디오 아레나 승리를 축하하는 동안, Kuaishou는 조용히 중요한 발표를 진행했습니다. Kling O1은 단순한 비디오 모델이 아닙니다. 비디오, 오디오, 텍스트를 단일 인지 시스템으로 처리하는 새로운 세대의 통합 멀티모달 아키텍처를 대표합니다.
왜 이것이 다른가
저는 수년간 AI 비디오 분야를 취재해 왔습니다. 텍스트에서 비디오를 생성하는 모델, 나중에 오디오를 추가하는 모델, 기존 비디오에 오디오를 동기화하는 모델들을 보아왔습니다. 그러나 Kling O1은 근본적으로 새로운 것을 수행합니다. 모든 모달리티를 동시에 처리하는 것입니다.
통합 멀티모달이란 모델이 별도의 "비디오 이해"와 "오디오 생성" 모듈을 결합하지 않는다는 것을 의미합니다. 인간처럼 시청각 현실을 통합된 전체로 처리하는 하나의 아키텍처를 가지고 있습니다.
이 차이는 미묘하지만 매우 큽니다. 이전 모델들은 영화 제작팀처럼 작동했습니다. 비주얼을 위한 감독, 오디오를 위한 사운드 디자이너, 동기화를 위한 편집자. Ling O1은 세상을 경험하는 단일 뇌처럼 작동합니다.
기술적 도약
아키텍처 수준에서 Kling O1을 다르게 만드는 요소는 다음과 같습니다.
이전 접근 방식 (멀티모델)
- 텍스트 인코더가 프롬프트 처리
- 비디오 모델이 프레임 생성
- 오디오 모델이 사운드 생성
- 동기화 모델이 출력 정렬
- 결과가 분리된 느낌을 주는 경우가 많음
Kling O1 (통합형)
- 모든 모달리티를 위한 단일 인코더
- 오디오-비디오의 공동 잠재 공간
- 동시 생성
- 본질적인 동기화
- 결과가 자연스럽게 일관성 있음
실제 결과는 어떨까요? Kling O1이 창문에 내리는 비의 비디오를 생성할 때, 비의 비주얼을 생성한 다음 비의 소리가 어떤지 파악하지 않습니다. 창문에 내리는 비의 경험을 생성하며, 소리와 시각이 함께 나타납니다.
Kling Video 2.6: 소비자 버전
O1과 함께 Kuaishou는 동시 오디오-비주얼 생성 기능을 갖춘 Kling Video 2.6을 출시했습니다. 이것은 통합 접근 방식의 접근 가능한 버전입니다.
싱글 패스 생성
비디오와 오디오가 하나의 프로세스에서 생성됩니다. 사후 동기화도, 수동 정렬도 필요하지 않습니다. 프롬프트한 것이 완전한 형태로 제공됩니다.
전체 오디오 스펙트럼
대화, 내레이션, 효과음, 주변 분위기. 모두 네이티브로 생성되며, 모두 시각 콘텐츠에 동기화됩니다.
워크플로우 혁명
기존의 비디오 후 오디오 파이프라인이 사라집니다. 단일 프롬프트에서 완전한 시청각 콘텐츠를 생성합니다.
전문적인 제어
통합 생성에도 불구하고 요소에 대한 제어는 여전히 가능합니다. 프롬프팅을 통해 분위기, 속도, 스타일을 조정할 수 있습니다.
실제 의미
이것이 가능하게 하는 것을 설명해 드리겠습니다.
기존 워크플로우 (5시간 이상):
- 스크립트와 스토리보드 작성
- 비디오 클립 생성 (30분)
- 문제 클립 검토 및 재생성 (1시간)
- 오디오를 별도로 생성 (30분)
- 오디오 편집기 열기
- 오디오를 비디오에 수동으로 동기화 (2시간 이상)
- 동기화 문제 수정, 재렌더링 (1시간)
- 최종 버전 내보내기
Kling O1 워크플로우 (30분):
- 시청각 장면을 설명하는 프롬프트 작성
- 완전한 클립 생성
- 필요시 검토 및 반복
- 내보내기
이것은 점진적인 개선이 아닙니다. "AI 비디오 생성"의 의미에 있어서 분야의 전환입니다.
비교
AI 비디오 공간은 혼잡해졌습니다. Kling O1의 위치는 다음과 같습니다.
- 진정한 통합 멀티모달 아키텍처
- 네이티브 오디오-비주얼 생성
- 강력한 모션 이해
- 경쟁력 있는 시각적 품질
- 설계상 동기화 아티팩트 없음
- 새로운 모델로 여전히 성숙 중
- Runway보다 에코시스템 도구가 적음
- 주로 중국어로 된 문서
- API 접근이 전 세계적으로 확대 중
현재 환경과 비교하면 다음과 같습니다.
| 모델 | 시각적 품질 | 오디오 | 통합 아키텍처 | 액세스 |
|---|---|---|---|---|
| Runway Gen-4.5 | 아레나 1위 | 사후 추가 | 아니요 | 글로벌 |
| Sora 2 | 강력함 | 네이티브 | 예 | 제한적 |
| Veo 3 | 강력함 | 네이티브 | 예 | API |
| Kling O1 | 강력함 | 네이티브 | 예 | 확대 중 |
환경이 변화했습니다. 통합 오디오-비주얼 아키텍처가 최고급 모델의 표준이 되고 있습니다. Runway는 별도의 오디오 워크플로우를 가진 예외로 남아 있습니다.
중국의 AI 비디오 추진
Kuaishou의 Kling은 더 광범위한 패턴의 일부입니다. 중국 기술 회사들이 놀라운 속도로 인상적인 비디오 모델을 출시하고 있습니다.
지난 2주 동안만 다음과 같은 발표가 있었습니다.
- ByteDance Vidi2: 120억 파라미터 오픈소스 모델
- Tencent HunyuanVideo-1.5: 소비자 GPU 친화적 (14GB VRAM)
- Kuaishou Kling O1: 최초의 통합 멀티모달
- Kuaishou Kling 2.6: 프로덕션 준비된 오디오-비주얼
이 오픈소스 추진에 대한 자세한 내용은 오픈소스 AI 비디오 혁명을 참조하시기 바랍니다.
이것은 우연이 아닙니다. 이들 회사는 칩 수출 제한과 미국 클라우드 서비스 제한에 직면해 있습니다. 그들의 대응은 무엇일까요? 다르게 구축하고, 공개적으로 출시하며, 원시 컴퓨팅이 아닌 아키텍처 혁신에서 경쟁하는 것입니다.
크리에이터에게 의미하는 것
비디오 콘텐츠를 제작하시는 분들을 위한 최신 생각입니다.
- ✓빠른 소셜 콘텐츠: Kling 2.6의 통합 생성이 완벽합니다
- ✓최고의 시각적 품질: Runway Gen-4.5가 여전히 선도하고 있습니다
- ✓오디오 중심 프로젝트: Kling O1 또는 Sora 2를 추천합니다
- ✓로컬/프라이빗 생성: 오픈소스 (HunyuanVideo, Vidi2)가 적합합니다
"올바른 도구"에 대한 답이 더 복잡해졌습니다. 그러나 이것은 좋은 일입니다. 경쟁은 선택을 의미하고, 선택은 타협하기보다는 작업에 도구를 맞출 수 있다는 것을 의미합니다.
큰 그림
우리는 "AI 비디오 생성"에서 "AI 시청각 경험 생성"으로의 전환을 목격하고 있습니다. Kling O1은 시작점에서 반복하는 것이 아니라 목적지를 위해 구축된 모델로서 Sora 2와 Veo 3와 함께합니다.
제가 계속 돌아가는 비유가 있습니다. 초기 스마트폰은 앱이 추가된 전화였습니다. iPhone은 전화를 걸 수 있는 컴퓨터였습니다. 서류상으로는 동일한 기능이지만, 근본적으로 다른 접근 방식입니다.
Kling O1은 Sora 2와 Veo 3처럼 처음부터 시청각 시스템으로 구축되었습니다. 이전 모델들은 오디오가 덧붙여진 비디오 시스템이었습니다. 통합 접근 방식은 소리와 시각을 단일 현실의 불가분한 측면으로 취급합니다.
직접 시도해 보세요
Kling은 웹 플랫폼을 통해 접근 가능하며, API 액세스가 확대되고 있습니다. 통합 멀티모달 생성이 어떤 느낌인지 경험하고 싶으시다면 다음을 시도해 보시기 바랍니다.
- 간단한 것부터 시작하세요. 튀는 공, 창문에 내리는 비 등
- 소리가 시각에 속해 있는 방식에 주목하세요
- 복잡한 것을 시도해 보세요. 대화, 분주한 거리 장면 등
- 사후 동기화된 오디오와의 차이를 느껴보세요
이 기술은 아직 초기 단계입니다. 일부 프롬프트는 기대에 미치지 못할 것입니다. 그러나 작동할 때, 변화를 느끼실 수 있을 것입니다. 이것은 비디오 플러스 오디오가 아닙니다. 경험 생성입니다.
다음에 올 것
그 의미는 비디오 제작을 넘어 확장됩니다.
단기 (2026년):
- 더 긴 통합 생성
- 실시간 인터랙티브 AV
- 세밀한 제어 확장
- 통합 아키텍처를 채택하는 더 많은 모델
중기 (2027년 이후):
- 완전한 장면 이해
- 인터랙티브 AV 경험
- 가상 프로덕션 도구
- 완전히 새로운 크리에이티브 매체
경험을 상상하는 것과 창조하는 것 사이의 격차는 계속 줄어들고 있습니다. Kling O1은 최종 답이 아니지만, 방향에 대한 명확한 신호입니다. 통합적이고, 전체적이며, 경험적입니다.
2025년 12월은 AI 비디오에 있어 중요한 달이 되고 있습니다. Runway의 아레나 승리, ByteDance와 Tencent의 오픈소스 폭발, 그리고 Kling의 통합 멀티모달 공간 진입. 도구들은 누구도 예측한 것보다 빠르게 진화하고 있습니다.
AI 비디오로 구축하고 계신다면, Kling에 주목하시기 바랍니다. 오늘날 모든 면에서 최고이기 때문이 아니라, 모든 것이 내일 향하는 곳을 대표하기 때문입니다.
AI 비디오의 미래는 더 나은 비디오 플러스 더 나은 오디오가 아닙니다. 통합된 시청각 인텔리전스입니다. 그리고 그 미래가 방금 도착했습니다.
출처
- Kling O1 Launch Announcement (Yahoo Finance)
- Kling Video 2.6 with Audio-Visual Generation (PR Newswire)
- Kling O1 Unified Multimodal Model (PR Newswire)
- China Kuaishou Kling O1 Analysis (eWeek)
이 글이 도움이 되었나요?

Henry
크리에이티브 기술자AI와 예술이 만나는 지점을 탐구하는 로잔 출신 크리에이티브 기술자입니다. 전자 음악 세션 사이사이 생성 모델을 실험합니다.
관련 글
관련 글을 더 살펴보세요

AI 비디오의 캐릭터 일관성: 모델이 얼굴을 기억하는 법
AI 비디오 모델이 샷 간에 캐릭터 정체성을 유지할 수 있게 해주는 아키텍처 혁신에 대한 기술적 분석. 주의 메커니즘부터 정체성 보존 임베딩까지

오픈소스 AI 비디오 혁명: 소비자용 GPU가 기술 대기업과 경쟁할 수 있을까요?
ByteDance와 Tencent가 소비자용 하드웨어에서 실행되는 오픈소스 비디오 모델을 출시했습니다. 이는 독립 크리에이터들에게 큰 전환점이 됩니다.

Snapchat Animate It: AI 비디오 생성이 소셜 미디어에 도착하다
Snapchat이 주요 소셜 플랫폼 최초로 자유 프롬프트 AI 비디오 생성 도구 Animate It을 출시했습니다. 4억 명의 일일 사용자를 보유한 환경에서, AI 비디오는 더 이상 크리에이터만의 도구가 아닙니다.