Kling O1: Kuaishouが統合マルチモーダル動画競争に参入
Kuaishouは、動画、音声、テキストを同時に処理する統合マルチモーダルAI「Kling O1」を発表いたしました。視聴覚インテリジェンスの競争が本格化しております。

Runwayが動画アリーナでの勝利を祝っている間、Kuaishouは静かに重要な発表を行いました。Kling O1は単なる動画モデルではございません。動画、音声、テキストを単一の認知システムとして処理する新世代の統合マルチモーダルアーキテクチャを代表するものでございます。
なぜこれが異なるのか
筆者はAI動画分野を長年にわたり取材してまいりました。テキストから動画を生成するモデル、後から音声を追加するモデル、既存の動画に音声を同期させるモデルなどを見てまいりました。しかし、Kling O1は根本的に新しいことを実現しております。すべてのモダリティを同時に処理するのでございます。
統合マルチモーダルとは、モデルが個別の「動画理解」モジュールと「音声生成」モジュールを組み合わせているのではないということを意味いたします。人間と同じように、視聴覚現実を統合された全体として処理する単一のアーキテクチャを持っているのでございます。
この違いは微妙ではございますが、非常に大きな意味を持ちます。従来のモデルは映画制作チームのように機能しておりました。ビジュアルの監督、音声のサウンドデザイナー、同期のエディター。Kling O1は世界を体験する単一の脳のように機能いたします。
技術的な進歩
アーキテクチャレベルでKling O1が異なる点は以下の通りでございます。
従来のアプローチ(マルチモデル)
- テキストエンコーダーがプロンプトを処理
- 動画モデルがフレームを生成
- 音声モデルが音を生成
- 同期モデルが出力を整列
- 結果は分離した感じになりがち
Kling O1(統合型)
- すべてのモダリティ用の単一エンコーダー
- 音声と動画の共同潜在空間
- 同時生成
- 本質的な同期
- 結果は自然に一貫性を持つ
実用的な結果はどうでしょうか。Kling O1が窓に降る雨の動画を生成する際、雨のビジュアルを生成してから雨の音を考えるのではございません。窓に降る雨の「体験」を生成し、音と視覚が一緒に生まれるのでございます。
Kling Video 2.6: コンシューマー版
O1と並行して、Kuaishouは同時音声・視覚生成機能を搭載したKling Video 2.6をリリースいたしました。これは統合アプローチのアクセスしやすいバージョンでございます。
シングルパス生成
動画と音声が一つのプロセスで生成されます。事後同期も手動調整も必要ございません。プロンプトしたものが完全な形で得られます。
フルオーディオスペクトラム
対話、ナレーション、効果音、環境音。すべてネイティブに生成され、すべて視覚コンテンツに同期されております。
ワークフロー革命
従来の動画作成後に音声を追加するパイプラインが不要になります。単一のプロンプトから完全な視聴覚コンテンツを生成できます。
プロフェッショナルコントロール
統合生成にもかかわらず、要素のコントロールは可能でございます。プロンプトを通じてムード、ペース、スタイルを調整できます。
実際の影響
これが可能にすることをご説明させていただきます。
従来のワークフロー(5時間以上):
- スクリプトとストーリーボードを作成
- 動画クリップを生成(30分)
- 問題のあるクリップを確認して再生成(1時間)
- 音声を別途生成(30分)
- オーディオエディターを開く
- 音声を動画に手動で同期(2時間以上)
- 同期の問題を修正、再レンダリング(1時間)
- 最終版をエクスポート
Kling O1ワークフロー(30分):
- 視聴覚シーンを説明するプロンプトを作成
- 完全なクリップを生成
- 必要に応じて確認と反復
- エクスポート
これは段階的な改善ではございません。「AI動画生成」の意味における分野の転換でございます。
他との比較
AI動画分野は混雑してまいりました。Kling O1の位置づけは以下の通りでございます。
- 真の統合マルチモーダルアーキテクチャ
- ネイティブな音声・視覚生成
- 優れたモーション理解
- 競争力のある視覚品質
- 設計上、同期のアーティファクトなし
- 新しいモデルのため、成熟中
- Runwayほどエコシステムツールが少ない
- ドキュメントが主に中国語
- APIアクセスはグローバル展開中
現在の状況と比較すると以下の通りでございます。
| モデル | 視覚品質 | 音声 | 統合アーキテクチャ | アクセス |
|---|---|---|---|---|
| Runway Gen-4.5 | アリーナ1位 | 後付け | なし | グローバル |
| Sora 2 | 優れている | ネイティブ | あり | 限定的 |
| Veo 3 | 優れている | ネイティブ | あり | API |
| Kling O1 | 優れている | ネイティブ | あり | 展開中 |
状況は変化しております。統合音声・視覚アーキテクチャがトップティアモデルの標準になりつつございます。Runwayは個別の音声ワークフローを持つ例外として残っております。
中国のAI動画推進
KuaishouのKlingは、より広範なパターンの一部でございます。中国のテクノロジー企業は、驚くべきペースで印象的な動画モデルを提供しております。
過去2週間だけで以下のような発表がございました。
- ByteDance Vidi2: 120億パラメータのオープンソースモデル
- Tencent HunyuanVideo-1.5: コンシューマーGPU対応(14GB VRAM)
- Kuaishou Kling O1: 初の統合マルチモーダル
- Kuaishou Kling 2.6: プロダクション対応の視聴覚モデル
このオープンソース側の推進について詳しくは、オープンソースAI動画革命をご覧くださいませ。
これは偶然ではございません。これらの企業はチップ輸出規制と米国クラウドサービスの制限に直面しております。彼らの対応はどうでしょうか。異なる構築方法、オープンなリリース、生のコンピューティングパワーではなくアーキテクチャのイノベーションでの競争でございます。
クリエイターにとっての意味
動画コンテンツを制作されている方々への最新の考察でございます。
- ✓迅速なソーシャルコンテンツ: Kling 2.6の統合生成が最適でございます
- ✓最高の視覚品質: Runway Gen-4.5がリードしております
- ✓音声中心のプロジェクト: Kling O1またはSora 2をお勧めいたします
- ✓ローカル/プライベート生成: オープンソース(HunyuanVideo、Vidi2)が適しております
「適切なツール」の答えはより複雑になりました。しかし、これは良いことでございます。競争は選択肢を意味し、選択肢は妥協ではなくタスクに合わせてツールを選択できることを意味いたします。
より大きな視点
私たちは「AI動画生成」から「AI視聴覚体験生成」への移行を目撃しております。Kling O1は、出発点から反復するのではなく、目的地のために構築されたモデルとして、Sora 2やVeo 3と並んでおります。
筆者が常に立ち返る例えがございます。初期のスマートフォンは、アプリを追加した電話でございました。iPhoneは電話をかけられるコンピューターでございました。書類上の機能は同じでも、根本的に異なるアプローチでございます。
Kling O1は、Sora 2やVeo 3と同様に、視聴覚システムとして一から構築されております。以前のモデルは、音声を後付けした動画システムでございました。統合アプローチは、音と視覚を単一の現実の不可分な側面として扱います。
自分で試してみましょう
Klingはウェブプラットフォームを通じてアクセス可能で、APIアクセスは拡大中でございます。統合マルチモーダル生成がどのようなものか体験されたい場合は以下をお試しくださいませ。
- シンプルなものから始めましょう。バウンスするボール、窓に降る雨など
- 音がビジュアルに「属している」ことに注目してください
- 複雑なものを試してみましょう。会話、賑やかな街の風景など
- 事後同期された音声との違いを感じてください
この技術はまだ若いです。期待外れのプロンプトもあるでしょう。しかし、うまくいくとき、変化を感じていただけるでしょう。これは動画プラス音声ではございません。体験生成でございます。
次に来るもの
その影響は動画制作を超えて広がります。
短期(2026年):
- より長い統合生成
- リアルタイムインタラクティブAV
- きめ細かな制御の拡張
- 統合アーキテクチャを採用するモデルの増加
中期(2027年以降):
- 完全なシーン理解
- インタラクティブAV体験
- バーチャルプロダクションツール
- 全く新しいクリエイティブメディア
体験を想像することと創造することの間のギャップは縮小し続けております。Kling O1は最終的な答えではございませんが、方向性の明確なシグナルでございます。統合的、全体的、体験的でございます。
2025年12月は、AI動画にとって極めて重要な月になりつつございます。Runwayのアリーナ勝利、ByteDanceとTencentからのオープンソース爆発、そしてKlingの統合マルチモーダル領域への参入。ツールは誰もが予測したよりも速く進化しております。
AI動画で構築されている方々は、Klingに注目されることをお勧めいたします。今日すべてにおいて最高だからではなく、すべてが明日向かう場所を代表しているからでございます。
AI動画の未来は、より良い動画プラスより良い音声ではございません。統合された視聴覚インテリジェンスでございます。そして、その未来がちょうど到着いたしました。
出典
- Kling O1 Launch Announcement (Yahoo Finance)
- Kling Video 2.6 with Audio-Visual Generation (PR Newswire)
- Kling O1 Unified Multimodal Model (PR Newswire)
- China Kuaishou Kling O1 Analysis (eWeek)
この記事は役に立ちましたか?

Henry
クリエイティブ・テクノロジストローザンヌ出身のクリエイティブ・テクノロジストで、AIとアートが交わる場所を探求しています。エレクトロニック・ミュージックのセッションの合間に生成モデルで実験しています。
関連記事
これらの関連投稿で探索を続けてください

MiniMax Hailuo 02, 中国の予算AI動画モデルが大手企業に挑む
MiniMaxのHailuo 02は、競争力のある動画品質をわずかなコストで実現します。Veo 3の10分の1の価格で動画を生成できる、中国発の有力な候補をご紹介します。

AI動画における キャラクター一貫性の維持:モデルが顔を記憶する方法
アテンション機構からアイデンティティ保存埋め込みまで、ショット間でキャラクター・アイデンティティを維持するAI動画モデルのアーキテクチャ・イノベーションに関する技術的な深掘り解説です。

オープンソースAI動画革命:消費者向けGPUは大手テクノロジー企業と競合できるか?
ByteDanceとTencentが、消費者向けハードウェアで動作するオープンソース動画モデルをリリースしました。これは独立系クリエイターにとって大きな転換点となります。