ByteDance Seedance 1.5 Pro: オーディオとビデオを同時生成するモデル
ByteDanceがネイティブなオーディオ・ビデオ生成、映画グレードのカメラコントロール、多言語リップシンクを備えたSeedance 1.5 Proをリリース。CapCutで無料利用可能。

無音AIビデオの終焉
長年にわたり、AIビデオ生成とは美しい無声映画を制作することを意味していました。完璧なプロンプトを作成し、生成を待ち、その後マッチするオーディオを見つけるか作成するのに苦労していました。Seedance 1.5 Proはその方程式を完全に変えます。
Seedance 1.5 Proは2025年12月16日にリリースされ、CapCut Desktopで毎日の無料トライアルとして利用可能です。
このモデルは、ByteDanceが「統合オーディオ・ビデオ共同生成フレームワーク」と呼ぶものを使用し、MMDiTアーキテクチャ上に構築されています。オーディオを後付けとして扱う代わりに、最初から両方のモダリティを一緒に処理します。その結果、実際に対話と一致する唇の動き、画面上のアクションと同期する効果音、シーンに適合する環境音が得られます。
何が異なるのか
ネイティブな多言語サポート
ここがSeedance 1.5 Proがグローバルなクリエイターにとって興味深いポイントです。このモデルは、英語、日本語、韓国語、スペイン語、インドネシア語、ポルトガル語、北京語、広東語をネイティブに処理します。地域の中国語方言を含む各言語の独特な音韻リズムをキャプチャします。
映画グレードのカメラコントロール
ByteDanceはこのリリースに本格的な撮影技術ツールを搭載しました。このモデルは以下を実行します。
- 被写体ロック付きのトラッキングショット
- ドリーズーム(ヒッチコック効果)
- スムーズな遷移を持つマルチアングル構成
- シーンコンテンツに基づく自律的なカメラ適応
プロンプトでカメラの動きを指定でき、モデルは驚くほど正確にそれを解釈します。「キャラクターが話している間、顔にゆっくりドリーイン」と指示すれば、それを実現します。
Sora 2およびVeo 3との比較
明らかな質問です。これはOpenAIとGoogleに対してどのように位置付けられるのでしょうか。
| 機能 | Seedance 1.5 Pro | Sora 2 | Veo 3 |
|---|---|---|---|
| ネイティブオーディオ | はい | はい | はい |
| 最大継続時間 | 12秒 | 20秒 | 8秒 |
| 多言語リップシンク | 8言語以上 | 英語重視 | 限定的 |
| 無料アクセス | CapCut Desktop | ChatGPT Plus(月20ドル) | 限定トライアル |
Seedance 1.5 Proは、バランスが取れたアクセスしやすいオプションとして位置付けられています。ByteDanceは制御可能なオーディオ出力とプロフェッショナルグレードのリップシンクを強調し、一方Sora 2は表現力豊かで映画的な出力に傾いています。どちらのアプローチも、クリエイティブな目標によって適した場所があります。
広告や製品ビデオなどの商業作品には、Soraのドラマチックな演出よりもSeedanceの制御可能なオーディオの方が実用的かもしれません。
技術アーキテクチャ
内部では、Seedance 1.5 ProはByteDanceのMMDiT(Multimodal Diffusion Transformer)アーキテクチャ上で動作しています。主要なイノベーションには以下が含まれます。
クロスモーダル相互作用
出力段階だけでなく、生成中にオーディオとビデオのブランチ間で深い情報交換を行います。
時間的整列
ミリ秒精度での音素から唇へ、オーディオから動きへの同期。
推論最適化
マルチタスク共同トレーニングにより、以前のSeedanceバージョンと比較してエンドツーエンドで10倍の高速化。
このモデルはテキストプロンプトと画像入力の両方を受け入れます。キャラクターの参照写真をアップロードし、対話を含むマルチショットシーケンスをリクエストでき、適切なオーディオを生成しながらアイデンティティを維持します。
試用方法
無料アクセスオプション:
- CapCut Desktop: Seedance 1.5 ProはCapCut統合でリリースされ、毎日の無料トライアルを提供しています
- Jimeng AI: ByteDanceのクリエイティブプラットフォーム(中国語インターフェース)
- Doubaoアプリ: ByteDanceのアシスタントアプリを通じたモバイルアクセス
CapCut統合は、英語圏のクリエイターにとって最もアクセスしやすいものです。ByteDanceはリリース時に2,000クレジットを提供するプロモーションキャンペーンを実施しました。
知っておくべき制限事項
現在のワークフローを放棄する前に、いくつかの注意点がございます。
- ○複雑な物理シナリオはまだアーティファクトを生成します
- ○マルチキャラクターの交互対話には改善が必要です
- ○複数のクリップにわたるキャラクターの一貫性は不完全です
- ✓単一キャラクターのナレーションと対話は良好に機能します
- ✓環境音と環境オーディオは優れています
12秒の制限は、1回の生成で長尺コンテンツを作成していないことも意味します。より長いプロジェクトの場合、クリップを繋ぎ合わせる必要があり、これが一貫性の課題をもたらします。
クリエイターにとっての意味
Seedance 1.5 Proは、Sora 2とVeo 3が開いたネイティブオーディオ・ビデオ生成空間へのByteDanceの本格的な進出を表しています。無料のCapCutアクセスは戦略的であり、この技術を何百万もの短編ビデオクリエイターの手に直接届けます。
Seedance 1.5 Proリリース
ByteDanceがJimeng AI、Doubao、CapCutで統合オーディオ・ビデオモデルをリリース。
Doubao 50兆トークン
ByteDanceがDoubaoが1日あたり50兆トークンの使用量に達し、中国で1位になったことを発表。
これがどこに適合するかの競争環境分析については、Sora 2 vs Runway vs Veo 3の比較をご覧ください。これらのモデルを支える拡散トランスフォーマーアーキテクチャを理解したい場合は、技術的な基礎をカバーしております。
統合オーディオビジュアルAIの競争が激化しています。ByteDanceは、TikTokの配信とCapCutのクリエイティブツールにより、Seedance 1.5 Proをプレミアム価格なしでネイティブオーディオを求めるクリエイター向けのアクセスしやすいオプションとして位置付けています。
関連記事: AIオーディオ機能の詳細については、MireloのAI効果音へのアプローチとVeo 3.1でのGoogleのオーディオ統合をご覧ください。
この記事は役に立ちましたか?

Henry
クリエイティブ・テクノロジストローザンヌ出身のクリエイティブ・テクノロジストで、AIとアートが交わる場所を探求しています。エレクトロニック・ミュージックのセッションの合間に生成モデルで実験しています。
関連記事
これらの関連投稿で探索を続けてください

ByteDance Vidi2:編集者のように動画を理解するAI
ByteDanceは、動画コンテンツを十分に理解し、数時間の映像を自動的に洗練されたクリップに編集できる120億パラメータのモデルであるVidi2をオープンソース化しました。すでにTikTok Smart Splitを支えています。

サイレント時代の終焉:ネイティブオーディオ生成がAI動画を永遠に変える
AI動画生成がサイレント映画からトーキーへと進化しました。ネイティブなオーディオ・ビデオ合成が、同期された対話、環境音、効果音をビジュアルと共に生成し、クリエイティブワークフローをどのように再構築しているかを探ります。

Pika 2.5:スピード、価格、クリエイティブツールによるAI動画の民主化
Pika Labsがバージョン2.5をリリースし、高速生成、強化された物理演算、PikaframesやPikaffectsなどのクリエイティブツールを組み合わせ、AI動画を誰もがアクセス可能なものにしました。