Meta Pixel
HenryHenry
11 min read
205 文字

Alibaba Wan2.6:参照動画生成があなたの顔をAI生成世界に配置

Alibabaの最新AIビデオモデルは、参照から動画への生成を導入し、AI作成コンテンツであなた自身の外見と声を使用できるようになりました。クリエイターにとってこれが何を意味するのかをご紹介します。

Alibaba Wan2.6:参照動画生成があなたの顔をAI生成世界に配置

汎用的なAIアバターは忘れてください。AlibabaがWan2.6をリリースしました。その目玉機能は、参照画像や音声クリップだけでAI生成動画に自分自身を挿入できることです。その影響は計り知れません。

参照革命

テキストから動画への生成は、AI動画生成の黎明期から標準的なパラダイムでした。プロンプトを入力すれば、動画が得られます。シンプルですが、限界がありました。大規模なファインチューニングやLoRAトレーニングなしでは、自分自身を動画に登場させることはできませんでした。

Wan2.6はこの方程式を根本から変えます。

💡

参照から動画への生成とは、AIがテキストプロンプトと一緒に、あなたの実際の外見、声、またはその両方を条件付け入力として使用することを意味します。あなたは生成の後付けではなく、生成されるコンテンツのキャラクターになります。

2025年12月16日にリリースされたWan2.6は、AlibabaのAI動画分野への積極的な参入を象徴しています。このモデルは複数のサイズ(13億パラメータと140億パラメータ)で提供され、競合他社との差別化となる3つのコア機能を導入しています。

Wan2.6の実際の機能

140億
パラメータ
720p
ネイティブ解像度
5-10秒
動画長

モデルは3つの異なるモードで動作します:

📝

テキストから動画

改善されたモーション品質と時間的一貫性を持つ標準的なプロンプトベースの生成。

🖼️

画像から動画

任意の静止画を一貫した動画シーケンスにアニメーション化。

👤

参照から動画

生成されるコンテンツ全体を通じて、あなたの外見を持続的なキャラクターとして使用。

参照から動画への機能が最も興味深い点です。自分自身(または任意の被写体)の鮮明な写真をアップロードすると、Wan2.6は生成されるシーケンス全体で持続するアイデンティティ特徴を抽出します。AIが周囲にまったく新しいシナリオを作成しても、あなたの顔はあなたの顔のままです。

技術的アプローチ

Wan2.6は、2025年の主要モデルで標準となったDiffusion Transformerアーキテクチャのバリアントを使用しています。しかし、Alibabaの実装には、私たちがキャラクター一貫性に関する詳細な分析で探求したものと同様の、特殊なアイデンティティ保持エンベディングが含まれています。

💡

参照条件付けは、生成プロセスの複数のレイヤーでアイデンティティ情報を注入するクロスアテンションメカニズムを通じて機能します。これにより、顔の特徴を安定させながら、他のすべてを自然に変化させることができます。

音声コンポーネントは、あなたの声の特性(音色、ピッチパターン、話すリズム)をキャプチャする別個のオーディオエンコーダーを使用します。視覚的参照と組み合わせることで、実際にあなたのように見え、聞こえる同期した音声映像出力が得られます。

このアプローチは、物理シミュレーションと環境の一貫性に焦点を当てたRunwayのワールドモデル戦略とは異なります。Wan2.6は環境の精度よりもアイデンティティの保持を優先しており、ターゲットユースケースに対して理にかなったトレードオフです。

オープンソースの重要性

Wan2.6の最も重要な側面は、おそらくAlibabaがオープンソースとしてリリースしたことでしょう。重みはダウンロード可能で、適切なハードウェアでローカル実行できることを意味します。

Wan2.6(オープン)

ローカル実行、APIコストなし、データの完全なコントロール

Sora 2 / Veo 3(クローズド)

APIのみ、生成ごとのコスト、データは第三者に送信

これは、オープンソースAI動画革命でカバーしたパターンの継続であり、中国企業がコンシューマーハードウェアで動作する強力なモデルをリリースしています。140億バージョンは大量のVRAM(24GB以上)を必要としますが、13億バリアントはRTX 4090に収まります。

実際に意味のあるユースケース

参照から動画への生成は、以前は不可能または法外に高価だったシナリオを可能にします。

  • 大規模なパーソナライズドマーケティングコンテンツ
  • スタジオセッションなしでのカスタムアバター作成
  • 動画コンセプトの迅速なプロトタイピング
  • アクセシビリティ:手話アバター、パーソナライズド教育

カメラの前に立つことなく、自分自身が主演する製品デモ動画を作成することを想像してください。または、CEOの参照条件付けバージョンがインストラクターを務めるトレーニングコンテンツを生成することを。アプリケーションは新規性をはるかに超えています。

プライバシーという大きな課題

明白な懸念に対処しましょう:この技術はディープフェイクに悪用される可能性があります。

Alibabaはいくつかのガードレールを実装しています。モデルにはGoogleのSynthIDアプローチと同様のウォーターマークが含まれており、利用規約では同意のない使用を禁止しています。しかし、これらはスピードバンプであり、障壁ではありません。

⚠️

参照から動画への技術は責任ある使用を必要とします。他人の外見を使用する前に必ず同意を得て、AI生成コンテンツについて透明性を保ってください。

魔人はすでに瓶から出ています。複数のモデルがアイデンティティ保持生成を提供するようになり、Wan2.6のオープンソースの性質は誰もがこの機能にアクセスできることを意味します。議論は「これは存在すべきか」から「どのように責任を持って扱うか」に移っています。

競合との比較

Wan2.6は競争の激しい市場に参入します。2025年12月の主要な競合との比較を以下に示します。

モデル参照から動画オープンソースネイティブオーディオ最大長
Wan2.610秒
Runway Gen-4.5限定的15秒
Sora 260秒
Veo 3120秒
LTX-210秒

Wan2.6は長さをアイデンティティ保持と交換しています。60秒のクリップが必要な場合、Sora 2が依然として最良の選択です。しかし、それらのクリップに特定の人物を一貫して登場させる必要がある場合、Wan2.6はクローズドモデルにはないものを提供します。

より大きな視点

参照から動画への生成は、AI動画生成についての考え方の転換を表しています。問題はもはや「この動画で何が起こるべきか」だけでなく、「誰がそこにいるべきか」です。

これはテキストから動画に欠けていたパーソナライゼーションレイヤーです。汎用的なAIアバターはストックフッテージのように感じられました。参照条件付けされたキャラクターはあなた自身のように感じられます。

ネイティブオーディオ生成と改善するキャラクター一貫性と組み合わせることで、私たちはウェブカメラの写真とテキストプロンプトだけでプロフェッショナルな動画コンテンツを作成できる未来に近づいています。

Alibabaはアイデンティティファーストの生成が次のフロンティアであると賭けています。Wan2.6がオープンソースとなり、コンシューマーハードウェアで動作するようになった今、彼らが正しいかどうかがまもなく明らかになります。

💡

さらに詳しく: 主要なAI動画モデルの比較については、Sora 2 vs Runway vs Veo 3の比較をご覧ください。基盤となるアーキテクチャを理解するには、2025年のDiffusion Transformersをチェックしてください。

この記事は役に立ちましたか?

Henry

Henry

クリエイティブ・テクノロジスト

ローザンヌ出身のクリエイティブ・テクノロジストで、AIとアートが交わる場所を探求しています。エレクトロニック・ミュージックのセッションの合間に生成モデルで実験しています。

関連記事

これらの関連投稿で探索を続けてください

この記事はお楽しみいただけましたか?

最新コンテンツで、さらに深いインサイトを発見してください。

Alibaba Wan2.6:参照動画生成があなたの顔をAI生成世界に配置