Meta Pixel
AlexisAlexis
12 min read
226 文字

Kandinsky 5.0: ロシア発のオープンソースAI動画生成技術

Kandinsky 5.0は、Apache 2.0ライセンスのもと、コンシューマーGPUで10秒の動画生成を実現いたします。NABLA attentionとflow matchingがこれを可能にする技術をご紹介いたします。

Kandinsky 5.0: ロシア発のオープンソースAI動画生成技術
AI技術革新の地理的分布が変化し続けております。アメリカの研究機関がより大規模なモデルを追求し、中国企業がオープンソースのリーダーボードを席巻する中、ロシアのチームが最もアクセスしやすいAI動画生成システムを静かにリリースいたしました。それがKandinsky 5.0でございます。

オープンソース動画生成の転換点

ByteDanceが動画理解モデルをオープンソース化し、TencentがHunyuanVideoをリリースした際、変化の兆しが見られました。そして今回、Sberbankの支援を受けるKandinsky Labが、Apache 2.0ライセンスのもと、誰もが実行、修正、商用利用可能な完全なモデルファミリーをリリースいたしました。

10秒
動画時間
12GB
最小VRAM
Apache 2.0
ライセンス

これは研究プレビューや制限付きAPIではございません。完全な重み、トレーニングコード、推論パイプラインがGitHubとHugging Faceで公開されております。

モデルファミリー

💡

拡散アーキテクチャの詳細につきましては、拡散トランスフォーマーに関する詳細解説をご参照ください。

Kandinsky 5.0は単一のモデルではなく、3つのモデルファミリーでございます。

Video Lite(20億パラメータ)

コンシューマーハードウェア向けの軽量オプションです。768×512解像度、24fpsで5〜10秒の動画を生成いたします。メモリオフロードにより12GBのVRAMで動作いたします。蒸留された16ステップバリアントは、H100で5秒のクリップを35〜60秒で生成いたします。

Video Pro(190億パラメータ)

最高品質を追求するフルモデルです。1280×768、24fpsのHD動画を出力いたします。データセンタークラスのGPUが必要ですが、クローズドソースの代替製品に匹敵する結果をもたらします。

60億パラメータのImage Liteモデルは、1280×768または1024×1024解像度での静止画生成に対応しております。

技術アーキテクチャ

Kandinsky 5.0における設計判断は、ベンチマーク競争よりも実用的な展開に重点を置くチームの姿勢を示しております。

基盤技術:拡散よりもFlow Matching

従来の拡散モデルは、ノイズを追加するプロセスを段階的に逆転させることを学習いたします。Flow Matchingは異なるアプローチを採用し、連続的なフローフィールドを通じてノイズから画像への直接的な経路を学習いたします。その利点は顕著でございます。

Flow Matchingの利点
優れた学習安定性、高速な収束、そして推論時のより予測可能な生成品質を実現いたします。
トレードオフ
慎重な経路設計が必要です。チームは、ノイズと目標分布間の距離を最小化する最適輸送経路を使用しております。

NABLA:長尺動画を実現する技術

真の革新はNABLA(Neighborhood Adaptive Block-Level Attention)にございます。標準的なトランスフォーマーのattentionは、シーケンス長に対して二次的にスケールいたします。動画においては、これは致命的でございます。24fpsでの10秒クリップには240フレームが含まれ、各フレームには数千の空間パッチがございます。それらすべてに対する完全なattentionは計算上不可能でございます。

NABLAは疎なattentionパターンを通じてこの課題に対処いたします。すべてのフレームのすべてのパッチにattentionを向けるのではなく、以下に計算を集中させます。

  1. 各フレーム内のローカル空間近傍
  2. 隣接フレーム間の時間的近傍
  3. 長距離の一貫性のための学習されたグローバルアンカー

その結果、動画の長さに対して二次的ではなく、ほぼ線形にスケールいたします。これにより、コンシューマーハードウェアでの10秒生成が実現可能となっております。

💡

比較として、ほとんどの競合モデルは、専用ハードウェアなしでは5秒を超える動画の生成に苦労しております。

HunyuanVideoを基盤として

すべてをゼロからトレーニングするのではなく、Kandinsky 5.0はTencentのHunyuanVideoプロジェクトから3D VAEを採用しております。このエンコーダ・デコーダは、拡散プロセスが動作するコンパクトな潜在空間とピクセル空間の間の変換を処理いたします。

テキスト理解は、ビジョン言語モデルであるQwen2.5-VLと、セマンティックグラウンディングのためのCLIP埋め込みの組み合わせから得られます。このデュアルエンコーダアプローチにより、プロンプトによって示される文字通りの意味と視覚的スタイルの両方を理解することが可能となっております。

パフォーマンス:現在の立ち位置

チームは、Video Liteを同パラメータクラスのオープンソースモデルの中でトップパフォーマーと位置付けております。ベンチマークの結果は以下の通りでございます。

モデルパラメータ数最大時間VRAM(5秒)
Kandinsky Video Lite20億10秒12GB
CogVideoX-2B20億6秒16GB
Open-Sora 1.211億16秒18GB

12GBのVRAM要件により、コンシューマー向けRTX 3090および4090カードでの展開が可能となり、これは重要なアクセシビリティのマイルストーンでございます。

品質比較は数値化が困難でございます。ユーザーレポートによりますと、KandinskyはCogVideoXよりも一貫した動きを生成いたしますが、写実性においてはHunyuanVideoに及びません。16ステップの蒸留モデルは、速度のために細部を犠牲にしており、プロトタイピングには適しておりますが、最終的な制作ニーズを満たさない可能性がございます。

ローカルでのKandinsky実行

プロジェクトはComfyUIノードとスタンドアロンスクリプトを提供しております。基本的なテキストから動画へのワークフローは以下の通りでございます。

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GBカード用
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 24fpsで5秒
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

メモリオフロードは、推論中にモデルの重みをCPUとGPU間で移動させます。これは速度をアクセシビリティのためにトレードオフし、より小さなカードでより大きなモデルを実行可能にいたします。

Sberbankとのつながり

Kandinsky Labは、ロシア最大の銀行であるSberbankの人工知能部門、Sber AIの傘下で運営されております。この支援が、プロジェクトの背後にある相当なリソースを説明しております。独自データでの多段階トレーニング、強化学習による後処理、そして完全な本番パイプラインをオープンソース化するためのエンジニアリング努力でございます。

地政学的な文脈は複雑さを加えます。西側の開発者は、ロシア発のモデルを避けるよう組織的な圧力に直面する可能性がございます。Apache 2.0ライセンスは法的には明確ですが、組織のポリシーは異なります。個人開発者や小規模スタジオにとって、計算は単純でございます。優れた技術は優れた技術でございます。

⚠️

お客様の特定の管轄区域と使用事例について、ライセンスと輸出コンプライアンスを必ずご確認ください。

実用的な応用例

10秒の時間とコンシューマーハードウェア要件は、特定のユースケースを開きます。

🎬

ソーシャルコンテンツ

TikTok、Reels、Shorts向けの短編動画。APIコストなしで迅速な反復が可能です。
🎨

コンセプトビジュアライゼーション

監督やプロデューサーが、高額な制作前にシーンをプロトタイプできます。
🔧

カスタムトレーニング

Apache 2.0ライセンスにより、独自データセットでのファインチューニングが可能です。お客様のドメイン向けに特化したモデルを構築できます。
📚

研究

重みとアーキテクチャへの完全なアクセスにより、動画生成技術の学術的研究が可能となります。

今後の展望

Kandinsky 5.0は、より広範なトレンドを表しております。オープンソースとクローズドソースの動画生成の間の差が縮まりつつあります。1年前、オープンモデルは明らかなアーティファクトを伴う短く低解像度のクリップを生成しておりました。今日、コンシューマーハードウェア上の20億パラメータモデルが、2023年には不可能に思えたであろう10秒のHD動画を生成しております。

競争は終わっておりません。Sora 2Runway Gen-4.5などのクローズドソースリーダーは、品質、時間、制御性において依然としてリードしております。しかし、基準は上がりつつあります。多くのアプリケーションにとって、オープンソースは今や十分な品質となっております。

まとめ

Kandinsky 5.0は、すべてのベンチマークでトップになるわけではございませんが、最も重要な点で成功しております。実際の人々が所有するハードウェアで実際の動画生成を実行し、実際の商用利用を可能にするライセンスのもとで提供されております。AI動画の民主化という競争において、ロシアのチームはゴールラインを近づけたばかりでございます。

オープンソース動画生成を探求する開発者の皆様にとって、Kandinsky 5.0は候補リストに加える価値がございます。

この記事は役に立ちましたか?

Alexis

Alexis

AIエンジニア

ローザンヌ出身のAIエンジニアで、研究の深さと実践的なイノベーションを組み合わせています。モデルアーキテクチャとアルプスの頂に時間を分けています。

関連記事

これらの関連投稿で探索を続けてください

この記事はお楽しみいただけましたか?

最新コンテンツで、さらに深いインサイトを発見してください。

Kandinsky 5.0: ロシア発のオープンソースAI動画生成技術