Kandinsky 5.0: ロシア発のオープンソースAI動画生成技術
Kandinsky 5.0は、Apache 2.0ライセンスのもと、コンシューマーGPUで10秒の動画生成を実現いたします。NABLA attentionとflow matchingがこれを可能にする技術をご紹介いたします。

オープンソース動画生成の転換点
ByteDanceが動画理解モデルをオープンソース化し、TencentがHunyuanVideoをリリースした際、変化の兆しが見られました。そして今回、Sberbankの支援を受けるKandinsky Labが、Apache 2.0ライセンスのもと、誰もが実行、修正、商用利用可能な完全なモデルファミリーをリリースいたしました。
これは研究プレビューや制限付きAPIではございません。完全な重み、トレーニングコード、推論パイプラインがGitHubとHugging Faceで公開されております。
モデルファミリー
拡散アーキテクチャの詳細につきましては、拡散トランスフォーマーに関する詳細解説をご参照ください。
Kandinsky 5.0は単一のモデルではなく、3つのモデルファミリーでございます。
Video Lite(20億パラメータ)
コンシューマーハードウェア向けの軽量オプションです。768×512解像度、24fpsで5〜10秒の動画を生成いたします。メモリオフロードにより12GBのVRAMで動作いたします。蒸留された16ステップバリアントは、H100で5秒のクリップを35〜60秒で生成いたします。
Video Pro(190億パラメータ)
最高品質を追求するフルモデルです。1280×768、24fpsのHD動画を出力いたします。データセンタークラスのGPUが必要ですが、クローズドソースの代替製品に匹敵する結果をもたらします。
60億パラメータのImage Liteモデルは、1280×768または1024×1024解像度での静止画生成に対応しております。
技術アーキテクチャ
Kandinsky 5.0における設計判断は、ベンチマーク競争よりも実用的な展開に重点を置くチームの姿勢を示しております。
基盤技術:拡散よりもFlow Matching
従来の拡散モデルは、ノイズを追加するプロセスを段階的に逆転させることを学習いたします。Flow Matchingは異なるアプローチを採用し、連続的なフローフィールドを通じてノイズから画像への直接的な経路を学習いたします。その利点は顕著でございます。
NABLA:長尺動画を実現する技術
真の革新はNABLA(Neighborhood Adaptive Block-Level Attention)にございます。標準的なトランスフォーマーのattentionは、シーケンス長に対して二次的にスケールいたします。動画においては、これは致命的でございます。24fpsでの10秒クリップには240フレームが含まれ、各フレームには数千の空間パッチがございます。それらすべてに対する完全なattentionは計算上不可能でございます。
NABLAは疎なattentionパターンを通じてこの課題に対処いたします。すべてのフレームのすべてのパッチにattentionを向けるのではなく、以下に計算を集中させます。
- 各フレーム内のローカル空間近傍
- 隣接フレーム間の時間的近傍
- 長距離の一貫性のための学習されたグローバルアンカー
その結果、動画の長さに対して二次的ではなく、ほぼ線形にスケールいたします。これにより、コンシューマーハードウェアでの10秒生成が実現可能となっております。
比較として、ほとんどの競合モデルは、専用ハードウェアなしでは5秒を超える動画の生成に苦労しております。
HunyuanVideoを基盤として
すべてをゼロからトレーニングするのではなく、Kandinsky 5.0はTencentのHunyuanVideoプロジェクトから3D VAEを採用しております。このエンコーダ・デコーダは、拡散プロセスが動作するコンパクトな潜在空間とピクセル空間の間の変換を処理いたします。
テキスト理解は、ビジョン言語モデルであるQwen2.5-VLと、セマンティックグラウンディングのためのCLIP埋め込みの組み合わせから得られます。このデュアルエンコーダアプローチにより、プロンプトによって示される文字通りの意味と視覚的スタイルの両方を理解することが可能となっております。
パフォーマンス:現在の立ち位置
チームは、Video Liteを同パラメータクラスのオープンソースモデルの中でトップパフォーマーと位置付けております。ベンチマークの結果は以下の通りでございます。
| モデル | パラメータ数 | 最大時間 | VRAM(5秒) |
|---|---|---|---|
| Kandinsky Video Lite | 20億 | 10秒 | 12GB |
| CogVideoX-2B | 20億 | 6秒 | 16GB |
| Open-Sora 1.2 | 11億 | 16秒 | 18GB |
12GBのVRAM要件により、コンシューマー向けRTX 3090および4090カードでの展開が可能となり、これは重要なアクセシビリティのマイルストーンでございます。
品質比較は数値化が困難でございます。ユーザーレポートによりますと、KandinskyはCogVideoXよりも一貫した動きを生成いたしますが、写実性においてはHunyuanVideoに及びません。16ステップの蒸留モデルは、速度のために細部を犠牲にしており、プロトタイピングには適しておりますが、最終的な制作ニーズを満たさない可能性がございます。
ローカルでのKandinsky実行
プロジェクトはComfyUIノードとスタンドアロンスクリプトを提供しております。基本的なテキストから動画へのワークフローは以下の通りでございます。
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # 12GBカード用
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 24fpsで5秒
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")メモリオフロードは、推論中にモデルの重みをCPUとGPU間で移動させます。これは速度をアクセシビリティのためにトレードオフし、より小さなカードでより大きなモデルを実行可能にいたします。
Sberbankとのつながり
Kandinsky Labは、ロシア最大の銀行であるSberbankの人工知能部門、Sber AIの傘下で運営されております。この支援が、プロジェクトの背後にある相当なリソースを説明しております。独自データでの多段階トレーニング、強化学習による後処理、そして完全な本番パイプラインをオープンソース化するためのエンジニアリング努力でございます。
地政学的な文脈は複雑さを加えます。西側の開発者は、ロシア発のモデルを避けるよう組織的な圧力に直面する可能性がございます。Apache 2.0ライセンスは法的には明確ですが、組織のポリシーは異なります。個人開発者や小規模スタジオにとって、計算は単純でございます。優れた技術は優れた技術でございます。
お客様の特定の管轄区域と使用事例について、ライセンスと輸出コンプライアンスを必ずご確認ください。
実用的な応用例
10秒の時間とコンシューマーハードウェア要件は、特定のユースケースを開きます。
ソーシャルコンテンツ
コンセプトビジュアライゼーション
カスタムトレーニング
研究
今後の展望
Kandinsky 5.0は、より広範なトレンドを表しております。オープンソースとクローズドソースの動画生成の間の差が縮まりつつあります。1年前、オープンモデルは明らかなアーティファクトを伴う短く低解像度のクリップを生成しておりました。今日、コンシューマーハードウェア上の20億パラメータモデルが、2023年には不可能に思えたであろう10秒のHD動画を生成しております。
競争は終わっておりません。Sora 2やRunway Gen-4.5などのクローズドソースリーダーは、品質、時間、制御性において依然としてリードしております。しかし、基準は上がりつつあります。多くのアプリケーションにとって、オープンソースは今や十分な品質となっております。
まとめ
Kandinsky 5.0は、すべてのベンチマークでトップになるわけではございませんが、最も重要な点で成功しております。実際の人々が所有するハードウェアで実際の動画生成を実行し、実際の商用利用を可能にするライセンスのもとで提供されております。AI動画の民主化という競争において、ロシアのチームはゴールラインを近づけたばかりでございます。
オープンソース動画生成を探求する開発者の皆様にとって、Kandinsky 5.0は候補リストに加える価値がございます。
この記事は役に立ちましたか?

Alexis
AIエンジニアローザンヌ出身のAIエンジニアで、研究の深さと実践的なイノベーションを組み合わせています。モデルアーキテクチャとアルプスの頂に時間を分けています。
関連記事
これらの関連投稿で探索を続けてください

オープンソースAI動画革命:消費者向けGPUは大手テクノロジー企業と競合できるか?
ByteDanceとTencentが、消費者向けハードウェアで動作するオープンソース動画モデルをリリースしました。これは独立系クリエイターにとって大きな転換点となります。

MiniMax Hailuo 02, 中国の予算AI動画モデルが大手企業に挑む
MiniMaxのHailuo 02は、競争力のある動画品質をわずかなコストで実現します。Veo 3の10分の1の価格で動画を生成できる、中国発の有力な候補をご紹介します。

AI動画における キャラクター一貫性の維持:モデルが顔を記憶する方法
アテンション機構からアイデンティティ保存埋め込みまで、ショット間でキャラクター・アイデンティティを維持するAI動画モデルのアーキテクチャ・イノベーションに関する技術的な深掘り解説です。