Diffusion Transformers:2025年に動画生成を革命化するアーキテクチャ
拡散モデルとTransformersの融合が如何にして動画生成AIにパラダイムシフトをもたらしたかを深掘りし、Sora、Veo 3、その他の画期的モデルを支える技術革新を探究する。

動画生成の頂上への登攀は、まさに方法論的な登山であり、各アーキテクチャの革新が前の段階の上に築かれてきた。2025年、我々は拡散トランスフォーマーという新たな頂きに到達したかのように感じる。これは、時間的生成に対する我々の思考を根本的に再構築する、エレガントな融合である。まるでDent BlancheとMatterhornの間の尾根を歩くかのように、浮上した技術的風景をご案内しよう。
アーキテクチャの融合
従来の動画生成モデルは2つの根本的な課題に苦しんでいた:フレーム間での時間的一貫性の維持と、より長いシーケンスへのスケーリング。ブレイクスルーは、研究者らが拡散モデルの確率論的フレームワークをTransformersのアテンション機構で強化できることに気づいた時に訪れた。これが現在我々が潜在拡散トランスフォーマーと呼ぶものを創り出した。
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalization for stability
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Extract spacetime patches - the key innovation
patches = self.patch_embed(x_t)
# Add positional and temporal embeddings
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transformer processing with QK-normalization
features = self.transformer(patches)
# Predict noise for diffusion
return self.denoise_head(features)エレガンスは、動画を画像のシーケンスとしてではなく、統一された時空間ボリュームとして扱うところにある。OpenAIのSoraでのアプローチは、空間と時間の両方の次元で動画を処理し、彼らが「時空間パッチ」と呼ぶものを創り出す。これは、Vision Transformersが画像を処理する方法に類似しているが、時間次元に拡張されている。
数学的基盤:シンプルなデノイジングを超えて
核心となる数学的革新は、標準的な拡散定式化を拡張する。我々が p_θ(x_{t-1}|x_t) をモデル化する従来のアプローチの代わりに、拡散トランスフォーマーは圧縮された潜在表現で動作する:
損失関数: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
ここで z_t は潜在時空間エンコーディングを表し、トランスフォーマー ε_θ は時間的位置 t とオプションの条件付け c の両方に条件付けられたノイズを予測する。重要な進歩は、Query-Key正規化がこのプロセスを安定化することである:
アテンション: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
この一見シンプルな修正—アテンションを計算する前にQとKを正規化すること—は、スケールでの訓練安定性を劇的に向上させ、分散システムでモデルを効率的に訓練することを可能にする。
多段階音声-視覚生成:Veo 3アーキテクチャ
Google DeepMindのVeo 3は、洗練された多段階アーキテクチャを導入した。120億パラメータのTransformerが2秒間隔でキーフレームを生成し、280億パラメータのU-Netが中間フレームを補間し、別の90億パラメータの音声合成エンジンが同期されたサウンドトラックを生成する。これは、専門化されたシステムの協調を通じて雪崩の視覚的美しさと音の両方を捉えるようなものだ。
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Generate keyframes first
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpolate intermediate frames
full_video = self.frame_interpolator(keyframes)
# Generate synchronized audio
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audio拡散プロセスは時間的同期を持つ両方のモダリティを生成し、対話において120ミリ秒未満のリップシンク精度を達成する。
現在のモデル風景と性能
現在のモデル間のアーキテクチャの違いは、動画生成への異なるアプローチを示している:
| Model | Architecture | Resolution | Duration | Key Features |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | Up to 60s | Spacetime patches, remix capabilities |
| Gen-4 | Diffusion Transformer | 720p | 10s | Commercial quality, fast generation |
| Veo 3 | Multi-stage (12B+28B+9B) | 4K supported | 8s | Synchronized audio-visual generation |
| Stable Video Diffusion | Open-source SVD | 720p | 4s | Community-driven, customizable |
特に興味深いのは、異なるモデルが様々なアテンションパターンを通じてシーケンス長を最適化する方法である:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progressive attention refinement from coarse to fine
Similar to climbing: establish base camp, then push to summit
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Combine multi-scale attention
return torch.stack(attention_maps).mean(dim=0)モーション認識アーキテクチャの進歩
2025年は、時間的ダイナミクスを明示的にモデル化するモーション認識アーキテクチャの出現を見た。南京大学とTencentの研究者によって提案されたMotion-Aware Generative (MoG)フレームワークは、フローベースの補間モデルからの明示的なモーションガイダンスを活用して、動画生成を強化する。このフレームワークは、潜在レベルと特徴レベルの両方でモーションガイダンスを統合し、大規模に事前訓練された動画生成モデルにおけるモーション認識を大幅に向上させる。
このモーション処理と外観処理の分離により、視覚的一貫性を維持しながら時間的ダイナミクスの強化されたコントロールが可能になる。あらゆる雪片を完璧にレンダリングしながら雪崩のスピードを調整できることを想像してほしい。
プロダクション最適化:ラボからアプリケーションへ
2025年の真の勝利は、単に品質の向上だけでなく、展開効率性にある。Transformerベースの拡散モデル向けのTensorRT最適化は、大幅なスピードアップを実現する:
# Standard generation pipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 seconds of video
# Optimized pipeline with TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Significantly fasterLoRAによるParameter-Efficient Fine-Tuningは、カスタマイゼーションを民主化した。チームは今や、元のパラメータのわずか1%で事前訓練された動画モデルを適応できる:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Inject low-rank adaptations
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Only train these small matrices
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))前方を見据えて:次なる登攀
統一アーキテクチャへの収束は続いている。ByteDanceのBAGELモデル(Mixture-of-Transformersアーキテクチャで70億アクティブパラメータ)とMetaのTransfusionモデルは、自己回帰タスクと拡散タスクの両方を扱う単一Transformerアーキテクチャを開拓している。Bonega.aiでは、リアルタイム動画処理への含意について特に興奮している。スタイルとモーションで完璧にマッチするAI生成コンテンツで既存の映像をシームレスに拡張することを想像してほしい。
拡散トランスフォーマーの数学的エレガンスは、動画生成における根本的な課題を解決した:効率的にスケールしながら時間を超えて一貫性を維持すること。これらのアーキテクチャを一から実装した人間として、その感覚は偽の頂上に到達したかのようであり、真の頂上がさらに壮大な展望を明らかにすることを発見するようなものだと言える。
これらのモデルを取り巻く新興のツールとフレームワーク—訓練フリー適応方法からエッジ展開戦略まで—は、我々が高品質動画生成が2023年の画像生成と同じくらいアクセスしやすくなる時代に入っていることを示唆している。登攀は続くが、我々は以前は到達不可能と思われた高度に堅固なベースキャンプを確立した。

Alexis
AIエンジニアローザンヌ出身のAIエンジニアで、研究の深さと実践的なイノベーションを組み合わせています。モデルアーキテクチャとアルプスの頂に時間を分けています。