Diffusion Transformers: Seni Bina yang Merevolusikan Penjanaan Video pada 2025
Mendalami bagaimana penggabungan model difusi dan transformer telah mencipta anjakan paradigma dalam penjanaan video AI, meneroka inovasi teknikal di sebalik Sora, Veo 3, dan model terobosan lain.

Pendakian ke puncak penjanaan video adalah pendakian yang berkaedah, setiap inovasi seni bina dibina di atas yang sebelumnya. Pada 2025, kita telah mencapai apa yang terasa seperti puncak baharu dengan diffusion transformers, gabungan elegan yang secara fundamental membentuk semula cara kita berfikir tentang penjanaan temporal. Biarkan saya membimbing anda melalui landskap teknikal yang telah muncul, seperti mengemudi rabung antara Dent Blanche dan Matterhorn.
Penggabungan Seni Bina
Model penjanaan video tradisional bergelut dengan dua cabaran fundamental: mengekalkan konsistensi temporal merentasi bingkai dan skala ke urutan yang lebih panjang. Terobosan berlaku apabila penyelidik menyedari bahawa rangka kerja probabilistik model difusi boleh dipertingkatkan dengan mekanisme perhatian transformer, mencipta apa yang kini kita panggil latent diffusion transformers.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pra-normalisasi untuk kestabilan
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Ekstrak patch ruang-masa - inovasi utama
patches = self.patch_embed(x_t)
# Tambah embeddings posisi dan temporal
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Pemprosesan transformer dengan normalisasi QK
features = self.transformer(patches)
# Ramal hingar untuk difusi
return self.denoise_head(features)Keeleganan terletak pada merawat video bukan sebagai urutan imej, tetapi sebagai volum ruang-masa bersepadu. Pendekatan OpenAI dengan Sora 2 memproses video merentasi kedua-dua dimensi ruang dan temporal, mencipta apa yang mereka panggil "spacetime patches", analog dengan cara Vision Transformers memproses imej, tetapi dilanjutkan ke dimensi temporal.
Asas Matematik: Melangkaui Penyahhingaran Mudah
Inovasi matematik teras memperluaskan formulasi difusi standard. Daripada pendekatan tradisional di mana kita memodelkan p_θ(x_{t-1}|x_t), diffusion transformers beroperasi pada perwakilan laten yang dimampatkan:
Fungsi Kehilangan: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Di mana z_t mewakili pengekodan ruang-masa laten, dan transformer ε_θ meramalkan hingar yang dikondisikan pada kedua-dua posisi temporal t dan conditioning pilihan c. Kemajuan kritikal ialah normalisasi Query-Key menstabilkan proses ini:
Perhatian: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Pengubahsuaian yang kelihatan mudah ini, menormalkan Q dan K sebelum mengira perhatian, secara dramatik meningkatkan kestabilan latihan pada skala, membolehkan model berlatih dengan cekap pada sistem yang diedarkan. Pendekatan kekangan dwiarah yang sama menggerakkan difusi selari untuk penjanaan resolusi ultra-tinggi.
Penjanaan Audio-Visual Berbilang Peringkat: Seni Bina Veo 3
Veo 3 dari Google DeepMind memperkenalkan seni bina berbilang peringkat yang canggih, transformer 12 bilion parameter menjana bingkai kunci pada selang 2 saat, manakala U-Net 28 bilion parameter menginterpolasi bingkai perantaraan, dan enjin sintesis audio 9 bilion parameter yang berasingan menghasilkan runut bunyi yang disegerakkan. Fikirkan ia seperti menangkap kedua-dua keindahan visual dan bunyi runtuhan salji melalui sistem khusus yang diselaraskan.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Jana bingkai kunci dahulu
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpolasi bingkai perantaraan
full_video = self.frame_interpolator(keyframes)
# Jana audio yang disegerakkan
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioProses difusi menjana kedua-dua modaliti dengan penyegerakan temporal, mencapai ketepatan lip-sync kurang daripada 120 milisaat untuk dialog.
Landskap Model Semasa dan Prestasi
Perbezaan seni bina antara model semasa menunjukkan pendekatan yang berbeza untuk penjanaan video:
| Model | Seni Bina | Resolusi | Tempoh | Ciri Utama |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | Sehingga 60s | Patch ruang-masa, keupayaan remix |
| Gen-4 | Diffusion Transformer | 720p | 10s | Kualiti komersial, penjanaan pantas |
| Veo 3 | Berbilang peringkat (12B+28B+9B) | Sokongan 4K | 8s | Penjanaan audio-visual disegerakkan |
| Stable Video Diffusion | SVD sumber terbuka | 720p | 4s | Didorong komuniti, boleh disesuaikan |
Apa yang sangat menarik ialah bagaimana model yang berbeza mengoptimumkan untuk panjang urutan melalui pelbagai corak perhatian:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Penapisan perhatian progresif dari kasar ke halus
Serupa dengan mendaki: tetapkan kem asas, kemudian menuju ke puncak
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Gabungkan perhatian berbilang skala
return torch.stack(attention_maps).mean(dim=0)Kemajuan Seni Bina Kesedaran Gerakan
2025 telah menyaksikan kemunculan seni bina kesedaran gerakan yang secara eksplisit memodelkan dinamik temporal. Rangka kerja Motion-Aware Generative (MoG), yang dicadangkan oleh penyelidik dari Universiti Nanjing dan Tencent, memanfaatkan panduan gerakan eksplisit daripada model interpolasi berasaskan aliran untuk meningkatkan penjanaan video. Rangka kerja ini mengintegrasikan panduan gerakan pada kedua-dua tahap laten dan ciri, meningkatkan kesedaran gerakan dengan ketara dalam model penjanaan video pra-latihan berskala besar.
Pemisahan pemprosesan gerakan dan penampilan ini membolehkan kawalan yang dipertingkatkan ke atas dinamik temporal sambil mengekalkan konsistensi visual, bayangkan boleh melaraskan kelajuan runtuhan salji sambil mengekalkan setiap kepingan salji dirender dengan sempurna.
Pengoptimuman Pengeluaran: Dari Makmal ke Aplikasi
Kejayaan sebenar 2025 bukan hanya kualiti yang lebih baik, ia adalah kecekapan penggunaan. Pengoptimuman TensorRT untuk model difusi berasaskan transformer mencapai pecutan yang ketara:
# Saluran paip penjanaan standard
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 saat video
# Saluran paip yang dioptimumkan dengan TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Jauh lebih pantasParameter-Efficient Fine-Tuning melalui LoRA telah mendemokrasikan penyesuaian. Pasukan kini boleh menyesuaikan model video pra-latihan dengan hanya 1% daripada parameter asal:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Suntik adaptasi peringkat rendah
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Hanya latih matriks kecil ini
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Melihat ke Hadapan: Pendakian Seterusnya
Penggabungan ke arah seni bina bersepadu berterusan. Model BAGEL ByteDance (7B parameter aktif dengan seni bina Mixture-of-Transformers) dan model Transfusion Meta mempelopori seni bina transformer tunggal yang mengendalikan kedua-dua tugas autoregresif dan difusi. Di Bonega.ai, kami sangat teruja dengan implikasi untuk pemprosesan video masa nyata, bayangkan memanjangkan rakaman sedia ada anda dengan lancar dengan kandungan dijana AI yang sepadan dengan sempurna dalam gaya dan gerakan.
Keeleganan matematik diffusion transformers telah menyelesaikan cabaran fundamental dalam penjanaan video: mengekalkan koheren merentasi masa sambil berskala dengan cekap. Sebagai seseorang yang telah melaksanakan seni bina ini dari awal, saya boleh memberitahu anda sensasinya seperti mencapai puncak palsu, hanya untuk menemui puncak sebenar mendedahkan panorama yang lebih megah di hadapan.
Alat dan rangka kerja yang muncul di sekitar model ini, daripada kaedah adaptasi bebas latihan kepada strategi penggunaan edge, mencadangkan kita memasuki era di mana penjanaan video berkualiti tinggi menjadi semudah diakses seperti penjanaan imej pada 2023. Pendakian berterusan, tetapi kita telah mewujudkan kem asas yang kukuh pada ketinggian yang sebelum ini difikirkan tidak boleh dicapai.
Adakah artikel ini membantu?

Alexis
Jurutera AIJurutera AI dari Lausanne yang menggabungkan kedalaman penyelidikan dengan inovasi praktikal. Membahagikan masa antara seni bina model dan puncak alpine.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

Konsistensi Watak dalam Video AI: Bagaimana Model Belajar Mengingat Wajah
Pendalaman teknikal ke dalam inovasi seni bina yang membolehkan model video AI mengekalkan identiti watak merentasi rakaman, daripada mekanisme perhatian kepada embeddings pemeliharaan identiti.

Difusi Selari: Memecahkan Penghalang 5-Minit untuk Video AI
Penjanaan video AI terhad kepada saat. Difusi selari mendorong ke arah minit. Kami menelusuri seni bina di sebalik video bentuk panjang dan mengapa ini penting untuk pencipta.

Pika 2.5: Mendemokratikkan Video AI Melalui Kelajuan, Harga, dan Alat Kreatif
Pika Labs mengeluarkan versi 2.5, menggabungkan penjanaan lebih pantas, fizik yang dipertingkatkan, dan alat kreatif seperti Pikaframes dan Pikaffects untuk menjadikan video AI boleh diakses oleh semua orang.