Diffusion Transformers: Arsitektur yang Merevolusi Generasi Video di 2025
Mendalami bagaimana konvergensi model difusi dan transformers telah menciptakan pergeseran paradigma dalam generasi video AI, menjelajahi inovasi teknis di balik Sora, Veo 3, dan model terobosan lainnya.

Pendakian ke puncak generasi video telah menjadi pendakian yang metodis, setiap inovasi arsitektur dibangun di atas yang terakhir. Di 2025, kami telah mencapai apa yang terasa seperti puncak baru dengan diffusion transformers—fusi elegan yang secara fundamental membentuk kembali cara kami berpikir tentang generasi temporal. Izinkan saya memandu Anda melalui lanskap teknis yang muncul, seperti menavigasi punggung bukit antara Dent Blanche dan Matterhorn.
Konvergensi Arsitektur
Model generasi video tradisional berjuang dengan dua tantangan fundamental: mempertahankan konsistensi temporal di seluruh frame dan penskalaan ke urutan yang lebih panjang. Terobosan datang ketika peneliti menyadari bahwa kerangka probabilistik model difusi dapat ditingkatkan dengan mekanisme perhatian transformers—menciptakan apa yang sekarang kami sebut latent diffusion transformers.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalization untuk stabilitas
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Ekstrak patch spacetime - inovasi kunci
patches = self.patch_embed(x_t)
# Tambahkan embedding posisional dan temporal
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Pemrosesan transformer dengan QK-normalization
features = self.transformer(patches)
# Prediksi noise untuk difusi
return self.denoise_head(features)Keanggunan terletak pada memperlakukan video bukan sebagai urutan gambar, tetapi sebagai volume spacetime terpadu. Pendekatan OpenAI dengan Sora memproses video di kedua dimensi spasial dan temporal, menciptakan apa yang mereka sebut "spacetime patches" - analog dengan cara Vision Transformers memproses gambar, tetapi diperluas ke dimensi temporal.
Fondasi Matematis: Melampaui Denoising Sederhana
Inovasi matematis inti memperluas formulasi difusi standar. Alih-alih pendekatan tradisional di mana kami memodelkan p_θ(x_{t-1}|x_t), diffusion transformers beroperasi pada representasi laten terkompresi:
Fungsi Loss: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Di mana z_t merepresentasikan encoding spacetime laten, dan transformer ε_θ memprediksi noise yang dikondisikan pada posisi temporal t dan conditioning opsional c. Kemajuan kritis adalah bahwa normalisasi Query-Key menstabilkan proses ini:
Attention: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Modifikasi yang tampaknya sederhana ini—menormalkan Q dan K sebelum menghitung attention—secara dramatis meningkatkan stabilitas pelatihan dalam skala, memungkinkan model untuk melatih secara efisien pada sistem terdistribusi.
Generasi Audio-Visual Multi-Stage: Arsitektur Veo 3
Veo 3 Google DeepMind memperkenalkan arsitektur multi-stage yang canggih - transformer 12 miliar parameter menghasilkan keyframe pada interval 2 detik, sementara U-Net 28 miliar parameter menginterpolasi frame perantara, dan mesin sintesis audio 9 miliar parameter terpisah menghasilkan soundtrack yang tersinkronisasi. Pikirkan itu seperti menangkap keindahan visual dan suara longsoran melalui sistem khusus yang terkoordinasi.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Hasilkan keyframe terlebih dahulu
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpolasi frame perantara
full_video = self.frame_interpolator(keyframes)
# Hasilkan audio yang tersinkronisasi
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioProses difusi menghasilkan kedua modalitas dengan sinkronisasi temporal, mencapai akurasi lip-sync kurang dari 120 milidetik untuk dialog.
Lanskap Model Saat Ini dan Kinerja
Perbedaan arsitektur antara model saat ini menunjukkan pendekatan berbeda untuk generasi video:
| Model | Arsitektur | Resolusi | Durasi | Fitur Kunci |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | Hingga 60s | Spacetime patches, kemampuan remix |
| Gen-4 | Diffusion Transformer | 720p | 10s | Kualitas komersial, generasi cepat |
| Veo 3 | Multi-stage (12B+28B+9B) | 4K didukung | 8s | Generasi audio-visual tersinkronisasi |
| Stable Video Diffusion | Open-source SVD | 720p | 4s | Didorong komunitas, dapat disesuaikan |
Yang sangat menarik adalah bagaimana model yang berbeda mengoptimalkan panjang urutan melalui berbagai pola perhatian:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progressive attention refinement dari kasar ke halus
Mirip dengan mendaki: tetapkan base camp, lalu dorong ke puncak
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Gabungkan attention multi-scale
return torch.stack(attention_maps).mean(dim=0)Kemajuan Arsitektur Motion-Aware
2025 telah melihat munculnya arsitektur motion-aware yang secara eksplisit memodelkan dinamika temporal. Framework Motion-Aware Generative (MoG), yang diusulkan oleh peneliti dari Nanjing University dan Tencent, memanfaatkan panduan gerakan eksplisit dari model interpolasi berbasis flow untuk meningkatkan generasi video. Framework ini mengintegrasikan panduan gerakan pada tingkat laten dan fitur, secara signifikan meningkatkan kesadaran gerakan dalam model generasi video berskala besar yang telah dilatih sebelumnya.
Pemisahan pemrosesan gerakan dan penampilan ini memungkinkan kontrol yang ditingkatkan atas dinamika temporal sambil mempertahankan konsistensi visual - bayangkan dapat menyesuaikan kecepatan longsoran sambil menjaga setiap kepingan salju diberikan dengan sempurna.
Optimisasi Produksi: Dari Lab ke Aplikasi
Kemenangan nyata 2025 bukan hanya kualitas yang ditingkatkan - melainkan efisiensi deployment. Optimisasi TensorRT untuk model difusi berbasis transformer mencapai speedup yang signifikan:
# Pipeline generasi standar
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 detik video
# Pipeline yang dioptimalkan dengan TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Jauh lebih cepatParameter-Efficient Fine-Tuning melalui LoRA telah mendemokratisasi kustomisasi. Tim sekarang dapat menyesuaikan model video yang telah dilatih sebelumnya dengan hanya 1% dari parameter asli:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Inject adaptasi low-rank
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Hanya latih matriks kecil ini
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Melihat ke Depan: Pendakian Berikutnya
Konvergensi menuju arsitektur terpadu berlanjut. Model BAGEL ByteDance (7B parameter aktif dengan arsitektur Mixture-of-Transformers) dan model Transfusion Meta merintis arsitektur transformer tunggal yang menangani tugas autoregressive dan difusi. Di Bonega.ai, kami sangat bersemangat tentang implikasi untuk pemrosesan video real-time - bayangkan memperpanjang rekaman Anda yang ada dengan mulus dengan konten yang dihasilkan AI yang cocok sempurna dalam gaya dan gerakan.
Keanggunan matematis diffusion transformers telah memecahkan tantangan fundamental dalam generasi video: mempertahankan koherensi sepanjang waktu sambil penskalaan secara efisien. Sebagai seseorang yang telah mengimplementasikan arsitektur ini dari awal, saya dapat memberitahu Anda sensasinya seperti mencapai puncak palsu, hanya untuk menemukan puncak sejati mengungkapkan pemandangan yang lebih megah ke depan.
Alat dan framework yang muncul di sekitar model ini - dari metode adaptasi bebas pelatihan hingga strategi deployment edge - menunjukkan bahwa kami memasuki era di mana generasi video berkualitas tinggi menjadi sama mudah diaksesnya dengan generasi gambar di 2023. Pendakian berlanjut, tetapi kami telah mendirikan base camp yang solid di ketinggian yang sebelumnya dianggap tidak dapat dicapai.
Apakah artikel ini bermanfaat?

Alexis
Insinyur AIInsinyur AI dari Lausanne yang menggabungkan kedalaman riset dengan inovasi praktis. Membagi waktu antara arsitektur model dan puncak alpine.
Artikel Terkait
Lanjutkan eksplorasi dengan postingan terkait ini

Konsistensi Karakter dalam Video AI: Bagaimana Model Belajar Mengingat Wajah
Sebuah analisis teknis mendalam tentang inovasi arsitektur yang memungkinkan model video AI untuk mempertahankan identitas karakter di seluruh adegan, dari mekanisme perhatian hingga penyisipan pengawet identitas.

CraftStory Model 2.0: Bagaimana Bidirectional Diffusion Membuka Video AI Berdurasi 5 Menit
Sementara Sora 2 maksimal hanya 25 detik, CraftStory baru saja meluncurkan sistem yang menghasilkan video koheren berdurasi 5 menit. Rahasianya? Menjalankan beberapa mesin difusi secara paralel dengan batasan bidireksional.

Meta SAM 3D: Dari Gambar Datar ke Model 3D Lengkap dalam Hitungan Detik
Meta baru saja merilis SAM 3 dan SAM 3D, mengubah gambar 2D tunggal menjadi mesh 3D terperinci dalam hitungan detik. Kami mengulas apa makna ini bagi para kreator dan pengembang.