Diffusion Transformers: Kiến Trúc Cách Mạng Hóa Tạo Video Năm 2025
Khám phá sâu về cách sự hội tụ của các mô hình khuếch tán và transformer đã tạo ra một sự thay đổi mô hình trong tạo video AI, khám phá các đổi mới kỹ thuật đằng sau Sora, Veo 3 và các mô hình đột phá khác.

Cuộc leo lên đỉnh cao của tạo video đã là một cuộc leo núi có phương pháp, mỗi đổi mới kiến trúc xây dựng trên cái trước đó. Năm 2025, chúng ta đã đạt đến những gì cảm thấy như một đỉnh mới với diffusion transformers—một sự hợp nhất tao nhã đang định hình lại cơ bản cách chúng ta suy nghĩ về tạo thời gian. Hãy để tôi hướng dẫn bạn qua bối cảnh kỹ thuật đã nổi lên, giống như điều hướng các đường lưng giữa Dent Blanche và Matterhorn.
Sự Hội Tụ Kiến Trúc
Các mô hình tạo video truyền thống gặp khó khăn với hai thách thức cơ bản: duy trì tính nhất quán thời gian qua các khung hình và mở rộng sang các chuỗi dài hơn. Đột phá đến khi các nhà nghiên cứu nhận ra rằng khung xác suất của các mô hình khuếch tán có thể được nâng cao với các cơ chế chú ý của transformer—tạo ra những gì chúng ta bây giờ gọi là latent diffusion transformers.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Chuẩn hóa trước cho sự ổn định
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Trích xuất các bản vá không gian-thời gian - đổi mới chính
patches = self.patch_embed(x_t)
# Thêm nhúng vị trí và thời gian
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Xử lý transformer với chuẩn hóa QK
features = self.transformer(patches)
# Dự đoán nhiễu cho khuếch tán
return self.denoise_head(features)Sự tao nhã nằm trong việc xử lý video không phải là một chuỗi hình ảnh, mà là một khối không gian-thời gian thống nhất. Phương pháp của OpenAI với Sora xử lý video qua cả chiều không gian và thời gian, tạo ra những gì họ gọi là "các bản vá không gian-thời gian"—tương tự như cách Vision Transformers xử lý hình ảnh, nhưng được mở rộng vào chiều thời gian.
Nền Tảng Toán Học: Vượt Ra Ngoài Khử Nhiễu Đơn Giản
Đổi mới toán học cốt lõi mở rộng công thức khuếch tán tiêu chuẩn. Thay vì phương pháp truyền thống nơi chúng ta mô hình hóa p_θ(x_{t-1}|x_t), diffusion transformers hoạt động trên các biểu diễn tiềm ẩn được nén:
Hàm Mất Mát: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Trong đó z_t đại diện cho mã hóa không gian-thời gian tiềm ẩn, và transformer ε_θ dự đoán nhiễu được điều kiện hóa trên cả vị trí thời gian t và điều kiện tùy chọn c. Sự tiến bộ quan trọng là chuẩn hóa Query-Key ổn định quá trình này:
Chú Ý: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Sửa đổi dường như đơn giản này—chuẩn hóa Q và K trước khi tính toán chú ý—cải thiện đáng kể sự ổn định huấn luyện ở quy mô lớn, cho phép các mô hình huấn luyện hiệu quả trên các hệ thống phân tán.
Tạo Nghe Nhìn Đa Giai Đoạn: Kiến Trúc Veo 3
Veo 3 của Google DeepMind đã giới thiệu một kiến trúc đa giai đoạn tinh vi—một transformer 12 tỷ tham số tạo ra các khung hình chính ở khoảng thời gian 2 giây, trong khi một U-Net 28 tỷ tham số nội suy các khung hình trung gian, và một động cơ tổng hợp âm thanh 9 tỷ tham số riêng biệt tạo ra nhạc nền đồng bộ. Hãy nghĩ về nó như việc nắm bắt cả vẻ đẹp trực quan và âm thanh của một trận tuyết lở thông qua các hệ thống chuyên biệt được phối hợp.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B tham số
self.frame_interpolator = InterpolationUNet() # 28B tham số
self.audio_synthesizer = AudioGenerator() # 9B tham số
def generate(self, prompt, duration=8):
# Tạo khung hình chính trước
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Nội suy các khung hình trung gian
full_video = self.frame_interpolator(keyframes)
# Tạo âm thanh đồng bộ
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioQuá trình khuếch tán tạo ra cả hai phương thức với đồng bộ hóa thời gian, đạt được độ chính xác đồng bộ môi dưới 120 mili giây cho đối thoại.
Bối Cảnh Mô Hình Hiện Tại Và Hiệu Suất
Sự khác biệt kiến trúc giữa các mô hình hiện tại cho thấy các phương pháp riêng biệt để tạo video:
| Mô Hình | Kiến Trúc | Độ Phân Giải | Thời Lượng | Tính Năng Chính |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | Lên đến 60s | Các bản vá không gian-thời gian, khả năng remix |
| Gen-4 | Diffusion Transformer | 720p | 10s | Chất lượng thương mại, tạo nhanh |
| Veo 3 | Đa giai đoạn (12B+28B+9B) | Hỗ trợ 4K | 8s | Tạo nghe nhìn đồng bộ |
| Stable Video Diffusion | SVD mã nguồn mở | 720p | 4s | Hướng cộng đồng, tùy chỉnh được |
Điều đặc biệt thú vị là cách các mô hình khác nhau tối ưu hóa cho độ dài chuỗi thông qua các mẫu chú ý khác nhau:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Tinh chỉnh chú ý lũy tiến từ thô đến tinh
Tương tự như leo núi: thiết lập trại căn cứ, sau đó đẩy lên đỉnh
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Kết hợp chú ý đa quy mô
return torch.stack(attention_maps).mean(dim=0)Tiến Bộ Kiến Trúc Nhận Biết Chuyển Động
Năm 2025 đã chứng kiến sự xuất hiện của các kiến trúc nhận biết chuyển động mô hình hóa rõ ràng động lực thời gian. Khung Motion-Aware Generative (MoG), được đề xuất bởi các nhà nghiên cứu từ Đại học Nanjing và Tencent, tận dụng hướng dẫn chuyển động rõ ràng từ các mô hình nội suy dựa trên luồng để nâng cao tạo video. Khung tích hợp hướng dẫn chuyển động ở cả cấp độ tiềm ẩn và tính năng, cải thiện đáng kể nhận thức chuyển động trong các mô hình tạo video được huấn luyện trước quy mô lớn.
Sự phân tách xử lý chuyển động và ngoại hình này cho phép kiểm soát nâng cao đối với động lực thời gian trong khi duy trì tính nhất quán hình ảnh—hãy tưởng tượng có thể điều chỉnh tốc độ của một trận tuyết lở trong khi giữ mọi bông tuyết được kết xuất hoàn hảo.
Tối Ưu Hóa Sản Xuất: Từ Phòng Thí Nghiệm Đến Ứng Dụng
Chiến thắng thực sự của năm 2025 không chỉ là chất lượng được cải thiện—mà là hiệu quả triển khai. Tối ưu hóa TensorRT cho các mô hình khuếch tán dựa trên transformer đạt được tăng tốc đáng kể:
# Quy trình tạo tiêu chuẩn
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 giây video
# Quy trình được tối ưu hóa với TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Nhanh hơn đáng kểTinh Chỉnh Hiệu Quả Tham Số thông qua LoRA đã dân chủ hóa tùy chỉnh. Các nhóm hiện có thể điều chỉnh các mô hình video được huấn luyện trước với chỉ 1% tham số gốc:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Tiêm các điều chỉnh thứ hạng thấp
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Chỉ huấn luyện các ma trận nhỏ này
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Nhìn Về Phía Trước: Cuộc Leo Tiếp Theo
Sự hội tụ hướng tới các kiến trúc thống nhất tiếp tục. Mô hình BAGEL của ByteDance (7B tham số hoạt động với kiến trúc Mixture-of-Transformers) và các mô hình Transfusion của Meta tiên phong các kiến trúc transformer đơn xử lý cả các tác vụ tự hồi quy và khuếch tán. Tại Bonega.ai, chúng tôi đặc biệt hào hứng về các ý nghĩa cho xử lý video thời gian thực—hãy tưởng tượng mở rộng cảnh quay hiện có của bạn một cách liền mạch với nội dung do AI tạo ra khớp hoàn hảo về phong cách và chuyển động.
Sự tao nhã toán học của diffusion transformers đã giải quyết các thách thức cơ bản trong tạo video: duy trì tính mạch lạc qua thời gian trong khi mở rộng hiệu quả. Là người đã triển khai các kiến trúc này từ đầu, tôi có thể nói với bạn cảm giác giống như đạt đến một đỉnh giả, chỉ để phát hiện ra đỉnh thực sự tiết lộ một tầm nhìn thậm chí lớn hơn phía trước.
Các công cụ và khung nổi lên xung quanh các mô hình này—từ các phương pháp điều chỉnh không huấn luyện đến các chiến lược triển khai biên—cho thấy chúng ta đang bước vào một kỷ nguyên nơi tạo video chất lượng cao trở nên dễ tiếp cận như tạo hình ảnh vào năm 2023. Cuộc leo tiếp tục, nhưng chúng ta đã thiết lập một trại căn cứ vững chắc ở độ cao trước đây được cho là không thể đạt được.
Bài viết này có hữu ích không?

Alexis
Kỹ sư AIKỹ sư AI đến từ Lausanne, kết hợp chiều sâu nghiên cứu với đổi mới thực tiễn. Chia thời gian giữa kiến trúc mô hình và những đỉnh núi Alps.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

Sự Nhất Quán Nhân Vật trong Video AI: Các Mô Hình Đang Học Cách Nhớ Khuôn Mặt
Một cuộc phân tích kỹ thuật sâu sắc về những đổi mới kiến trúc cho phép các mô hình video AI duy trì tính nhất quán của nhân vật giữa các cảnh, từ các cơ chế chú ý đến các phép nhúng bảo toàn danh tính.

CraftStory Model 2.0: Khuếch tán hai chiều mở khóa video AI 5 phút như thế nào
Trong khi Sora 2 chỉ tối đa 25 giây, CraftStory vừa ra mắt hệ thống tạo video 5 phút mạch lạc. Bí mật: Chạy nhiều công cụ khuếch tán song song với ràng buộc hai chiều.

Khuếch Tán Song Song: Cách Tạo Hình Ảnh AI Phá Vỡ Rào Cản Chất Lượng Và Độ Phân Giải
Khám phá các kiến trúc khuếch tán song song cho phép tạo hình ảnh độ phân giải cực cao và các bố cục nhiều yếu tố phức tạp. Khám phá sâu về đột phá kỹ thuật đang xác định lại tổng hợp hình ảnh AI.