Diffusion Transformers: Kiến Trúc Cách Mạng Hóa Tạo Video Năm 2025

Cuộc leo lên đỉnh cao của tạo video đã là một cuộc leo núi có phương pháp, mỗi đổi mới kiến trúc xây dựng trên cái trước đó. Năm 2025, chúng ta đã đạt đến những gì cảm thấy như một đỉnh mới với diffusion transformers—một sự hợp nhất tao nhã đang định hình lại cơ bản cách chúng ta suy nghĩ về tạo thời gian. Hãy để tôi hướng dẫn bạn qua bối cảnh kỹ thuật đã nổi lên, giống như điều hướng các đường lưng giữa Dent Blanche và Matterhorn.

Sự Hội Tụ Kiến Trúc

Các mô hình tạo video truyền thống gặp khó khăn với hai thách thức cơ bản: duy trì tính nhất quán thời gian qua các khung hình và mở rộng sang các chuỗi dài hơn. Đột phá đến khi các nhà nghiên cứu nhận ra rằng khung xác suất của các mô hình khuếch tán có thể được nâng cao với các cơ chế chú ý của transformer—tạo ra những gì chúng ta bây giờ gọi là latent diffusion transformers.

class DiffusionTransformer(nn.Module):
    def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
        super().__init__()
        self.patch_embed = SpacetimePatchEmbed(latent_dim)
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(
                d_model=latent_dim,
                nhead=num_heads,
                dim_feedforward=latent_dim * 4,
                norm_first=True  # Chuẩn hóa trước cho sự ổn định
            ),
            num_layers=num_layers
        )
        self.denoise_head = nn.Linear(latent_dim, latent_dim)
 
    def forward(self, x_t, timestep, conditioning=None):
        # Trích xuất các bản vá không gian-thời gian - đổi mới chính
        patches = self.patch_embed(x_t)
 
        # Thêm nhúng vị trí và thời gian
        patches = patches + self.get_pos_embed(patches.shape)
        patches = patches + self.get_time_embed(timestep)
 
        # Xử lý transformer với chuẩn hóa QK
        features = self.transformer(patches)
 
        # Dự đoán nhiễu cho khuếch tán
        return self.denoise_head(features)

Sự tao nhã nằm trong việc xử lý video không phải là một chuỗi hình ảnh, mà là một khối không gian-thời gian thống nhất. Phương pháp của OpenAI với Sora xử lý video qua cả chiều không gian và thời gian, tạo ra những gì họ gọi là "các bản vá không gian-thời gian"—tương tự như cách Vision Transformers xử lý hình ảnh, nhưng được mở rộng vào chiều thời gian.

Nền Tảng Toán Học: Vượt Ra Ngoài Khử Nhiễu Đơn Giản

Đổi mới toán học cốt lõi mở rộng công thức khuếch tán tiêu chuẩn. Thay vì phương pháp truyền thống nơi chúng ta mô hình hóa p_θ(x_{t-1}|x_t), diffusion transformers hoạt động trên các biểu diễn tiềm ẩn được nén:

Hàm Mất Mát: L_DT = E[||ε - ε_θ(z_t, t, c)||²]

Trong đó z_t đại diện cho mã hóa không gian-thời gian tiềm ẩn, và transformer ε_θ dự đoán nhiễu được điều kiện hóa trên cả vị trí thời gian t và điều kiện tùy chọn c. Sự tiến bộ quan trọng là chuẩn hóa Query-Key ổn định quá trình này:

Chú Ý: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V

Sửa đổi dường như đơn giản này—chuẩn hóa Q và K trước khi tính toán chú ý—cải thiện đáng kể sự ổn định huấn luyện ở quy mô lớn, cho phép các mô hình huấn luyện hiệu quả trên các hệ thống phân tán.

Tạo Nghe Nhìn Đa Giai Đoạn: Kiến Trúc Veo 3

Veo 3 của Google DeepMind đã giới thiệu một kiến trúc đa giai đoạn tinh vi—một transformer 12 tỷ tham số tạo ra các khung hình chính ở khoảng thời gian 2 giây, trong khi một U-Net 28 tỷ tham số nội suy các khung hình trung gian, và một động cơ tổng hợp âm thanh 9 tỷ tham số riêng biệt tạo ra nhạc nền đồng bộ. Hãy nghĩ về nó như việc nắm bắt cả vẻ đẹp trực quan và âm thanh của một trận tuyết lở thông qua các hệ thống chuyên biệt được phối hợp.

class MultiStageVideoEncoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.keyframe_generator = KeyframeTransformer()  # 12B tham số
        self.frame_interpolator = InterpolationUNet()    # 28B tham số
        self.audio_synthesizer = AudioGenerator()        # 9B tham số
 
    def generate(self, prompt, duration=8):
        # Tạo khung hình chính trước
        keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
 
        # Nội suy các khung hình trung gian
        full_video = self.frame_interpolator(keyframes)
 
        # Tạo âm thanh đồng bộ
        audio = self.audio_synthesizer(full_video, prompt)
 
        return full_video, audio

Quá trình khuếch tán tạo ra cả hai phương thức với đồng bộ hóa thời gian, đạt được độ chính xác đồng bộ môi dưới 120 mili giây cho đối thoại.

Bối Cảnh Mô Hình Hiện Tại Và Hiệu Suất

Sự khác biệt kiến trúc giữa các mô hình hiện tại cho thấy các phương pháp riêng biệt để tạo video:

Mô Hình	Kiến Trúc	Độ Phân Giải	Thời Lượng	Tính Năng Chính
Sora 2	Diffusion Transformer	1080p	Lên đến 60s	Các bản vá không gian-thời gian, khả năng remix
Gen-4	Diffusion Transformer	720p	10s	Chất lượng thương mại, tạo nhanh
Veo 3	Đa giai đoạn (12B+28B+9B)	Hỗ trợ 4K	8s	Tạo nghe nhìn đồng bộ
Stable Video Diffusion	SVD mã nguồn mở	720p	4s	Hướng cộng đồng, tùy chỉnh được

Điều đặc biệt thú vị là cách các mô hình khác nhau tối ưu hóa cho độ dài chuỗi thông qua các mẫu chú ý khác nhau:

def hierarchical_attention(patches, hierarchy_levels=3):
    """
    Tinh chỉnh chú ý lũy tiến từ thô đến tinh
    Tương tự như leo núi: thiết lập trại căn cứ, sau đó đẩy lên đỉnh
    """
    attention_maps = []
 
    for level in range(hierarchy_levels):
        window_size = 2 ** (hierarchy_levels - level)
        local_attn = compute_windowed_attention(patches, window_size)
        attention_maps.append(local_attn)
 
    # Kết hợp chú ý đa quy mô
    return torch.stack(attention_maps).mean(dim=0)

Tiến Bộ Kiến Trúc Nhận Biết Chuyển Động

Năm 2025 đã chứng kiến sự xuất hiện của các kiến trúc nhận biết chuyển động mô hình hóa rõ ràng động lực thời gian. Khung Motion-Aware Generative (MoG), được đề xuất bởi các nhà nghiên cứu từ Đại học Nanjing và Tencent, tận dụng hướng dẫn chuyển động rõ ràng từ các mô hình nội suy dựa trên luồng để nâng cao tạo video. Khung tích hợp hướng dẫn chuyển động ở cả cấp độ tiềm ẩn và tính năng, cải thiện đáng kể nhận thức chuyển động trong các mô hình tạo video được huấn luyện trước quy mô lớn.

Sự phân tách xử lý chuyển động và ngoại hình này cho phép kiểm soát nâng cao đối với động lực thời gian trong khi duy trì tính nhất quán hình ảnh—hãy tưởng tượng có thể điều chỉnh tốc độ của một trận tuyết lở trong khi giữ mọi bông tuyết được kết xuất hoàn hảo.

Tối Ưu Hóa Sản Xuất: Từ Phòng Thí Nghiệm Đến Ứng Dụng

Chiến thắng thực sự của năm 2025 không chỉ là chất lượng được cải thiện—mà là hiệu quả triển khai. Tối ưu hóa TensorRT cho các mô hình khuếch tán dựa trên transformer đạt được tăng tốc đáng kể:

# Quy trình tạo tiêu chuẩn
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120)  # 5 giây video
 
# Quy trình được tối ưu hóa với TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
                                         batch_size=1,
                                         precision='fp16',
                                         use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120)  # Nhanh hơn đáng kể

Tinh Chỉnh Hiệu Quả Tham Số thông qua LoRA đã dân chủ hóa tùy chỉnh. Các nhóm hiện có thể điều chỉnh các mô hình video được huấn luyện trước với chỉ 1% tham số gốc:

class VideoLoRA(nn.Module):
    def __init__(self, base_model, rank=16):
        super().__init__()
        self.base_model = base_model
 
        # Tiêm các điều chỉnh thứ hạng thấp
        for name, module in base_model.named_modules():
            if isinstance(module, nn.Linear):
                # Chỉ huấn luyện các ma trận nhỏ này
                setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
                setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))

Nhìn Về Phía Trước: Cuộc Leo Tiếp Theo

Sự hội tụ hướng tới các kiến trúc thống nhất tiếp tục. Mô hình BAGEL của ByteDance (7B tham số hoạt động với kiến trúc Mixture-of-Transformers) và các mô hình Transfusion của Meta tiên phong các kiến trúc transformer đơn xử lý cả các tác vụ tự hồi quy và khuếch tán. Tại Bonega.ai, chúng tôi đặc biệt hào hứng về các ý nghĩa cho xử lý video thời gian thực—hãy tưởng tượng mở rộng cảnh quay hiện có của bạn một cách liền mạch với nội dung do AI tạo ra khớp hoàn hảo về phong cách và chuyển động.

Sự tao nhã toán học của diffusion transformers đã giải quyết các thách thức cơ bản trong tạo video: duy trì tính mạch lạc qua thời gian trong khi mở rộng hiệu quả. Là người đã triển khai các kiến trúc này từ đầu, tôi có thể nói với bạn cảm giác giống như đạt đến một đỉnh giả, chỉ để phát hiện ra đỉnh thực sự tiết lộ một tầm nhìn thậm chí lớn hơn phía trước.

Các công cụ và khung nổi lên xung quanh các mô hình này—từ các phương pháp điều chỉnh không huấn luyện đến các chiến lược triển khai biên—cho thấy chúng ta đang bước vào một kỷ nguyên nơi tạo video chất lượng cao trở nên dễ tiếp cận như tạo hình ảnh vào năm 2023. Cuộc leo tiếp tục, nhưng chúng ta đã thiết lập một trại căn cứ vững chắc ở độ cao trước đây được cho là không thể đạt được.