Diffusion Transformers: Архитектурата, революционизираща генерирането на видео през 2025
Задълбочено проучване на това как конвергенцията на дифузионни модели и трансформери създаде промяна на парадигмата в AI генерирането на видео, изследвайки техническите иновации зад Sora, Veo 3 и други пробивни модели.

Изкачването към върха на генерирането на видео е било методично изкачване, всяка архитектурна иновация се гради върху предишната. През 2025 достигнахме това, което се усеща като нов връх с diffusion transformers—елегантна фузия, която фундаментално преоформя начина, по който мислим за темпорално генериране. Нека ви поведа през техническия пейзаж, който се е появил, като навигация по била между Dent Blanche и Matterhorn.
Архитектурната конвергенция
Традиционните модели за генериране на видео се затрудняваха с два фундаментални предизвикателства: поддържане на темпорална консистентност между кадрите и мащабиране към по-дълги секвенции. Пробивът дойде, когато изследователите осъзнаха, че вероятностната рамка на дифузионните модели може да бъде подобрена с механизми за внимание на трансформерите—създавайки това, което сега наричаме latent diffusion transformers.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalization за стабилност
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Извличане на spacetime patches - ключовата иновация
patches = self.patch_embed(x_t)
# Добавяне на позиционни и темпорални вграждания
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transformer обработка с QK-normalization
features = self.transformer(patches)
# Предсказване на шум за дифузия
return self.denoise_head(features)Елегантността се крие в третирането на видеото не като последователност от изображения, а като унифициран spacetime обем. Подходът на OpenAI със Sora обработва видеа в пространствени и темпорални измерения, създавайки това, което наричат "spacetime patches"—аналогично на начина, по който Vision Transformers обработват изображения, но разширено в темпорално измерение.
Математически основи: Отвъд простото премахване на шум
Основната математическа иновация разширява стандартната дифузионна формулация. Вместо традиционния подход, където моделираме p_θ(x_{t-1}|x_t), diffusion transformers оперират върху компресирани латентни представяния:
Loss функция: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Където z_t представлява латентното spacetime кодиране и трансформерът ε_θ предсказва шум, обусловен както от темпорална позиция t, така и от опционално обуславяне c. Критичното усъвършенстване е, че Query-Key нормализацията стабилизира този процес:
Внимание: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Тази привидно проста модификация—нормализиране на Q и K преди изчисляване на внимание—драматично подобрява стабилността на обучението в мащаб, позволявайки на моделите да се обучават ефективно на разпределени системи.
Многоетапна аудио-визуална генерация: Архитектурата на Veo 3
Veo 3 на Google DeepMind въведе софистицирана многоетапна архитектура—12-милиарден параметричен трансформер генерира ключови кадри на 2-секундни интервали, докато 28-милиарден параметричен U-Net интерполира междинни кадри и отделен 9-милиарден параметричен енджин за аудио синтез произвежда синхронизирани саундтракове. Помислете за него като улавяне на визуалната красота и звука на лавина чрез координирани специализирани системи.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Генериране на ключови кадри първо
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Интерполиране на междинни кадри
full_video = self.frame_interpolator(keyframes)
# Генериране на синхронизирано аудио
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioДифузионният процес генерира двете модалности с темпорална синхронизация, постигайки точност на синхронизация на устните под 120 милисекунди за диалог.
Текущ модел пейзаж и производителност
Архитектурните разлики между текущите модели показват различни подходи към генериране на видео:
| Модел | Архитектура | Резолюция | Продължителност | Ключови функции |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | До 60s | Spacetime patches, remix възможности |
| Gen-4 | Diffusion Transformer | 720p | 10s | Комерсиално качество, бързо генериране |
| Veo 3 | Многоетапна (12B+28B+9B) | 4K поддържана | 8s | Синхронизирана аудио-визуална генерация |
| Stable Video Diffusion | Open-source SVD | 720p | 4s | Движена от общността, персонализируема |
Особено интересно е как различните модели оптимизират дължината на секвенцията чрез различни шаблони на внимание:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Прогресивно рафиниране на внимание от груб към фин
Подобно на изкачване: установяване на базов лагер, след това напредък към върха
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Комбиниране на multi-scale внимание
return torch.stack(attention_maps).mean(dim=0)Напредък в архитектури, осъзнаващи движението
2025 видя появата на архитектури, осъзнаващи движението, които изрично моделират темпорална динамика. Motion-Aware Generative (MoG) рамката, предложена от изследователи от Nanjing University и Tencent, използва изрично ръководство за движение от flow-based интерполационни модели за подобряване на генерирането на видео. Рамката интегрира ръководство за движение както на латентно, така и на ниво на характеристики, значително подобрявайки осъзнаването на движението в мащабни предварително обучени модели за генериране на видео.
Това разделяне на движението и обработката на външния вид позволява подобрен контрол върху темпоралната динамика, като същевременно поддържа визуална консистентност—представете си да можете да регулирате скоростта на лавина, като същевременно поддържате всяка снежинка перфектно рендирана.
Производствена оптимизация: От лаборатория към приложение
Истинският триумф на 2025 не е просто подобрено качество—това е ефективност на внедряването. TensorRT оптимизациите за transformer-базирани дифузионни модели постигат значителни ускорения:
# Стандартен генериращ pipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 секунди видео
# Оптимизиран pipeline с TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Значително по-бързоParameter-Efficient Fine-Tuning чрез LoRA демократизира персонализацията. Екипите сега могат да адаптират предварително обучени видео модели само с 1% от оригиналните параметри:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Инжектиране на low-rank адаптации
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Обучавайте само тези малки матрици
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Поглед напред: Следващото изкачване
Конвергенцията към унифицирани архитектури продължава. BAGEL моделът на ByteDance (7B активни параметъра с Mixture-of-Transformers архитектура) и Transfusion моделите на Meta пионерстват архитектури с единичен трансформер, обработващи както autoregressive, така и diffusion задачи. В Bonega.ai сме особено развълнувани от последиците за обработка на видео в реално време—представете си да разширите съществуващия си материал безпроблемно с AI-генерирано съдържание, което съответства перфектно на стила и движението.
Математическата елегантност на diffusion transformers е решила фундаментални предизвикателства в генерирането на видео: поддържане на кохерентност във времето, като същевременно мащабира ефективно. Като някой, който е имплементирал тези архитектури от нулата, мога да ви кажа, че усещането е като достигане на фалшив връх, само за да откриете, че истинският връх разкрива още по-грандиозна визия напред.
Инструментите и рамките, появяващи се около тези модели—от методи за адаптация без обучение до стратегии за внедряване на ръб—предполагат, че навлизаме в ера, където високо качествено генериране на видео става толкова достъпно, колкото генерирането на изображения беше през 2023. Изкачването продължава, но сме установили солиден базов лагер на надморска височина, която преди се смяташе за недостижима.
Беше ли полезна тази статия?

Alexis
Инженер по изкуствен интелектИнженер по изкуствен интелект от Лозана, съчетаващ изследователска дълбочина с практични иновации. Разделя времето си между модели архитектури и алпийски върхове.
Свързани статии
Продължете да изследвате със свързаните публикации

Консистентност на персонажа в AI видеото: Как моделите се учат да помнят лица
Технически дълбок анализ на архитектурните иновации, които позволяват на AI видео моделите да поддържат идентичност на персонажа чрез кадри, от механизми на внимание до вграждания, които съхраняват идентичност.

Модел CraftStory 2.0: Как двупосочната дифузия отключва 5-минутни AI видеа
Докато Sora 2 е ограничен до 25 секунди, CraftStory току-що представи система, която генерира последователни 5-минутни видеа. Тайната? Паралелно работещи множество дифузионни двигатели с двупосочни ограничения.

Паралелизирана дифузия: Как AI генерирането на изображения пробива бариерите на качеството и резолюцията
Изследване на паралелизирани дифузионни архитектури, които позволяват ултра високо резолюционно генериране на изображения и сложни мулти-елементни композиции. Задълбочено проучване на техническия пробив, който предефинира AI синтеза на изображения.