Diffusions-transformere: Arkitekturen der revolutionerer videogenerering i 2025
Dybt dyk i hvordan sammensmeltningen af diffusionsmodeller og transformere har skabt et paradigmeskift i AI-videogenerering, og udforskning af de tekniske innovationer bag Sora, Veo 3 og andre banebrydende modeller.

Opstigningen til toppen af videogenerering har været en metodisk klatring, hvor hver arkitektonisk innovation bygger på den forrige. I 2025 har vi nået hvad der føles som en ny top med diffusions-transformere - en elegant fusion der fundamentalt omformer hvordan vi tænker på temporal generering. Lad mig guide dig gennem det tekniske landskab der er dukket op, meget som at navigere kamme mellem Dent Blanche og Matterhorn.
Den arkitektoniske konvergens
Traditionelle videogenereringsmodeller kæmpede med to fundamentale udfordringer: at bevare temporal konsistens på tværs af frames og skalere til længere sekvenser. Gennembruddet kom da forskere indså at diffusionsmodellers probabilistiske framework kunne forbedres med transformeres attention-mekanismer - hvilket skabte hvad vi nu kalder latente diffusions-transformere.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalisering for stabilitet
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Udtræk rumtids-patches - nøgleinnovationen
patches = self.patch_embed(x_t)
# Tilføj positionelle og temporale embeddings
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transformer-behandling med QK-normalisering
features = self.transformer(patches)
# Forudsig støj til diffusion
return self.denoise_head(features)Elegancen ligger i at behandle video ikke som en sekvens af billeder, men som et samlet rumtids-volumen. OpenAIs tilgang med Sora behandler videoer på tværs af både rumlige og temporale dimensioner, hvilket skaber hvad de kalder "rumtids-patches" - analogt til hvordan Vision Transformers behandler billeder, men udvidet til den temporale dimension.
Matematiske fundamenter: Ud over simpel støjfjernelse
Kernen i den matematiske innovation udvider den standardmæssige diffusionsformulering. I stedet for den traditionelle tilgang hvor vi modellerer p_θ(x_{t-1}|x_t), opererer diffusions-transformere på komprimerede latente repræsentationer:
Tabsfunktion: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Hvor z_t repræsenterer den latente rumtids-encoding, og transformeren ε_θ forudsiger støj betinget af både temporal position t og valgfri betingelse c. Den kritiske fremgang er at Query-Key-normalisering stabiliserer denne proces:
Attention: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Denne tilsyneladende simple modifikation - at normalisere Q og K før beregning af attention - forbedrer dramatisk træningsstabilitet i stor skala og gør det muligt for modeller at træne effektivt på distribuerede systemer.
Multi-stage audiovisuel generering: Veo 3-arkitekturen
Google DeepMinds Veo 3 introducerede en sofistikeret multi-stage arkitektur - en 12-milliarder-parameter transformer genererer nøglebilleder med 2-sekunders intervaller, mens en 28-milliarder-parameter U-Net interpolerer mellemliggende frames, og en separat 9-milliarder-parameter lydsynteseengine producerer synkroniserede lydspor. Tænk på det som at indfange både den visuelle skønhed og lyden af et lavine gennem koordinerede specialiserede systemer.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Generer nøglebilleder først
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpoler mellemliggende frames
full_video = self.frame_interpolator(keyframes)
# Generer synkroniseret lyd
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioDiffusionsprocessen genererer begge modaliteter med temporal synkronisering og opnår læbe-synk nøjagtighed på mindre end 120 millisekunder for dialog.
Nuværende modellandskab og præstation
De arkitektoniske forskelle mellem nuværende modeller viser distinkte tilgange til videogenerering:
| Model | Arkitektur | Opløsning | Varighed | Nøglefunktioner |
|---|---|---|---|---|
| Sora 2 | Diffusions-transformer | 1080p | Op til 60s | Rumtids-patches, remix-kapaciteter |
| Gen-4 | Diffusions-transformer | 720p | 10s | Kommerciel kvalitet, hurtig generering |
| Veo 3 | Multi-stage (12B+28B+9B) | 4K understøttet | 8s | Synkroniseret audiovisuel generering |
| Stable Video Diffusion | Open-source SVD | 720p | 4s | Fællesskabsdrevet, tilpasselig |
Hvad der er særligt interessant er hvordan forskellige modeller optimerer for sekvenslængde gennem forskellige attention-mønstre:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progressiv attention-forfining fra grov til fin
Ligesom at klatre: etabler basecamp, skub så til toppen
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Kombiner multi-skala attention
return torch.stack(attention_maps).mean(dim=0)Bevægelsesbevidste arkitektur-fremskridt
2025 har set fremkomsten af bevægelsesbevidste arkitekturer der eksplicit modellerer temporal dynamik. Motion-Aware Generative (MoG) frameworket, foreslået af forskere fra Nanjing Universitet og Tencent, udnytter eksplicit bevægelsesvejledning fra flow-baserede interpoleringsmodeller til at forbedre videogenerering. Frameworket integrerer bevægelsesvejledning på både latente og feature-niveauer, hvilket betydeligt forbedrer bevægelsesbevidsthed i store forudtrænede videogenereringsmodeller.
Denne adskillelse af bevægelses- og udseendebehandling tillader forbedret kontrol over temporal dynamik mens visuel konsistens bevares - forestil dig at kunne justere hastigheden af en lavine mens hver snefnug holdes perfekt renderet.
Produktionsoptimering: Fra lab til applikation
Den virkelige triumf i 2025 er ikke bare forbedret kvalitet - det er deployment-effektivitet. TensorRT-optimeringer til transformer-baserede diffusionsmodeller opnår betydelige hastigheds-forbedringer:
# Standard genereringspipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 sekunders video
# Optimeret pipeline med TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Betydeligt hurtigereParameter-effektiv finjustering gennem LoRA har demokratiseret tilpasning. Teams kan nu tilpasse forudtrænede videomodeller med kun 1% af de originale parametre:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Injicer lav-rang tilpasninger
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Træn kun disse små matricer
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Fremadrettet: Den næste opstigning
Konvergensen mod samlede arkitekturer fortsætter. ByteDances BAGEL-model (7B aktive parametre med Mixture-of-Transformers arkitektur) og Metas Transfusion-modeller pionerer enkelt-transformer arkitekturer der håndterer både autoregressive og diffusionsopgaver. Hos Bonega.ai er vi særligt begejstrede for implikationerne for realtids videobehandling - forestil dig at forlænge dit eksisterende materiale problemfrit med AI-genereret indhold der matcher perfekt i stil og bevægelse.
Den matematiske elegance af diffusions-transformere har løst fundamentale udfordringer i videogenerering: at bevare kohærens på tværs af tid mens man skalerer effektivt. Som en der har implementeret disse arkitekturer fra bunden, kan jeg fortælle dig at fornemmelsen er som at nå en falsk top, kun for at opdage at den sande top afslører en endnu større udsigt forude.
Værktøjerne og frameworks der dukker op omkring disse modeller - fra træningsfrie tilpasningsmetoder til edge-deployment strategier - antyder at vi går ind i en æra hvor høj-kvalitets videogenerering bliver lige så tilgængelig som billedgenerering var i 2023. Klatringen fortsætter, men vi har etableret en solid basecamp på en højde der tidligere blev anset for umulig at nå.
Var denne artikel nyttig?

Alexis
AI-ingeniørAI-ingeniør fra Lausanne, der kombinerer forskningsdybde med praktisk innovation. Deler sin tid mellem modelarkitekturer og alpine bjergtinder.
Relaterede artikler
Fortsæt med at udforske disse relaterede indlæg

Karakterkonsistens i AI-video: Hvordan modeller lærer at huske ansigter
Et teknisk dybdegående indblik i de arkitektoniske forbedringer, der gør det muligt for AI-videomodeller at bibeholde karakteridentitet på tværs af optagelser, fra opmærksomhedsmekanismer til identitetsbevarende indlejringer.

CraftStory Model 2.0: Hvordan tovejs-diffusion muliggør 5-minutters AI-videoer
Mens Sora 2 stopper ved 25 sekunder, har CraftStory netop lanceret et system, der genererer sammenhængende 5-minutters videoer. Hemmeligheden? Kørsel af flere diffusionsmotorer parallelt med tovejs-begrænsninger.

Meta SAM 3D: Fra flade billeder til komplette 3D-modeller på sekunder
Meta har netop udgivet SAM 3 og SAM 3D, der kan omdanne enkelte 2D-billeder til detaljerede 3D-mesh på sekunder. Vi forklarer, hvad det betyder for skabere og udviklere.