Diffusjonstransformere: Arkitekturen som revolusjonerer videogenerering i 2025
Dypdykk i hvordan konvergensen av diffusjonsmodeller og transformere har skapt et paradigmeskifte i AI-videogenerering, og utforsker de tekniske innovasjonene bak Sora, Veo 3 og andre gjennombruddsmodeller.

Oppgangen til toppen av videogenerering har vært en metodisk klatring, hvor hver arkitektonisk innovasjon bygger på den forrige. I 2025 har vi nådd det som føles som en ny topp med diffusjonstransformere—en elegant fusjon som fundamentalt omformer hvordan vi tenker på temporal generering. La meg guide deg gjennom det tekniske landskapet som har dukket opp, omtrent som å navigere rygglinjene mellom Dent Blanche og Matterhorn.
Den arkitektoniske konvergensen
Tradisjonelle videogenererings-modeller slet med to fundamentale utfordringer: opprettholde temporal konsistens på tvers av bilder og skalere til lengre sekvenser. Gjennombruddet kom da forskere innså at diffusjonsmodellers probabilistiske rammeverk kunne forbedres med transformeres oppmerksomhetsmekanismer—og skapte det vi nå kaller latente diffusjonstransformere.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalisering for stabilitet
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Ekstraher romtids-patches - nøkkelinnovasjonen
patches = self.patch_embed(x_t)
# Legg til posisjonelle og temporale innbygg
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transformer-prosessering med QK-normalisering
features = self.transformer(patches)
# Forutsi støy for diffusjon
return self.denoise_head(features)Elegansen ligger i å behandle video ikke som en sekvens av bilder, men som et enhetlig romtidsvolum. OpenAIs tilnærming med Sora prosesserer videoer på tvers av både romlige og temporale dimensjoner, og skaper det de kaller "romtids-patches"—analogt med hvordan Vision Transformers prosesserer bilder, men utvidet til den temporale dimensjonen.
Matematiske fundamenter: Utover enkel støyfjerning
Den sentrale matematiske innovasjonen utvider standard diffusjons-formulering. I stedet for den tradisjonelle tilnærmingen der vi modellerer p_θ(x_{t-1}|x_t), opererer diffusjonstransformere på komprimerte latente representasjoner:
Tapsfunksjon: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Hvor z_t representerer den latente romtidskodingen, og transformeren ε_θ forutsier støy betinget på både temporal posisjon t og valgfri betinging c. Den kritiske forbedringen er at Query-Key-normalisering stabiliserer denne prosessen:
Oppmerksomhet: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Denne tilsynelatende enkle modifikasjonen—normalisering av Q og K før beregning av oppmerksomhet—forbedrer dramatisk treningsstabiliteten i stor skala, og gjør det mulig for modeller å trene effektivt på distribuerte systemer.
Multitrinns audiovisuell generering: Veo 3-arkitekturen
Google DeepMinds Veo 3 introduserte en sofistikert multitrinns-arkitektur—en 12-milliarder-parameter transformer genererer nøkkelbilder med 2-sekunders intervaller, mens en 28-milliarder-parameter U-Net interpolerer mellombilder, og en separat 9-milliarder-parameter lydsyntese-motor produserer synkroniserte lydspor. Tenk på det som å fange både den visuelle skjønnheten og lyden av et snøskred gjennom koordinerte spesialiserte systemer.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Generer nøkkelbilder først
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpoler mellombilder
full_video = self.frame_interpolator(keyframes)
# Generer synkronisert lyd
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioDiffusjonsprosessen genererer begge modaliteter med temporal synkronisering, og oppnår leppesynkroniseringsnøyaktighet på mindre enn 120 millisekunder for dialog.
Nåværende modelllandskap og ytelse
De arkitektoniske forskjellene mellom nåværende modeller viser distinkte tilnærminger til videogenerering:
| Modell | Arkitektur | Oppløsning | Varighet | Nøkkelfunksjoner |
|---|---|---|---|---|
| Sora 2 | Diffusjonstransformer | 1080p | Opptil 60s | Romtids-patches, remix-kapasiteter |
| Gen-4 | Diffusjonstransformer | 720p | 10s | Kommersiell kvalitet, rask generering |
| Veo 3 | Multitrinns (12B+28B+9B) | 4K støttet | 8s | Synkronisert audiovisuell generering |
| Stable Video Diffusion | Åpen kildekode SVD | 720p | 4s | Fellesskapsdrevet, tilpassbar |
Det som er spesielt interessant er hvordan forskjellige modeller optimaliserer for sekvenslengde gjennom ulike oppmerksomhetsmønstre:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progressiv oppmerksomhetsfinpussing fra grov til fin
Ligner på klatring: etablere basecamp, deretter skyve til topp
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Kombiner multiskala-oppmerksomhet
return torch.stack(attention_maps).mean(dim=0)Bevegelsesbevisste arkitektur-fremskritt
2025 har sett fremveksten av bevegelsesbevisste arkitekturer som eksplisitt modellerer temporal dynamikk. Motion-Aware Generative (MoG)-rammeverket, foreslått av forskere fra Nanjing University og Tencent, utnytter eksplisitt beveggelsesveiledning fra flytbaserte interpolasjonsmodeller for å forbedre videogenerering. Rammeverket integrerer beveggelsesveiledning på både latent og funksjonsnivå, og forbedrer betydelig beveggelsesbevisstheten i storstilte forhånds-trente videogenererings-modeller.
Denne separasjonen av bevegelse og utseendeprosessering gir mulighet for forbedret kontroll over temporal dynamikk samtidig som visuell konsistens opprettholdes—forestill deg å kunne justere hastigheten på et snøskred samtidig som du holder hvert snøfnugg perfekt gjengitt.
Produksjonsoptimalisering: Fra laboratorium til anvendelse
Den virkelige triumfen i 2025 er ikke bare forbedret kvalitet—det er distribueringseffektivitet. TensorRT-optimaliseringer for transformerbaserte diffusjonsmodeller oppnår betydelige hastighetsforbedringer:
# Standard genereringspipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 sekunder med video
# Optimalisert pipeline med TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Betydelig raskereParametereffektiv finjustering gjennom LoRA har demokratisert tilpasning. Team kan nå tilpasse forhånds-trente videomodeller med bare 1% av de opprinnelige parameterne:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Injiser lavrangs-tilpasninger
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Tren bare disse små matrisene
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Fremover: Den neste oppstigning
Konvergensen mot enhetlige arkitekturer fortsetter. ByteDances BAGEL-modell (7B aktive parametere med Mixture-of-Transformers-arkitektur) og Metas Transfusion-modeller er pionerer for enkelt-transformer-arkitekturer som håndterer både autoregressive og diffusjonsoppgaver. Hos Bonega.ai er vi spesielt begeistret for implikasjonene for sanntids-videoprosessering—forestill deg å utvide eksisterende opptak sømløst med AI-generert innhold som matcher perfekt i stil og bevegelse.
Den matematiske elegansen til diffusjonstransformere har løst fundamentale utfordringer i videogenerering: opprettholde koherens over tid samtidig som man skalerer effektivt. Som noen som har implementert disse arkitekturene fra bunnen av, kan jeg fortelle deg at følelsen er som å nå en falsk topp, bare for å oppdage at den sanne toppen avslører en enda mer storslått utsikt fremover.
Verktøyene og rammeverkene som dukker opp rundt disse modellene—fra treningsfrie tilpasningsmetoder til kant-distribusjonsstrategier—antyder at vi kommer inn i en æra hvor høykvalitets videogenerering blir like tilgjengelig som bildegenerering var i 2023. Klatringen fortsetter, men vi har etablert en solid basecamp på en høyde som tidligere ble ansett som uoppnåelig.
Var denne artikkelen nyttig?

Alexis
KI-ingeniørKI-ingeniør fra Lausanne som kombinerer forskningsdybde med praktisk innovasjon. Deler tiden mellom modellarkitekturer og alpine topper.
Relaterte artikler
Fortsett å utforske med disse relaterte innleggene

Karakterkonsistens i AI-video: Hvordan modeller lærer å huske ansikter
En teknisk gjennomgang av arkitekturinnovasjoner som gjør det mulig for AI-videomodeller å opprettholde karakteridentitet over hele opptaket, fra oppmerksomhetsmekanismer til identitetsbevarende embeddings.

CraftStory Model 2.0: Hvordan Bidirectional Diffusion Låser Opp 5-Minutters AI-Videoer
Mens Sora 2 stopper på 25 sekunder, har CraftStory nettopp lansert et system som genererer sammenhengende 5-minutters videoer. Hemmeligheten? Å kjøre flere diffusion-motorer parallelt med toveisbegrensninger.

Meta SAM 3D: Fra Flate Bilder til Fullstendige 3D-Modeller på Sekunder
Meta har lansert SAM 3 og SAM 3D, som gjør om enkle 2D-bilder til detaljerte 3D-mesher på sekunder. Vi forklarer hva dette betyr for skapere og utviklere.