Diffúziós transzformerek: Az architektúra, amely forradalmasítja a videó generálást 2025-ben
Mélymerülés abba, hogyan hozta létre a diffúziós modellek és transzformerek konvergenciája a paradigmaváltást az AI videó generálásban, felfedezve a Sora, Veo 3 és más áttörő modellek mögött meghúzódó technikai innovációkat.

A videógenerálás csúcsára való feljutás módszeres mászás volt, minden architektonikus innováció az előzőre épül. 2025-ben elértünk egy új csúcsot a diffúziós transzformerekkel — egy elegáns fúzióval, amely alapvetően formálja át, hogyan gondolkodunk az időbeli generálásról. Hadd vezessem végig a technikai tájon, amely megjelent, hasonlóan a Dent Blanche és a Matterhorn közötti gerinceken való navigáláshoz.
Az architektonikus konvergencia
A hagyományos videógeneráló modellek két alapvető kihívással küzdöttek: az időbeli konzisztencia fenntartásával a képkockák között és a hosszabb szekvenciákra való skálázással. Az áttörés akkor jött, amikor a kutatók rájöttek, hogy a diffúziós modellek probabilisztikus keretrendszere javítható a transzformerek figyelmi mechanizmusával — létrehozva azt, amit ma latens diffúziós transzformereknek nevezünk.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Előnormalizálás a stabilitásért
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Téridő foltok kivonása - a kulcs innováció
patches = self.patch_embed(x_t)
# Pozícionális és időbeli beágyazások hozzáadása
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transzformer feldolgozás QK-normalizálással
features = self.transformer(patches)
# Zaj előrejelzése diffúzióhoz
return self.denoise_head(features)Az elegancia abban rejlik, hogy a videót nem képek sorozataként, hanem egységes téridő térfogatként kezeli. Az OpenAI megközelítése a Sora-val a videókat térbeli és időbeli dimenziókban egyaránt feldolgozza, létrehozva amit "téridő foltoknak" hívnak — analóg azzal, ahogy a Vision Transformerek képeket dolgoznak fel, de az időbeli dimenzióba kiterjesztve.
Matematikai alapok: Az egyszerű zajtalanítás túl
Az alapvető matematikai innováció kiterjeszti a standard diffúziós formulációt. Ahelyett, hogy a hagyományos megközelítést követnénk, ahol p_θ(x_{t-1}|x_t)-t modellezünk, a diffúziós transzformerek tömörített latens reprezentációkon működnek:
Veszteség funkció: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Ahol z_t a latens téridő kódolást jelenti, és a ε_θ transzformer zajt jelez előre időbeli pozíció t és opcionális kondicionálás c alapján. A kritikus előrelépés, hogy a Query-Key normalizálás stabilizálja ezt a folyamatot:
Figyelem: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Ez az apparensen egyszerű módosítás — Q és K normalizálása a figyelem kiszámítása előtt — drámaian javítja a tanítási stabilitást nagy léptékben, lehetővé téve a modelleknek a hatékony tanítást elosztott rendszereken.
Többlépcsős audiovizuális generálás: A Veo 3 architektúra
A Google DeepMind Veo 3 kifinomult többlépcsős architektúrát vezetett be — egy 12 milliárd paraméteres transzformer kulcsképkockákat generál 2 másodperces intervallumokban, míg egy 28 milliárd paraméteres U-Net interpolálja a közbenső képkockákat, és egy különálló 9 milliárd paraméteres audió szintézis motor szinkronizált hangfelvételt készít. Gondoljon rá úgy, mint egy lavina vizuális szépségének és hangjának egyidejű rögzítésére koordinált specializált rendszereken keresztül.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Kulcsképkockák generálása először
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Közbenső képkockák interpolálása
full_video = self.frame_interpolator(keyframes)
# Szinkronizált audió generálása
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioA diffúziós folyamat mindkét modalitást időbeli szinkronizálással generálja, 120 milliszekundumon aluli ajakszinkron pontosságot érve el párbeszédhez.
Jelenlegi modell táj és teljesítmény
Az architektonikus különbségek a jelenlegi modellek között különböző megközelítéseket mutatnak a videó generáláshoz:
| Modell | Architektúra | Felbontás | Időtartam | Kulcs jellemzők |
|---|---|---|---|---|
| Sora 2 | Diffúziós transzformer | 1080p | Akár 60s | Téridő foltok, remix képességek |
| Gen-4 | Diffúziós transzformer | 720p | 10s | Kereskedelmi minőség, gyors generálás |
| Veo 3 | Többlépcsős (12B+28B+9B) | 4K támogatott | 8s | Szinkronizált audiovizuális generálás |
| Stable Video Diffusion | Nyílt forráskódú SVD | 720p | 4s | Közösség-vezérelt, személyre szabható |
Különösen érdekes, hogyan optimalizálnak a különböző modellek a szekvencia hosszra különféle figyelmi mintákon keresztül:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progresszív figyelmi finomítás durvatól finoméig
Hasonló a mászáshoz: alaptábor létrehozása, aztán csúcs felé
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Több léptékű figyelem kombinálása
return torch.stack(attention_maps).mean(dim=0)Mozgás-tudatos architektúra előrelépések
2025 látta a mozgás-tudatos architektúrák megjelenését, amelyek kifejezetten modellezik az időbeli dinamikát. A Motion-Aware Generative (MoG) keretrendszer, amelyet Nanjing Egyetem és Tencent kutatói javasoltak, explicit mozgás útmutatást használ áramlás-alapú interpolációs modellekből a videó generálás javításához. A keretrendszer mozgás útmutatást integrál latens és jellemző szinteken, jelentősen javítva a mozgás tudatosságot nagy léptékű előre tanított videó generáló modellekben.
Ez a mozgás és megjelenés feldolgozás szétválasztása lehetővé teszi a fokozott kontrollt az időbeli dinamikák felett, miközben fenntartja a vizuális konzisztenciát — képzelje el, képes beállítani egy lavina sebességét, miközben minden hópehely tökéletesen renderelve marad.
Produkciós optimalizálás: Laboratóriumtól az alkalmazásig
2025 igazi diadala nem csak a javított minőség — hanem a telepítési hatékonyság. A TensorRT optimalizálások transzformer-alapú diffúziós modellekhez jelentős gyorsulást érnek el:
# Standard generálási pipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 másodperc videó
# Optimalizált pipeline TensorRT-vel
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Jelentősen gyorsabbA paraméter-hatékony finomhangolás LoRA-n keresztül demokratizálta a testreszabást. A csapatok most adaptálhatnak előre tanított videó modelleket az eredeti paraméterek mindössze 1%-ával:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Alacsony rangú adaptációk injektálása
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Csak ezeket a kis mátrixokat tanítsa
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Előre tekintve: A következő emelkedés
Az egységes architektúrák felé való konvergencia folytatódik. A ByteDance BAGEL modellje (7B aktív paraméter Mixture-of-Transformers architektúrával) és a Meta Transfusion modelljei úttörők az autoregresszív és diffúziós feladatokat egyaránt kezelő egyetlen transzformer architektúrákban. A Bonega.ai-nál különösen izgatottak vagyunk a valós idejű videó feldolgozás következményei miatt — képzelje el a meglévő felvételek zökkenőmentes bővítését AI-generált tartalommal, amely tökéletesen illeszkedik stílusban és mozgásban.
A diffúziós transzformerek matematikai eleganciája megoldotta a videó generálás alapvető kihívásait: a koherencia fenntartását időben, miközben hatékonyan skálázódik. Mint valaki, aki ezeket az architektúrákat a semmiből implementálta, elmondhatom, hogy az érzés olyan, mint elérni egy hamis csúcsot, csak hogy felfedezzük, az igazi csúcs még nagyobb kilátást tár fel előre.
Az ezek a modellek körül megjelenő eszközök és keretrendszerek — tanítás-mentes adaptációs módszerektől perem-telepítési stratégiákig — azt sugallják, hogy olyan korszakba lépünk, ahol a magas minőségű videó generálás olyan hozzáférhetővé válik, mint a képgenerálás 2023-ban volt. A mászás folytatódik, de szilárd alaptábort hoztunk létre olyan magasságban, amelyet korábban elérhetetlennek gondoltak.
Hasznos volt ez a cikk?

Alexis
AI MérnökAI mérnök Lausanne-ból, aki a kutatás mélységét gyakorlati innovációval ötvözi. Idejét modell architektúrák és alpesi csúcsok között osztja meg.
Kapcsolódó cikkek
Fedezd fel ezeket a kapcsolódó bejegyzéseket

CraftStory Model 2.0: Hogyan tesz lehetővé a bidirekcíonális diffúzió 5 perces AI videókat
Míg a Sora 2 maximum 25 másodpercnél áll meg, a CraftStory most dobott egy olyan rendszert, ami koherens 5 perces videókat generál. A titok? Több diffúziós motor párhuzamos futtatása bidirekcíonális korlátozásokkal.

Párhuzamosított diffúzió: Hogyan töri át az AI képgenerálás a minőségi és felbontási korlátokat
A párhuzamosított diffúziós architektúrák felfedezése, amelyek ultra-nagy felbontású képgenerálást és komplex többelemes kompozíciókat tesznek lehetővé. Mélymerülés a technikai áttörésben, amely újradefiniálja az AI kép szintézist.

Veo 3.1 Ingredients to Video: Teljes útmutató a képből videóra történő generáláshoz
A Google közvetlenül a YouTube Shortsba és a YouTube Create alkalmazásba hozta az Ingredients to Video funkciót, amely lehetővé teszi az alkotók számára, hogy akár három képet koherens függőleges videóvá alakítsanak natív 4K upscalinggal.