Dreifingaummyndari: Uppbyggingin sem er að gjörbylta myndmyndun árið 2025
Djúpdýfa í hvernig samruni dreifingalíkana og ummyndara hefur skapað hugmyndabreytingu í gervigreindarmyndmyndun og skoðað tæknilegar nýjungar á bak við Sora, Veo 3 og önnur byltingarkennda líkön.

Hækkun til toppseturs myndmyndunar hefur verið aðferðafræðileg klifur þar sem hver uppbyggingarnýjung byggir á þeirri síðustu. Árið 2025 höfum við náð því sem finnst eins og nýr tindur með dreifingaummyndurum—glæsileg sameining sem er í grundvallaratriðum að endurskipuleggja hvernig við hugsum um tímabundna myndun. Leyfðu mér að leiða þig í gegnum tæknilegt landslag sem hefur komið upp, eins og að sigla hryggirnir milli Dent Blanche og Matterhorn.
Uppbyggingarsamruninn
Hefðbundin myndmyndunarvarðveislulíkön glímdu við tvær grundvallarlegar áskoranir: viðhalda tímabundnu samræmi yfir ramma og stækka í lengri runur. Bylting kom þegar rannsakendur áttuðu sig á því að líkindafræðilegur rammi dreifingalíkana gæti verið bættur með athyglisaðferðum ummyndara—búið til það sem við köllum núna stöðudreifingaummyndara.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Fyrir-stöðlun fyrir stöðugleika
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Draga út rýmistímaflíkur - lykil nýjungin
patches = self.patch_embed(x_t)
# Bæta við staðsetningar- og tímainnsetningu
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Ummyndaravinnsla með QK-stöðlun
features = self.transformer(patches)
# Spá fyrir um hávaða fyrir dreifingu
return self.denoise_head(features)Glæsileikinn liggur í því að meðhöndla myndbönd ekki sem runu mynda heldur sem sameinað rýmistímarúmmál. Nálgun OpenAI með Sora vinnur úr myndböndum í bæði rýmislegum og tímabundnum víddum og býr til það sem þeir kalla "rýmistímaflíkur"—sambærilegt við hvernig Vision Transformers vinna úr myndum en útvíkkað í tímabundna vídd.
Stærðfræðileg grunnur: Fyrir utan einfalda hávaðafjarlægingu
Kjarna stærðfræðilega nýjungin útvíkkar hefðbundna dreifingaformúlun. Í stað hefðbundinnar nálgunar þar sem við módelum p_θ(x_{t-1}|x_t) starfa dreifingaummyndarar á þjöppuðum stöðuframsetningum:
Tapfall: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
Þar sem z_t táknar stöðurýmistímakóðun og ummyndari ε_θ spáir fyrir um hávaða háð bæði tímastaðsetningu t og valfrjálsu skilyrðingu c. Mikilvæga framgangan er sú að Query-Key stöðlun stöðugar þetta ferli:
Athygli: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
Þessi að því er virðist einfalda breyting—stöðla Q og K áður en athygli er reiknuð—bætir verulega þjálfunarstöðugleika í stórum stíl og gerir líkönum kleift að þjálfa skilvirkt á dreifðum kerfum.
Margþrepa hljóð- og myndmyndun: Veo 3 uppbyggin
Veo 3 frá Google DeepMind kynnti háþróaða margþrepa uppbyggingu—12 milljarða breytu ummyndari myndar lykil ramma á 2 sekúndna millibili á meðan 28 milljarða breytu U-Net milliþrepsfellir milli ramma og sérstakur 9 milljarða breytu hljóðmyndunarvél framleiðir samstillta hljóðlög. Hugsaðu um það eins og að fanga bæði sjónræna fegurð og hljóð snjóflóðs í gegnum samræmd sérhæfð kerfi.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B breytur
self.frame_interpolator = InterpolationUNet() # 28B breytur
self.audio_synthesizer = AudioGenerator() # 9B breytur
def generate(self, prompt, duration=8):
# Mynda lykil ramma fyrst
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Milliþrepa millileggjara ramma
full_video = self.frame_interpolator(keyframes)
# Mynda samstillt hljóð
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioDreifingaferlið myndar báðar eiginleikarnar með tímabundinni samstillingu og nær varsamstillingarnákvæmni undir 120 millisekúndum fyrir samtal.
Núverandi líkanalandslag og afköst
Uppbyggingarmunur á milli núverandi líkana sýnir aðskildar nálganir við myndmyndun:
| Líkan | Uppbyggin | Upplausn | Tímalengd | Lykileiginleikar |
|---|---|---|---|---|
| Sora 2 | Dreifingaummyndari | 1080p | Allt að 60s | Rýmistímaflíkur, endursamsetningargeta |
| Gen-4 | Dreifingaummyndari | 720p | 10s | Viðskiptagæði, hröð myndun |
| Veo 3 | Margþrepa (12B+28B+9B) | 4K stuðningur | 8s | Samstillt hljóð- og myndmyndun |
| Stable Video Diffusion | Opinn uppspretta SVD | 720p | 4s | Samfélagsdrifið, sérsniðið |
Það sem er sérstaklega áhugavert er hvernig mismunandi líkön hámarka fyrir runulengd í gegnum ýmis athyglimynstur:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Framsækin athygli fínstilling frá grófum til fínna
Svipað og klifur: koma á grunnskála, síðan þrýsta til tindar
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Sameina margkvarða athygli
return torch.stack(attention_maps).mean(dim=0)Hreyfimeðvituð uppbyggingarframfarir
Árið 2025 hefur orðið vitni að komu hreyfimeðvitaðra uppbygginga sem módelum sérstaklega tímabundna gangverk. Motion-Aware Generative (MoG) ramminn, sem lagt var til af rannsakendum frá Nanjing háskóla og Tencent, nýtir skýra hreyfingaleiðbeiningu úr flæðisbundnum milliþrepslíkönum til að auka myndmyndun. Ramminn samþættir hreyfingaleiðbeiningu á bæði stöðu- og eiginleikastigum og bætir verulega hreyfimeðvitund í stórum fyrirfram þjálfuðum myndmyndunar líkönum.
Þessi aðskilnaður á hreyfingu og útlitsvinnslu leyfir aukna stjórn á tímabundinni gangverki á meðan hún viðheldur myndrænu samræmi—ímyndaðu þér að geta stillt hraða snjóflóðs á meðan þú heldur hverjum snjókorn fullkomlega myndaðri.
Framleiðslubestun: Frá rannsóknarstofu til forrits
Raunveruleg sigur ársins 2025 er ekki bara bætt gæði—það er uppsetningu skilvirkni. TensorRT bestanir fyrir ummyndara-byggða dreifingalíkön ná verulegum hraðabótum:
# Hefðbundinn myndunarferli
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 sekúndur af myndbandi
# Bestaður ferli með TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # Verulega hraðaraBreytuvirk fínstilling í gegnum LoRA hefur lýðræðisstyrkingu sérsníðingar. Lið geta núna aðlagað fyrirfram þjálfuð myndlíkön með aðeins 1% af upprunalegum breytum:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Dæla inn lágstigi aðlögunum
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Þjálfa aðeins þessa litlu fylki
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))Horfa fram á veginn: Næsta klifur
Samruni í átt að sameinuðum uppbyggingum heldur áfram. BAGEL líkan ByteDance (7B virkar breytur með Mixture-of-Transformers uppbyggingu) og Transfusion líkön Meta brautryðja stökum ummyndarauppbyggingum sem höndla bæði sjálfvirka aðhvarf og dreifingarverk. Hjá Bonega.ai erum við sérstaklega spennt fyrir áhrifunum fyrir rauntímamyndbandsvinnslu—ímyndaðu þér að lengja núverandi upptöku þína hnökralaust með gervigreindarmynduðu efni sem passar fullkomlega í stíl og hreyfingu.
Stærðfræðilegur glæsileiki dreifingaummyndara hefur leyst grundvallaráskoranir í myndmyndun: viðhalda samhæfni yfir tíma á meðan stækkað er skilvirkt. Sem einhver sem hefur innleitt þessar uppbyggingar frá grunni get ég sagt þér að tilfinningin er eins og að ná fölsku tindi aðeins til að uppgötva að sanni tindurinn opinberar enn glæsilegri útsýni framundan.
Verkfæri og rammar sem koma upp í kringum þessi líkön—frá þjálfunarlausum aðlögunaraðferðum til brúna-uppsetningaraðferða—benda til þess að við erum að fara inn í tímabil þar sem hágæða myndmyndun verður jafn aðgengileg og myndmyndun var árið 2023. Klifurinn heldur áfram en við höfum komið á traustum grunnbúðum við hæð sem áður var talin óaðgengileg.
Var þessi grein gagnleg?

Alexis
GervigreindartæknirGervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.
Tengdar greinar
Haltu áfram að kanna með þessum tengdu færslum

Stöðugleiki persóna í gerviefnaaflfræðilegum myndböndum: Hvernig að halda andlitum stöðugum
Tæknileg greining á arkitektúrbreytingum sem gera kleift að viðhalda persónuleika yfir klipp, frá athygliskerfi til auðkenna sem varðveita persónuna.

CraftStory Model 2.0: Hvernig tvístefnu dreifing opnar fyrir 5 mínútna gervigreindarmyndbönd
Á meðan Sora 2 nær aðeins 25 sekúndum, hefur CraftStory gefið út kerfi sem býr til samhengjandi 5 mínútna myndbönd. Leyndarmálið? Að keyra margar dreifivélar samhliða með tvístefnu takmörkunum.

Samhliða dreifing: Hvernig gervigreindarmyndmyndun brýtur gæða- og upplausnarmörk
Könnun á samhliða dreifingauppbyggingum sem gera ofurhá upplausnar myndmyndun og flóknar margþátta samsetningar kleyfar. Djúpdýfa í tæknilegu byltinguna sem er að endurskilgreina gervigreindarmyndsamsetning.