Meta Pixel
AlexisAlexis
6 min read
1021 orð

Dreifingaummyndari: Uppbyggingin sem er að gjörbylta myndmyndun árið 2025

Djúpdýfa í hvernig samruni dreifingalíkana og ummyndara hefur skapað hugmyndabreytingu í gervigreindarmyndmyndun og skoðað tæknilegar nýjungar á bak við Sora, Veo 3 og önnur byltingarkennda líkön.

Dreifingaummyndari: Uppbyggingin sem er að gjörbylta myndmyndun árið 2025

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Hækkun til toppseturs myndmyndunar hefur verið aðferðafræðileg klifur þar sem hver uppbyggingarnýjung byggir á þeirri síðustu. Árið 2025 höfum við náð því sem finnst eins og nýr tindur með dreifingaummyndurum—glæsileg sameining sem er í grundvallaratriðum að endurskipuleggja hvernig við hugsum um tímabundna myndun. Leyfðu mér að leiða þig í gegnum tæknilegt landslag sem hefur komið upp, eins og að sigla hryggirnir milli Dent Blanche og Matterhorn.

Uppbyggingarsamruninn

Hefðbundin myndmyndunarvarðveislulíkön glímdu við tvær grundvallarlegar áskoranir: viðhalda tímabundnu samræmi yfir ramma og stækka í lengri runur. Bylting kom þegar rannsakendur áttuðu sig á því að líkindafræðilegur rammi dreifingalíkana gæti verið bættur með athyglisaðferðum ummyndara—búið til það sem við köllum núna stöðudreifingaummyndara.

class DiffusionTransformer(nn.Module):
    def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
        super().__init__()
        self.patch_embed = SpacetimePatchEmbed(latent_dim)
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(
                d_model=latent_dim,
                nhead=num_heads,
                dim_feedforward=latent_dim * 4,
                norm_first=True  # Fyrir-stöðlun fyrir stöðugleika
            ),
            num_layers=num_layers
        )
        self.denoise_head = nn.Linear(latent_dim, latent_dim)
 
    def forward(self, x_t, timestep, conditioning=None):
        # Draga út rýmistímaflíkur - lykil nýjungin
        patches = self.patch_embed(x_t)
 
        # Bæta við staðsetningar- og tímainnsetningu
        patches = patches + self.get_pos_embed(patches.shape)
        patches = patches + self.get_time_embed(timestep)
 
        # Ummyndaravinnsla með QK-stöðlun
        features = self.transformer(patches)
 
        # Spá fyrir um hávaða fyrir dreifingu
        return self.denoise_head(features)

Glæsileikinn liggur í því að meðhöndla myndbönd ekki sem runu mynda heldur sem sameinað rýmistímarúmmál. Nálgun OpenAI með Sora vinnur úr myndböndum í bæði rýmislegum og tímabundnum víddum og býr til það sem þeir kalla "rýmistímaflíkur"—sambærilegt við hvernig Vision Transformers vinna úr myndum en útvíkkað í tímabundna vídd.

Stærðfræðileg grunnur: Fyrir utan einfalda hávaðafjarlægingu

Kjarna stærðfræðilega nýjungin útvíkkar hefðbundna dreifingaformúlun. Í stað hefðbundinnar nálgunar þar sem við módelum p_θ(x_{t-1}|x_t) starfa dreifingaummyndarar á þjöppuðum stöðuframsetningum:

Tapfall: L_DT = E[||ε - ε_θ(z_t, t, c)||²]

Þar sem z_t táknar stöðurýmistímakóðun og ummyndari ε_θ spáir fyrir um hávaða háð bæði tímastaðsetningu t og valfrjálsu skilyrðingu c. Mikilvæga framgangan er sú að Query-Key stöðlun stöðugar þetta ferli:

Athygli: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V

Þessi að því er virðist einfalda breyting—stöðla Q og K áður en athygli er reiknuð—bætir verulega þjálfunarstöðugleika í stórum stíl og gerir líkönum kleift að þjálfa skilvirkt á dreifðum kerfum.

Margþrepa hljóð- og myndmyndun: Veo 3 uppbyggin

Veo 3 frá Google DeepMind kynnti háþróaða margþrepa uppbyggingu—12 milljarða breytu ummyndari myndar lykil ramma á 2 sekúndna millibili á meðan 28 milljarða breytu U-Net milliþrepsfellir milli ramma og sérstakur 9 milljarða breytu hljóðmyndunarvél framleiðir samstillta hljóðlög. Hugsaðu um það eins og að fanga bæði sjónræna fegurð og hljóð snjóflóðs í gegnum samræmd sérhæfð kerfi.

class MultiStageVideoEncoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.keyframe_generator = KeyframeTransformer()  # 12B breytur
        self.frame_interpolator = InterpolationUNet()    # 28B breytur
        self.audio_synthesizer = AudioGenerator()        # 9B breytur
 
    def generate(self, prompt, duration=8):
        # Mynda lykil ramma fyrst
        keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
 
        # Milliþrepa millileggjara ramma
        full_video = self.frame_interpolator(keyframes)
 
        # Mynda samstillt hljóð
        audio = self.audio_synthesizer(full_video, prompt)
 
        return full_video, audio

Dreifingaferlið myndar báðar eiginleikarnar með tímabundinni samstillingu og nær varsamstillingarnákvæmni undir 120 millisekúndum fyrir samtal.

Núverandi líkanalandslag og afköst

Uppbyggingarmunur á milli núverandi líkana sýnir aðskildar nálganir við myndmyndun:

LíkanUppbygginUpplausnTímalengdLykileiginleikar
Sora 2Dreifingaummyndari1080pAllt að 60sRýmistímaflíkur, endursamsetningargeta
Gen-4Dreifingaummyndari720p10sViðskiptagæði, hröð myndun
Veo 3Margþrepa (12B+28B+9B)4K stuðningur8sSamstillt hljóð- og myndmyndun
Stable Video DiffusionOpinn uppspretta SVD720p4sSamfélagsdrifið, sérsniðið

Það sem er sérstaklega áhugavert er hvernig mismunandi líkön hámarka fyrir runulengd í gegnum ýmis athyglimynstur:

def hierarchical_attention(patches, hierarchy_levels=3):
    """
    Framsækin athygli fínstilling frá grófum til fínna
    Svipað og klifur: koma á grunnskála, síðan þrýsta til tindar
    """
    attention_maps = []
 
    for level in range(hierarchy_levels):
        window_size = 2 ** (hierarchy_levels - level)
        local_attn = compute_windowed_attention(patches, window_size)
        attention_maps.append(local_attn)
 
    # Sameina margkvarða athygli
    return torch.stack(attention_maps).mean(dim=0)

Hreyfimeðvituð uppbyggingarframfarir

Árið 2025 hefur orðið vitni að komu hreyfimeðvitaðra uppbygginga sem módelum sérstaklega tímabundna gangverk. Motion-Aware Generative (MoG) ramminn, sem lagt var til af rannsakendum frá Nanjing háskóla og Tencent, nýtir skýra hreyfingaleiðbeiningu úr flæðisbundnum milliþrepslíkönum til að auka myndmyndun. Ramminn samþættir hreyfingaleiðbeiningu á bæði stöðu- og eiginleikastigum og bætir verulega hreyfimeðvitund í stórum fyrirfram þjálfuðum myndmyndunar líkönum.

Þessi aðskilnaður á hreyfingu og útlitsvinnslu leyfir aukna stjórn á tímabundinni gangverki á meðan hún viðheldur myndrænu samræmi—ímyndaðu þér að geta stillt hraða snjóflóðs á meðan þú heldur hverjum snjókorn fullkomlega myndaðri.

Framleiðslubestun: Frá rannsóknarstofu til forrits

Raunveruleg sigur ársins 2025 er ekki bara bætt gæði—það er uppsetningu skilvirkni. TensorRT bestanir fyrir ummyndara-byggða dreifingalíkön ná verulegum hraðabótum:

# Hefðbundinn myndunarferli
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120)  # 5 sekúndur af myndbandi
 
# Bestaður ferli með TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
                                         batch_size=1,
                                         precision='fp16',
                                         use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120)  # Verulega hraðara

Breytuvirk fínstilling í gegnum LoRA hefur lýðræðisstyrkingu sérsníðingar. Lið geta núna aðlagað fyrirfram þjálfuð myndlíkön með aðeins 1% af upprunalegum breytum:

class VideoLoRA(nn.Module):
    def __init__(self, base_model, rank=16):
        super().__init__()
        self.base_model = base_model
 
        # Dæla inn lágstigi aðlögunum
        for name, module in base_model.named_modules():
            if isinstance(module, nn.Linear):
                # Þjálfa aðeins þessa litlu fylki
                setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
                setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))

Horfa fram á veginn: Næsta klifur

Samruni í átt að sameinuðum uppbyggingum heldur áfram. BAGEL líkan ByteDance (7B virkar breytur með Mixture-of-Transformers uppbyggingu) og Transfusion líkön Meta brautryðja stökum ummyndarauppbyggingum sem höndla bæði sjálfvirka aðhvarf og dreifingarverk. Hjá Bonega.ai erum við sérstaklega spennt fyrir áhrifunum fyrir rauntímamyndbandsvinnslu—ímyndaðu þér að lengja núverandi upptöku þína hnökralaust með gervigreindarmynduðu efni sem passar fullkomlega í stíl og hreyfingu.

Stærðfræðilegur glæsileiki dreifingaummyndara hefur leyst grundvallaráskoranir í myndmyndun: viðhalda samhæfni yfir tíma á meðan stækkað er skilvirkt. Sem einhver sem hefur innleitt þessar uppbyggingar frá grunni get ég sagt þér að tilfinningin er eins og að ná fölsku tindi aðeins til að uppgötva að sanni tindurinn opinberar enn glæsilegri útsýni framundan.

Verkfæri og rammar sem koma upp í kringum þessi líkön—frá þjálfunarlausum aðlögunaraðferðum til brúna-uppsetningaraðferða—benda til þess að við erum að fara inn í tímabil þar sem hágæða myndmyndun verður jafn aðgengileg og myndmyndun var árið 2023. Klifurinn heldur áfram en við höfum komið á traustum grunnbúðum við hæð sem áður var talin óaðgengileg.

Var þessi grein gagnleg?

Alexis

Alexis

Gervigreindartæknir

Gervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Dreifingaummyndari: Uppbyggingin sem er að gjörbylta myndmyndun árið 2025