Karakterkonzisztencia az AI videóban: Hogyan tanulják meg a modellek az arcok megjegyzésé

Az AI videógenerálás egyik legmakacsabb kihívása volt a karakterkonzisztencia fenntartása a különböző jeleneteken keresztül. Bármelyik filmesnek mondhatjuk: a történet összeomlik az a pillanat, amikor a főhős arca finoman megváltozik a vágások között. 2025-ben végre láttunk olyan modelleket, amelyek megoldották ezt a problémát architekturális innovációkkal, amelyek olyan eleganciát sugároznak, mint egy jó megtervezett út egy nehéz csúcs felé. Végigvezetem, hogy a modern videómodellek hogyan tanulják meg az arcok megjegyzésé.

A konzisztencia kihívása

A hagyományos diffúziómodellek minden képkockát valószínűségi mintavételezéssel generálnak. Ez varianciát vezet be – hasznos a sokféleséghez, problematikus az identitáshoz. Egy 10 másodperces videó generálásakor 24 fps-nél a modell 240 egymást követő döntést hoz, mindegyiknek lehetősége van az eltolódásra.

# Az alapvető probléma: minden zajmentesítési lépés variációt vezet be
def denoise_step(x_t, model, t):
    noise_pred = model(x_t, t)
    # Ez a mintavételezés sztochaszticitást vezet be
    x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
    return x_t_minus_1  # A kis eltérések felhalmozódnak a képkockákon

A korai videómodellek, mint a Gen-1 és a Pika 1.0 ezzel világosan küzdöttek. A karakterek megváltoztak a megjelenésben, alig öregedtek a jeleneteken keresztül, vagy nem konzisztens vonásokat fejlesztettek – amit a szakemberek "identitás sodródásnak" neveztek. Az áttörés akkor jött, amikor a karakterkonzisztenciát nem utófeldolgozásnak, hanem architekturális problémának kezelték.

Identitásmegőrző beágyazások: Az alapzat

Az első nagy újítás az volt, hogy dedikált identitás beágyazásokat vezettünk be, amelyek megmaradnak a generálási folyamat során. Az csak szöveg feltételezésére támaszkodás helyett a modellek most explicit identitás tokeneket tartanak:

class IdentityEncoder(nn.Module):
    def __init__(self, embed_dim=768):
        super().__init__()
        self.face_encoder = FaceRecognitionBackbone()  # Előre betanított arc modell
        self.projection = nn.Linear(512, embed_dim)
        self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
 
    def encode_identity(self, reference_frame):
        # Identitás jellemzők kinyerése a referenciaképből
        face_features = self.face_encoder(reference_frame)
        identity_embed = self.projection(face_features)
 
        # Kereszt-attenciós kapcsolat az osztályozott identitás tokenekkel
        identity_tokens = self.cross_attention(
            query=self.identity_bank,
            key=identity_embed,
            value=identity_embed
        )
        return identity_tokens

Ezeket az identitás tokeneket ezután a diffúziófolyamat minden zajmentesítési lépésében injektálják, amely olyan "horgonypontok" teremtnek – mint az alpista biztosítás egy mászóútvonalon, amelyhez mindig vissza tudsz kapaszkodni, amikor a feltételek bizonytalan.

Képkocka közötti attenciók: Időbeli identitás tanulása

A második áttörés az volt az architektura: a modellek most explicit módon figyelnek a képkockák között, amikor döntéseket hoznak a karakter megjelenéséről. Diffúzió transzformerek természetesen támogatják ezt a térben-időbeli foltos feldolgozáson keresztül, de a konzisztenciára összpontosított modellek továbblépnek.

Kulcsfontosságú újítás: Dedikált identitás attenciós rétegek, amelyek kifejezetten az arcterületekre figyelnek az időbeli dimenzión keresztül:

class IdentityAwareAttention(nn.Module):
    def __init__(self, dim, num_heads=8):
        super().__init__()
        self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
        self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
        self.identity_attn = nn.MultiheadAttention(dim, num_heads)
 
    def forward(self, x, identity_tokens, face_masks):
        # Standard szabad attenció a képkockákon belül
        x = self.spatial_attn(x, x, x)[0] + x
 
        # Időbeli attenciók a képkockák között
        x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
        x = self.temporal_attn(x, x, x)[0] + x
        x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
 
        # Identitás-specifikus attenciók az arcterületeket használva
        face_tokens = x * face_masks.unsqueeze(-1)
        x = self.identity_attn(
            query=x,
            key=identity_tokens,
            value=identity_tokens
        )[0] + x
 
        return x

Ez a hármas attenciós mechanizmus – szabad, időbeli és identitás-specifikus – lehetővé teszi a modellnek, hogy megjelenési döntéseket hozzon, miközben kifejezetten hivatkozik az etablált identitásra és az előző képkockákra.

Az aktuális modell megközelítések összehasonlítása

A nagyobb videógenerálási platformok a karakterkonzisztenciát eltérő módon valósítottak meg:

Modell	Megközelítés	Konzisztencia módszer	Hatékonyság
Sora 2	Térben-időbeli foltok	Implicit hosszú kontextusból	Jó rövid klipek számára
Veo 3	Többfokozatú generálás	Kulcsbildes lehorgonyzás	Erős embermotion esetén
Gen-4.5	Referencia feltételezés	Explicit identitás injekció	Legjobb osztályú konzisztencia
Kling 1.6	Arc-tudatos attenciók	Dedikált arckövetés	Erős közelképek esetén

A Runway Gen-4.5 különleges említésre érdemesült. Az ő megközelítésük a referencia képfeltételezést kombinálja azzal, amit ők "identitás záraknak" neveznek – osztályított tokenek, amelyeket a modell akkor is meg kell őrizzen, ha más generálási döntéseket hoz. Ez az architekturális választás valószínűleg hozzájárult a Video Arena dominanciához.

A referencia képkocka paradigma

2025-ben jelentős lépés volt a referencia-feltételezett generálás felé való fordulat. Ahelyett, hogy karaktereket tisztán szöveg leírásokból generálnánk, a modellek mostantól elfogadnak referencia képeket, amelyek a kanonikus megjelenést meghatározzák:

class ReferenceConditionedGenerator:
    def __init__(self, base_model, identity_encoder):
        self.model = base_model
        self.identity_encoder = identity_encoder
 
    def generate(self, prompt, reference_images, num_frames=120):
        # Identitás kódolása referencia képekből
        identity_embeds = []
        for ref in reference_images:
            identity_embeds.append(self.identity_encoder(ref))
 
        # Több referencia összeolvasztása erős identitáshoz
        identity_tokens = torch.stack(identity_embeds).mean(dim=0)
 
        # Generálás identitás feltételezéssel
        video = self.model.generate(
            prompt=prompt,
            num_frames=num_frames,
            cross_attention_kwargs={
                "identity_tokens": identity_tokens,
                "identity_strength": 0.8  # A konzisztencia és kreativitás közötti egyensúly
            }
        )
        return video

Az identity_strength paraméter egy fontos kompromisszumot képvisel. Ha túl magas, a modell merevvé válik, nem képes természetes expresszió variációra. Ha túl alacsony, az eltolódás visszatér. A pont megtalálása – jellemzően körül 0,7-0,85 – részben művészet, részben tudomány.

Veszteségfüggvények az identitásmegőrzéshez

Ezek a rendszerek betanítása olyan speciális veszteségfüggvényeket igényel, amelyek explicit módon büntetik az identitás sodródást:

Identitásmegőrzési veszteség:

L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²

Ahol f az egy előre betanított arc felismerő encoder, G a generátor, és v_t a generált képkockákat jelenti. Az első kifejezés biztosítja, hogy a generált arcok megegyezzenek a referenciákkal; a második büntet a képkocka közötti variáció.

def identity_preservation_loss(generated_video, reference_faces, face_encoder):
    # Képkockánkénti identitás egyeztetés a referencához
    frame_losses = []
    for frame in generated_video:
        face_embed = face_encoder(frame)
        ref_embed = face_encoder(reference_faces).mean(dim=0)
        frame_losses.append(F.mse_loss(face_embed, ref_embed))
 
    reference_loss = torch.stack(frame_losses).mean()
 
    # Időbeli konzisztencia a szomszédos képkockák között
    temporal_losses = []
    for i in range(len(generated_video) - 1):
        curr_embed = face_encoder(generated_video[i])
        next_embed = face_encoder(generated_video[i + 1])
        temporal_losses.append(F.mse_loss(curr_embed, next_embed))
 
    temporal_loss = torch.stack(temporal_losses).mean()
 
    return reference_loss + 0.5 * temporal_loss

Több karakteres helyzetek: A nehezebb probléma

Az egy karakteres konzisztencia nagyobb részt megoldott. A több karakteres helyzetek – ahol több különálló identitást kell egyidejűleg fenntartani – továbbra is kihívás. Az attenciós mechanizmusok összefolyhatnak az identitások, ami jellemzővérzéshez vezethet a karakterek között.

A jelenlegi megközelítések külön identitás bankokat használnak:

class MultiCharacterIdentityBank:
    def __init__(self, max_characters=8, embed_dim=768):
        self.banks = nn.ModuleList([
            IdentityBank(embed_dim) for _ in range(max_characters)
        ])
        self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
 
    def encode_multiple(self, character_references):
        all_tokens = []
        for idx, refs in enumerate(character_references):
            char_tokens = self.banks[idx].encode(refs)
            # Elválasztó hozzáadása az összefolyás megelőzésére
            char_tokens = torch.cat([char_tokens, self.character_separator])
            all_tokens.append(char_tokens)
        return torch.cat(all_tokens, dim=0)

Az elválasztó tokenek olyan biztosítások között, mint a mászók – fenntartva a különálló identitásokat még akkor is, amikor szoros közelségben működnek.

Gyakorlati következmények az alkotók számára

Azok számára, akik ezeket az eszközöket használják, semmint nem építik őket, több gyakorlati minta jelent meg:

A referencia kép minősége számít: A magasabb felbontású, jól megvilágított referencia képek semleges kifejezésekkel jobban konzisztens eredményt adnak. A modell ezekről a horgonyokról tanul az identitásra, és a zaj terjedelmét okozza.

Több referencia javítja a robusztusságot: A 3-5 referencia képnek a különböző szögekből való biztosítása segít a modellnek egy teljesebb identitás reprezentáció felépítésében. Gondolunk erre több pontból való triangulációként.

Utasítástervezés a konzisztencia érdekében: Az utasításokban explicit identitás leírások erősítik a vizuális konzisztenciát. "A 30 éves nő rövid barna hajjal és zöld szemmel" további kényszereket biztosít, amelyeket a modell kihasználhat.

Az előtte álló út

Közel érkezünk ahhoz a küszöbhöz, ahol az MI-generált videó képes az identitás szintű karakter konzisztenciára, amely megfelelő a történetmeséléhez. A fennmaradó kihívások – a finoman árnyalt expresszió konzisztencia, a 60 másodpercet meghaladó hosszú formátumú generálás és a több karakteres interakció – aktívan kezelésre kerülnek.

A Bonega.ai-nál különös érdeklődésünk van aziránt, hogy ezek a konzisztencia javítások hogyan integrálódnak a videó kiterjesztési képességekkel. Az a képesség, hogy a meglévő felvételeket kiterjeszthessük, miközben tökéletes karakterkonzisztenciát tartunk fenn, olyan kreatív lehetőségeket nyit meg, amelyek egyszerűen nem voltak megvalósíthatók 12 hónappal ezelőtt.

Az identitás első osztályú architekturális problémává történő kezelésének matematikai elegancia, ahelyett, hogy utólagos korrekció lenne, érési fokot jelent abban, hogy hogyan gondolkodunk a videógenerálásról. Ahogy egy jól felszerelt magas tábor megalapozása egy csúcs felé menetel előtt, ezek az alapvető javítások lehetővé teszik az hosszabb, ambiciózusabb kreatív utazásokat, amelyek előttünk állnak.

A karakterkonzisztencia nem csak technikai mutató – ez a vizuális történetmeséléss alapzata. 2025-ben az alapzat végre elég szilárdnak bizonyult, hogy felépítsünk rá.