Konzistentnost likova u AI videu: Kako modeli uče da pamte lica

Jedan od najtrajnijih izazova u AI generisanju videa je održavanje konzistentnosti likova tokom snimanja. Pitajte bilo kog filmskog stvaraoca: priča se raspada čim se lice vašeg protagoniste subtilno promeni između rezova. 2025. godine, konačno smo videli da modeli rešavaju ovaj problem sa arhitekturnim inovacijama koje su elegantne kao dobro planirana ruta do teške vrhunce. Hajde da prođemo kroz to kako moderni video modeli uče da pamte lica.

Izazov konzistentnosti

Tradicionalni difuzijski modeli generišu svaki kadar sa probabilističkim sampliranjem. To uvodi varijabilnost—korisna za raznolikost, problematična za identitet. Pri generisanju 10-sekundnog videa sa 24fps, model pravi 240 sekvencijalnih odluka, svaka sa mogućnostima za odstupanje.

# Suština problema: svaki denoising korak uvodi varijabilnost
def denoise_step(x_t, model, t):
    noise_pred = model(x_t, t)
    # Ovo sampliranje uvodi stohastičnost
    x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
    return x_t_minus_1  # Mala odstupanja se akumuliraju kroz kadre

Rani video modeli kao što su Gen-1 i Pika 1.0 su sa tim vidljivo borili. Likovi bi se menjali u izgledu, malo bi postali stariji između rezova, ili bi razvili neusklađene karakteristike—što su praktičari nazivali "drift identiteta". Proboj je došao od tretiranja konzistentnosti likova ne kao problem post-obrade, već kao arhitekturni problem.

Embedinzi koji čuvaju identitet: Osnova

Prva velika inovacija je bila uvođenje namenskih embedinga identiteta koji se zadržavaju tokom procesa generisanja. Umesto da se oslanjamo samo na tekstualnu uslovljavenost, modeli sada održavaju eksplicitne identity tokene:

class IdentityEncoder(nn.Module):
    def __init__(self, embed_dim=768):
        super().__init__()
        self.face_encoder = FaceRecognitionBackbone()  # Pretreniran model lica
        self.projection = nn.Linear(512, embed_dim)
        self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
 
    def encode_identity(self, reference_frame):
        # Izvuci osobine identiteta iz referentnog kadra
        face_features = self.face_encoder(reference_frame)
        identity_embed = self.projection(face_features)
 
        # Unakrsna pažnja sa naučenim identity tokenima
        identity_tokens = self.cross_attention(
            query=self.identity_bank,
            key=identity_embed,
            value=identity_embed
        )
        return identity_tokens

Ovi identity tokeni se zatim ubacuju u difuzijski proces pri svakom denoising koraku, kreirajući ono što volim da zovem "točkama usidravanja"—kao fiksna zaštita na penjačkoj ruti koju uvek možete iskoristiti kada se uslovi pogoršaju.

Unakrsno-Frame Pažnja: Učenje vremenskog identiteta

Drugi proboj je bio arhitekturan: modeli sada eksplicitno obraćaju pažnju preko kadara pri donošenju odluka o izgledu karaktera. Difuzijski transformatori prirodno podržavaju ovo kroz njihovu spacetime patch obradu, ali konzistentnosti-fokusirani modeli idu dalje.

Ključna inovacija: Namenski slojevi pažnje identiteta koji specifično obraćaju pažnju na oblasti lica preko vremenske dimenzije:

class IdentityAwareAttention(nn.Module):
    def __init__(self, dim, num_heads=8):
        super().__init__()
        self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
        self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
        self.identity_attn = nn.MultiheadAttention(dim, num_heads)
 
    def forward(self, x, identity_tokens, face_masks):
        # Standardna prostorna pažnja unutar kadara
        x = self.spatial_attn(x, x, x)[0] + x
 
        # Vremenska pažnja preko kadara
        x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
        x = self.temporal_attn(x, x, x)[0] + x
        x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
 
        # Identity-specifična pažnja koristeći regije lica
        face_tokens = x * face_masks.unsqueeze(-1)
        x = self.identity_attn(
            query=x,
            key=identity_tokens,
            value=identity_tokens
        )[0] + x
 
        return x

Ovaj trostruki-pažnja mehanizam—prostorna, vremenska, i identity-specifična—omogućava modelu da donosi odluke o izgledu dok eksplicitno poziva i na uspostavljeni identitet i na prethodne kadre.

Poređenje pristupa trenutnih modela

Glavne platforme za generisanje videa su implementirale konzistentnost likova različito:

Model	Pristup	Metoda konzistentnosti	Efikasnost
Sora 2	Spacetime patchi	Implicitno kroz dugačak kontekst	Dobar za kratke klipove
Veo 3	Generisanje u više faza	Usidravanja ključnih kadara	Snažan za ljudsko kretanje
Gen-4.5	Reference uslovljavanje	Eksplicitna injekcija identiteta	Najbolja konzistentnost
Kling 1.6	Pažnja svesna lica	Namensko praćenje lica	Snažan za close-up snimke

Runway-ov Gen-4.5 zaslužuje specijalno pomenuti ovde. Njihov pristup kombinuje Reference uslovljavanje slike sa onim što oni nazivaju "identity locks"—naučeni tokeni koje je model obučen da čuva bez obzira na druge generativne odluke. Ovaj arhitekturni izbor je verovatno doprinio njihovoj dominaciji u Video Arena.

Paradigma referentnog kadra

Značajna promena 2025. godine je bila prelazak ka generisanju uslovljenom referencama. Umesto generisanja likova čisto iz tekstualnih opisa, modeli sada prihvataju referentne slike koje uspostavljaju kanonski izgled:

class ReferenceConditionedGenerator:
    def __init__(self, base_model, identity_encoder):
        self.model = base_model
        self.identity_encoder = identity_encoder
 
    def generate(self, prompt, reference_images, num_frames=120):
        # Kodiraj identitet iz referentnih slika
        identity_embeds = []
        for ref in reference_images:
            identity_embeds.append(self.identity_encoder(ref))
 
        # Grupiraj više referenci za robustan identitet
        identity_tokens = torch.stack(identity_embeds).mean(dim=0)
 
        # Generiši sa identity uslovljavanjem
        video = self.model.generate(
            prompt=prompt,
            num_frames=num_frames,
            cross_attention_kwargs={
                "identity_tokens": identity_tokens,
                "identity_strength": 0.8  # Balansira konzistentnost vs kreativnost
            }
        )
        return video

Parametar identity_strength predstavlja važnu pretragu. Previše, i model postaje krut, nesposoban da pokaze prirodnu varijaciju izgleda. Premalo, i drift se vraća. Pronalaženje slatkoga mesta—obično oko 0.7-0.85—je deo umeće, deo nauke.

Funkcije gubitka za čuvanje identiteta

Obučavanje ovih sistema zahteva specijalizovane funkcije gubitka koje eksplicitno penalizuju drift identiteta:

Identity Preservation Loss:

L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²

Gde je f pretreniran face recognition encoder, G je generator, i v_t predstavlja generirane kadre. Prvi termin osigurava da generisana lica podudaraju reference; drugi penalizuje varijaciju od kadra do kadra.

def identity_preservation_loss(generated_video, reference_faces, face_encoder):
    # Per-kadar identity poklapanje sa referencom
    frame_losses = []
    for frame in generated_video:
        face_embed = face_encoder(frame)
        ref_embed = face_encoder(reference_faces).mean(dim=0)
        frame_losses.append(F.mse_loss(face_embed, ref_embed))
 
    reference_loss = torch.stack(frame_losses).mean()
 
    # Vremenska konzistentnost između susednih kadara
    temporal_losses = []
    for i in range(len(generated_video) - 1):
        curr_embed = face_encoder(generated_video[i])
        next_embed = face_encoder(generated_video[i + 1])
        temporal_losses.append(F.mse_loss(curr_embed, next_embed))
 
    temporal_loss = torch.stack(temporal_losses).mean()
 
    return reference_loss + 0.5 * temporal_loss

Scenariji sa više likova: Teži problem

Konzistentnost sa jednim likom je uglavnom rešena. Scenariji sa više likova—gde se više različitih identiteta mora održavati simultano—ostaju izazovni. Mehanizmi pažnje mogu da mešaju identitete, što dovodi do curenja karakteristika između likova.

Trenutni pristupi koriste odvojene identity banke:

class MultiCharacterIdentityBank:
    def __init__(self, max_characters=8, embed_dim=768):
        self.banks = nn.ModuleList([
            IdentityBank(embed_dim) for _ in range(max_characters)
        ])
        self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
 
    def encode_multiple(self, character_references):
        all_tokens = []
        for idx, refs in enumerate(character_references):
            char_tokens = self.banks[idx].encode(refs)
            # Dodaj separator da spreči mešanje
            char_tokens = torch.cat([char_tokens, self.character_separator])
            all_tokens.append(char_tokens)
        return torch.cat(all_tokens, dim=0)

Separator tokeni deluju kao belay-evi između penjača—održavaju različite identitete čak i kada rade u bliskoj blizini.

Praktične posledice za kreatore

Za one koji koriste ove alate umesto da ih prave, nekoliko praktičnih obrazaca je teško nastalo:

Kvalitet referentne slike je bitan: Viša rezolucija, dobro osvetljena referentna lica sa neutralnim izrazima daju konzistetnije rezultate. Model uči identitet iz ovih usidravanja, i šum se širi.

Više referenci poboljšava robusnost: Pružanje 3-5 referentnih slika sa različitih uglova pomaže modelu da gradi kompletniju reprezentaciju identiteta. Razmislite o tome kao o triangulaciji pozicije iz nekoliko tačaka.

Inženjerstvo upita za konzistentnost: Eksplicitni opisi identiteta u upitima pojačavaju vizuelnu konzistentnost. "Žena od 30 godina sa kratkom smeđom kosom i zelenim očima" pruža dodatna ograničenja koja model može iskoristiti.

Putanja napred

Bliži se prag gde AI-generisani video može održavati konzistentnost likova dovoljnu za pripovedno filmsku umetnost. Preostali izazovi—subtilna konzistentnost izraza, generisanje dugačkog formata preko 60 sekundi, i interakcija sa više likova—aktivno se rešavaju.

U Bonega.ai, posebno nas zanima kako se ova poboljšanja konzistentnosti integrišu sa mogućnostima proširenja videa. Mogućnost proširenja postojećeg snimanja dok se održava savršena konzistentnost likova otvara kreativne mogućnosti koje jednostavno nisu bile izvodljive pre 12 meseci.

Matematička elegantsnost tretiranja identiteta kao prvoklasnoga arhitekturnog problema, umesto kao post-hoc korekcije, obiležava zrelost u tome kako razmišljamo o generisanju videa. Kao što je uspostavljanje dobro opremljenog visokog kampa pre pokušaja osvajanja vrha, ova fundamentalna poboljšanja omogućavaju duže, ambicioznije kreativne putanje koje leže napred.

Konzistentnost likova nije samo tehnička metrika—to je osnova vizuelne pripovesti. I 2025. godine, ta osnova je konačno postala čvrsta za gradnju.