ایچ آئی ویڈیو میں کردار کی مطابقت: ماڈلز کیسے چہروں کو یاد رکھنا سیکھ رہے ہیں

ایچ آئی ویڈیو کی تخلیق میں سب سے مسلسل چیلنجوں میں سے ایک شاٹس میں کردار کی مطابقت برقرار رکھنا ہے۔ کسی بھی فلم ساز سے پوچھیں: کہانی اسی لمحے بکھر جاتی ہے جب آپ کے ناائق کا چہرہ کاٹ اور جوڑ کے درمیان معمولی طور پر بدلتا ہے۔ 2025 میں، ہم نے آخری کار اس مسئلے کو حل کرنے والے ماڈلز دیکھے ہیں جن میں تعمیری نوعیت کی بدیاہیاں ہیں جو ایک مشکل چوٹی پر خوب سوچے سمجھے ہوئے راستے کی طرح خوبصورت ہیں۔ میں آپ کو یہ بتاتا ہوں کہ جدید ویڈیو ماڈلز چہروں کو یاد رکھنا کیسے سیکھ رہے ہیں۔

مطابقت کا چیلنج

روایتی diffusion ماڈلز ہر فریم کو امکانی نمونے لینے کے ذریعے تخلیق کرتے ہیں۔ یہ تبدیلی کا سبب بنتا ہے—تنوع کے لیے مفید، شناخت کے لیے مسئلہ دہ۔ 24fps پر 10 سیکنڈ کی ویڈیو تخلیق کرتے وقت، ماڈل 240 ترتیب وار فیصلے کرتا ہے، ہر ایک میں بہاؤ کے مواقع ہیں۔

# بنیادی مسئلہ: ہر ڈینوزنگ مرحلہ تبدیلی کو متعارف کراتا ہے
def denoise_step(x_t, model, t):
    noise_pred = model(x_t, t)
    # یہ نمونہ لینا stochasticity کو متعارف کراتا ہے
    x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
    return x_t_minus_1  # معمولی تبدیلیاں فریموں میں جمع ہوتی ہیں

Gen-1 اور Pika 1.0 جیسے ابتدائی ویڈیو ماڈلز اس میں نمایاں طور پر مشکل کا سامنا کرتے تھے۔ کردار حالت میں تبدیل ہوتے، شاٹوں کے درمیان معمولی طور پر بوڑھے ہو جاتے، یا غیر مطابقت والی خصوصیات پیدا کرتے—جسے پریکٹشنرز نے "شناخت کا بہاؤ" کہا۔ سنگ تراشی یہ تھی کہ کردار کی مطابقت کو بعد میں کی کارروائی کے مسئلے کے طور پر نہیں، بلکہ تعمیری مسئلے کے طور پر سمجھا جائے۔

شناخت کے تحفظ والے علامات: بنیاد

پہلی بڑی نوعیت کی تبدیلی وقف شدہ شناخت کے علامات کو متعارف کرانا تھی جو تخلیقی عمل میں برقرار رہتے ہیں۔ صرف ٹیکسٹ کی حالت پر انحصار کرنے کی بجائے، ماڈلز اب واضح شناخت کے نشانات برقرار رکھتے ہیں:

class IdentityEncoder(nn.Module):
    def __init__(self, embed_dim=768):
        super().__init__()
        self.face_encoder = FaceRecognitionBackbone()  # پہلے سے تربیت یافتہ چہرے کا ماڈل
        self.projection = nn.Linear(512, embed_dim)
        self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
 
    def encode_identity(self, reference_frame):
        # حوالہ فریم سے شناخت کی خصوصیات نکالیں
        face_features = self.face_encoder(reference_frame)
        identity_embed = self.projection(face_features)
 
        # سیکھے گئے شناخت کے نشانات کے ساتھ cross-attend کریں
        identity_tokens = self.cross_attention(
            query=self.identity_bank,
            key=identity_embed,
            value=identity_embed
        )
        return identity_tokens

یہ شناخت کے نشانات بعد میں ہر ڈینوزنگ مرحلے میں diffusion عمل میں ڈالے جاتے ہیں، جس سے وہ بناتے ہیں جسے میں "لنگر نقاط" کہنا پسند کرتا ہوں—ایک چڑھائی کے راستے پر مقررہ تحفظ کی طرح جو آپ ہمیشہ واپس کلپ کر سکتے ہیں جب حالات غیر یقینی ہو جائیں۔

فریم کے درمیان توجہ: زمانے کی شناخت سیکھنا

دوسری سنگ تراشی یہ تھی: ماڈلز اب واضح طور پر کردار کی حالت کے بارے میں فیصلے کرتے وقت فریموں میں توجہ دیتے ہیں۔ Diffusion transformers اپنے spacetime patch پروسیسنگ کے ذریعے قدرتی طور پر اس کو سہارا دیتے ہیں، لیکن مطابقت پر توجہ مرکوز کرنے والے ماڈلز مزید آگے جاتے ہیں۔

اہم نوعیت کی تبدیلی: وقف شدہ شناخت کی توجہ کی تہیں جو خاص طور پر زمانے کے طول میں چہرے کے علاقوں میں توجہ دیتی ہیں:

class IdentityAwareAttention(nn.Module):
    def __init__(self, dim, num_heads=8):
        super().__init__()
        self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
        self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
        self.identity_attn = nn.MultiheadAttention(dim, num_heads)
 
    def forward(self, x, identity_tokens, face_masks):
        # فریموں کے اندر معیاری spatial توجہ
        x = self.spatial_attn(x, x, x)[0] + x
 
        # فریموں میں زمانے کی توجہ
        x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
        x = self.temporal_attn(x, x, x)[0] + x
        x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
 
        # چہرے کی علاقوں کا استعمال کرتے ہوئے شناخت سے متعلق توجہ
        face_tokens = x * face_masks.unsqueeze(-1)
        x = self.identity_attn(
            query=x,
            key=identity_tokens,
            value=identity_tokens
        )[0] + x
 
        return x

یہ تکہری توجہ کا طریقہ—spatial، زمانے کی، اور شناخت سے متعلق—ماڈل کو حالت کے فیصلے کرتے ہوئے واضح طور پر قائم شدہ شناخت اور پچھلے فریموں کا حوالہ دیتا ہے۔

موجودہ ماڈل کے طریقوں کا موازنہ

بڑے ویڈیو کی تخلیق کے پلیٹ فارمز نے کردار کی مطابقت مختلف طریقوں سے نافذ کی ہے:

ماڈل	طریقہ	مطابقت کا طریقہ	تاثیر
Sora 2	Spacetime patches	طویل تناظر کے ذریعے مضمر	مختصر کلپس کے لیے اچھا
Veo 3	متعدد مرحلہ تخلیق	Keyframe لنگر	انسانی حرکت کے لیے طاقتور
Gen-4.5	حوالہ حالت	واضح شناخت کی تزریق	بہترین درجے کی مطابقت
Kling 1.6	چہرے سے آگاہ توجہ	وقف شدہ چہرے کی نگرانی	قریب کے شاٹس کے لیے طاقتور

Runway کے Gen-4.5 خصوصی حکر کے لائق ہے۔ ان کے طریقے میں حوالہ کی تصویر کی حالت کو اس کے ساتھ ملایا جاتا ہے جسے وہ "شناخت کے تالے" کہتے ہیں—سیکھے گئے نشانات جو ماڈل دوسری تخلیقی فیصلوں سے قطع نظر برقرار رکھنے کے لیے تربیت یافتہ ہیں۔ یہ تعمیری انتخاب شاید ان کی Video Arena برتری میں معاون تھا۔

حوالہ فریم کا نمونہ

2025 میں ایک اہم تبدیلی حوالہ پر شرط رکھنے والی تخلیق کی طرف رہی ہے۔ خالص طور پر ٹیکسٹ کی تفصیلات سے کردار تخلیق کرنے کی بجائے، ماڈلز اب حوالہ کی تصویریں قبول کرتے ہیں جو علامتی حالت قائم کرتی ہیں:

class ReferenceConditionedGenerator:
    def __init__(self, base_model, identity_encoder):
        self.model = base_model
        self.identity_encoder = identity_encoder
 
    def generate(self, prompt, reference_images, num_frames=120):
        # حوالہ کی تصویروں سے شناخت کو کوڈ کریں
        identity_embeds = []
        for ref in reference_images:
            identity_embeds.append(self.identity_encoder(ref))
 
        # طاقتور شناخت کے لیے متعدد حوالہ جات کو pool کریں
        identity_tokens = torch.stack(identity_embeds).mean(dim=0)
 
        # شناخت کی حالت کے ساتھ تخلیق کریں
        video = self.model.generate(
            prompt=prompt,
            num_frames=num_frames,
            cross_attention_kwargs={
                "identity_tokens": identity_tokens,
                "identity_strength": 0.8  # مطابقت اور تخلیقی صلاحیت میں توازن
            }
        )
        return video

identity_strength پیرامیٹر ایک اہم تبدیلی کی نمائندگی کرتا ہے۔ بہت زیادہ، اور ماڈل سخت ہو جاتا ہے، قدرتی حالت کی تبدیلی دکھانے میں ناکام۔ بہت کم، اور بہاؤ واپس آتا ہے۔ میٹھی جگہ تلاش کرنا—عام طور پر 0.7-0.85 کے ارد گرد—جزوی طور پر فن ہے، جزوی طور پر سائنس۔

شناخت کے تحفظ کے لیے خسارہ کے افعال

ان نظام کی تربیت کے لیے تخصصی خسارہ کے افعال درکار ہیں جو واضح طور پر شناخت کے بہاؤ کو سزا دیتے ہیں:

شناخت کے تحفظ کا خسارہ:

L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²

جہاں f ایک پہلے سے تربیت یافتہ چہرے کی شناخت کوڈ کار ہے، G تخلیق کار ہے، اور v_t تخلیق شدہ فریموں کی نمائندگی کرتا ہے۔ پہلی اصطلاح تخلیق شدہ چہروں کو حوالوں سے موازنہ کرنے کو یقینی بناتی ہے؛ دوسری فریم سے فریم میں تبدیلی کو سزا دیتی ہے۔

def identity_preservation_loss(generated_video, reference_faces, face_encoder):
    # فی فریم شناخت حوالہ سے موازنہ
    frame_losses = []
    for frame in generated_video:
        face_embed = face_encoder(frame)
        ref_embed = face_encoder(reference_faces).mean(dim=0)
        frame_losses.append(F.mse_loss(face_embed, ref_embed))
 
    reference_loss = torch.stack(frame_losses).mean()
 
    # ملحق فریموں کے درمیان زمانے کی مطابقت
    temporal_losses = []
    for i in range(len(generated_video) - 1):
        curr_embed = face_encoder(generated_video[i])
        next_embed = face_encoder(generated_video[i + 1])
        temporal_losses.append(F.mse_loss(curr_embed, next_embed))
 
    temporal_loss = torch.stack(temporal_losses).mean()
 
    return reference_loss + 0.5 * temporal_loss

متعدد کردار کے منظرنامے: سخت ترین مسئلہ

اکیلے کردار کی مطابقت بڑی حد تک حل ہو گئی ہے۔ متعدد کردار کے منظرنامے—جہاں کئی الگ الگ شناخت ایک ساتھ برقرار رہنی چاہئیں—اب بھی مشکل ہیں۔ توجہ کے طریقے شناخت کو ملا سکتے ہیں، جس سے کرداروں کے درمیان خصوصیت کا بہاؤ ہوتا ہے۔

موجودہ طریقے الگ شناخت کے ڈھانچے استعمال کرتے ہیں:

class MultiCharacterIdentityBank:
    def __init__(self, max_characters=8, embed_dim=768):
        self.banks = nn.ModuleList([
            IdentityBank(embed_dim) for _ in range(max_characters)
        ])
        self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
 
    def encode_multiple(self, character_references):
        all_tokens = []
        for idx, refs in enumerate(character_references):
            char_tokens = self.banks[idx].encode(refs)
            # شناخت کو ملانے سے روکنے کے لیے الگ کار شامل کریں
            char_tokens = torch.cat([char_tokens, self.character_separator])
            all_tokens.append(char_tokens)
        return torch.cat(all_tokens, dim=0)

الگ کار کے نشانات قریب سے کام کر رہے چڑھائی کنندوں کے درمیان belays کی طرح کام کرتے ہیں—الگ شناخت برقرار رکھتے ہیں۔

تخلیق کاروں کے لیے عملی نتائج

جو لوگ ان اوزاروں کو استعمال کر رہے ہیں بجائے ان کو بنانے کے، کئی عملی نمونے ابھرے ہیں:

حوالہ کی تصویر کا معیار اہم ہے: اعلیٰ وضاحت، اچھی روشنی والی حوالہ کی تصویریں جن میں غیر جانبدارانہ تاثیریں ہوں، مزید مطابقت کے نتائج دیتی ہیں۔ ماڈل ان لنگر نقاط سے شناخت سیکھتا ہے، اور شور تقسیم ہوتا ہے۔

متعدد حوالے طاقت کو بہتر بناتے ہیں: 3-5 حوالہ کی تصویریں مختلف زاویوں سے فراہم کرنا ماڈل کو ایک مکمل شناخت کی نمائندگی بنانے میں مدد دیتا ہے۔ اسے متعدد نقاط سے ایک مقام کی نقاب کشائی سمجھیں۔

مطابقت کے لیے فوری انجینئری: فوری شناخت کی تفصیلات اشاروں میں بصری مطابقت کو بڑھاتی ہیں۔ "ایک 30 سالہ عورت جس کے پاس چھوٹے بھوری بال اور سبز آنکھیں ہوں" اضافی حدود فراہم کرتا ہے جو ماڈل استعمال کر سکتے ہیں۔

آگے کا راستہ

ہم ایک حد کے قریب پہنچ رہے ہیں جہاں ایچ آئی سے تخلیق شدہ ویڈیو کردار کی مطابقت برقرار رکھ سکتی ہے جو کہانی کہنے کے لیے کافی ہو۔ باقی چیلنجیں—نازک اظہار کی مطابقت، 60 سیکنڈ سے تجاوز کرتے ہوئے طویل مدتی تخلیق، اور متعدد کردار کا تعامل—فعال طور پر معالجے میں ہیں۔

Bonega.ai میں، ہم خاص طور پر دیکھ رہے ہیں کہ یہ مطابقت کے بہتری کیسے ویڈیو توسیع کی صلاحیتوں کے ساتھ یکجا ہوتی ہے۔ موجودہ فوٹیج کو بڑھانے کی صلاحیت جبکہ کردار کی مطابقت کو مکمل رکھتے ہوئے تخلیقی امکانات کھولتا ہے جو 12 ماہ پہلے عملی طور پر ممکن نہیں تھے۔

شناخت کو پہلے درجے کی تعمیری فکر کے طور پر سمجھنے کی ریاضیاتی خوبصورتی، بجائے بعد کی کارروائی کے اصلاح کے، یہ نشان دہی کرتی ہے کہ ہم ویڈیو کی تخلیق کے بارے میں کیسے سوچتے ہیں۔ جیسے موجودہ پہاڑ پر کسی چوٹی کے دھکے سے پہلے ایک اچھی طرح سے لیس اعلیٰ کیمپ قائم کرنا، یہ بنیادی بہتریاں طویل، زیادہ منصوبہ بند تخلیقی سفریں سرانجام دیتی ہیں جو آگے تک پھیلتے ہیں۔

کردار کی مطابقت محض ایک تکنیکی پیمانہ نہیں—یہ بصری کہانی کہنے کی بنیاد ہے۔ اور 2025 میں، وہ بنیاد آخری کار اس پر تعمیر کرنے کے لیے مضبوط ہو گئی ہے۔