ایچ آئی ویڈیو میں کردار کی مطابقت: ماڈلز کیسے چہروں کو یاد رکھنا سیکھ رہے ہیں
ایچ آئی ویڈیو ماڈلز میں تعمیری نوعیت کی تبدیلیوں کا تفصیلی تجزیہ جو شاٹس میں کردار کی شناخت برقرار رکھتے ہیں، توجہ کے طریقوں سے لے کر شناخت کے تحفظ کے علامات تک۔

ایچ آئی ویڈیو کی تخلیق میں سب سے مسلسل چیلنجوں میں سے ایک شاٹس میں کردار کی مطابقت برقرار رکھنا ہے۔ کسی بھی فلم ساز سے پوچھیں: کہانی اسی لمحے بکھر جاتی ہے جب آپ کے ناائق کا چہرہ کاٹ اور جوڑ کے درمیان معمولی طور پر بدلتا ہے۔ 2025 میں، ہم نے آخری کار اس مسئلے کو حل کرنے والے ماڈلز دیکھے ہیں جن میں تعمیری نوعیت کی بدیاہیاں ہیں جو ایک مشکل چوٹی پر خوب سوچے سمجھے ہوئے راستے کی طرح خوبصورت ہیں۔ میں آپ کو یہ بتاتا ہوں کہ جدید ویڈیو ماڈلز چہروں کو یاد رکھنا کیسے سیکھ رہے ہیں۔
مطابقت کا چیلنج
روایتی diffusion ماڈلز ہر فریم کو امکانی نمونے لینے کے ذریعے تخلیق کرتے ہیں۔ یہ تبدیلی کا سبب بنتا ہے—تنوع کے لیے مفید، شناخت کے لیے مسئلہ دہ۔ 24fps پر 10 سیکنڈ کی ویڈیو تخلیق کرتے وقت، ماڈل 240 ترتیب وار فیصلے کرتا ہے، ہر ایک میں بہاؤ کے مواقع ہیں۔
# بنیادی مسئلہ: ہر ڈینوزنگ مرحلہ تبدیلی کو متعارف کراتا ہے
def denoise_step(x_t, model, t):
noise_pred = model(x_t, t)
# یہ نمونہ لینا stochasticity کو متعارف کراتا ہے
x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
return x_t_minus_1 # معمولی تبدیلیاں فریموں میں جمع ہوتی ہیںGen-1 اور Pika 1.0 جیسے ابتدائی ویڈیو ماڈلز اس میں نمایاں طور پر مشکل کا سامنا کرتے تھے۔ کردار حالت میں تبدیل ہوتے، شاٹوں کے درمیان معمولی طور پر بوڑھے ہو جاتے، یا غیر مطابقت والی خصوصیات پیدا کرتے—جسے پریکٹشنرز نے "شناخت کا بہاؤ" کہا۔ سنگ تراشی یہ تھی کہ کردار کی مطابقت کو بعد میں کی کارروائی کے مسئلے کے طور پر نہیں، بلکہ تعمیری مسئلے کے طور پر سمجھا جائے۔
شناخت کے تحفظ والے علامات: بنیاد
پہلی بڑی نوعیت کی تبدیلی وقف شدہ شناخت کے علامات کو متعارف کرانا تھی جو تخلیقی عمل میں برقرار رہتے ہیں۔ صرف ٹیکسٹ کی حالت پر انحصار کرنے کی بجائے، ماڈلز اب واضح شناخت کے نشانات برقرار رکھتے ہیں:
class IdentityEncoder(nn.Module):
def __init__(self, embed_dim=768):
super().__init__()
self.face_encoder = FaceRecognitionBackbone() # پہلے سے تربیت یافتہ چہرے کا ماڈل
self.projection = nn.Linear(512, embed_dim)
self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
def encode_identity(self, reference_frame):
# حوالہ فریم سے شناخت کی خصوصیات نکالیں
face_features = self.face_encoder(reference_frame)
identity_embed = self.projection(face_features)
# سیکھے گئے شناخت کے نشانات کے ساتھ cross-attend کریں
identity_tokens = self.cross_attention(
query=self.identity_bank,
key=identity_embed,
value=identity_embed
)
return identity_tokensیہ شناخت کے نشانات بعد میں ہر ڈینوزنگ مرحلے میں diffusion عمل میں ڈالے جاتے ہیں، جس سے وہ بناتے ہیں جسے میں "لنگر نقاط" کہنا پسند کرتا ہوں—ایک چڑھائی کے راستے پر مقررہ تحفظ کی طرح جو آپ ہمیشہ واپس کلپ کر سکتے ہیں جب حالات غیر یقینی ہو جائیں۔
فریم کے درمیان توجہ: زمانے کی شناخت سیکھنا
دوسری سنگ تراشی یہ تھی: ماڈلز اب واضح طور پر کردار کی حالت کے بارے میں فیصلے کرتے وقت فریموں میں توجہ دیتے ہیں۔ Diffusion transformers اپنے spacetime patch پروسیسنگ کے ذریعے قدرتی طور پر اس کو سہارا دیتے ہیں، لیکن مطابقت پر توجہ مرکوز کرنے والے ماڈلز مزید آگے جاتے ہیں۔
اہم نوعیت کی تبدیلی: وقف شدہ شناخت کی توجہ کی تہیں جو خاص طور پر زمانے کے طول میں چہرے کے علاقوں میں توجہ دیتی ہیں:
class IdentityAwareAttention(nn.Module):
def __init__(self, dim, num_heads=8):
super().__init__()
self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
self.identity_attn = nn.MultiheadAttention(dim, num_heads)
def forward(self, x, identity_tokens, face_masks):
# فریموں کے اندر معیاری spatial توجہ
x = self.spatial_attn(x, x, x)[0] + x
# فریموں میں زمانے کی توجہ
x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
x = self.temporal_attn(x, x, x)[0] + x
x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
# چہرے کی علاقوں کا استعمال کرتے ہوئے شناخت سے متعلق توجہ
face_tokens = x * face_masks.unsqueeze(-1)
x = self.identity_attn(
query=x,
key=identity_tokens,
value=identity_tokens
)[0] + x
return xیہ تکہری توجہ کا طریقہ—spatial، زمانے کی، اور شناخت سے متعلق—ماڈل کو حالت کے فیصلے کرتے ہوئے واضح طور پر قائم شدہ شناخت اور پچھلے فریموں کا حوالہ دیتا ہے۔
موجودہ ماڈل کے طریقوں کا موازنہ
بڑے ویڈیو کی تخلیق کے پلیٹ فارمز نے کردار کی مطابقت مختلف طریقوں سے نافذ کی ہے:
| ماڈل | طریقہ | مطابقت کا طریقہ | تاثیر |
|---|---|---|---|
| Sora 2 | Spacetime patches | طویل تناظر کے ذریعے مضمر | مختصر کلپس کے لیے اچھا |
| Veo 3 | متعدد مرحلہ تخلیق | Keyframe لنگر | انسانی حرکت کے لیے طاقتور |
| Gen-4.5 | حوالہ حالت | واضح شناخت کی تزریق | بہترین درجے کی مطابقت |
| Kling 1.6 | چہرے سے آگاہ توجہ | وقف شدہ چہرے کی نگرانی | قریب کے شاٹس کے لیے طاقتور |
Runway کے Gen-4.5 خصوصی حکر کے لائق ہے۔ ان کے طریقے میں حوالہ کی تصویر کی حالت کو اس کے ساتھ ملایا جاتا ہے جسے وہ "شناخت کے تالے" کہتے ہیں—سیکھے گئے نشانات جو ماڈل دوسری تخلیقی فیصلوں سے قطع نظر برقرار رکھنے کے لیے تربیت یافتہ ہیں۔ یہ تعمیری انتخاب شاید ان کی Video Arena برتری میں معاون تھا۔
حوالہ فریم کا نمونہ
2025 میں ایک اہم تبدیلی حوالہ پر شرط رکھنے والی تخلیق کی طرف رہی ہے۔ خالص طور پر ٹیکسٹ کی تفصیلات سے کردار تخلیق کرنے کی بجائے، ماڈلز اب حوالہ کی تصویریں قبول کرتے ہیں جو علامتی حالت قائم کرتی ہیں:
class ReferenceConditionedGenerator:
def __init__(self, base_model, identity_encoder):
self.model = base_model
self.identity_encoder = identity_encoder
def generate(self, prompt, reference_images, num_frames=120):
# حوالہ کی تصویروں سے شناخت کو کوڈ کریں
identity_embeds = []
for ref in reference_images:
identity_embeds.append(self.identity_encoder(ref))
# طاقتور شناخت کے لیے متعدد حوالہ جات کو pool کریں
identity_tokens = torch.stack(identity_embeds).mean(dim=0)
# شناخت کی حالت کے ساتھ تخلیق کریں
video = self.model.generate(
prompt=prompt,
num_frames=num_frames,
cross_attention_kwargs={
"identity_tokens": identity_tokens,
"identity_strength": 0.8 # مطابقت اور تخلیقی صلاحیت میں توازن
}
)
return videoidentity_strength پیرامیٹر ایک اہم تبدیلی کی نمائندگی کرتا ہے۔ بہت زیادہ، اور ماڈل سخت ہو جاتا ہے، قدرتی حالت کی تبدیلی دکھانے میں ناکام۔ بہت کم، اور بہاؤ واپس آتا ہے۔ میٹھی جگہ تلاش کرنا—عام طور پر 0.7-0.85 کے ارد گرد—جزوی طور پر فن ہے، جزوی طور پر سائنس۔
شناخت کے تحفظ کے لیے خسارہ کے افعال
ان نظام کی تربیت کے لیے تخصصی خسارہ کے افعال درکار ہیں جو واضح طور پر شناخت کے بہاؤ کو سزا دیتے ہیں:
شناخت کے تحفظ کا خسارہ:
L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²جہاں f ایک پہلے سے تربیت یافتہ چہرے کی شناخت کوڈ کار ہے، G تخلیق کار ہے، اور v_t تخلیق شدہ فریموں کی نمائندگی کرتا ہے۔ پہلی اصطلاح تخلیق شدہ چہروں کو حوالوں سے موازنہ کرنے کو یقینی بناتی ہے؛ دوسری فریم سے فریم میں تبدیلی کو سزا دیتی ہے۔
def identity_preservation_loss(generated_video, reference_faces, face_encoder):
# فی فریم شناخت حوالہ سے موازنہ
frame_losses = []
for frame in generated_video:
face_embed = face_encoder(frame)
ref_embed = face_encoder(reference_faces).mean(dim=0)
frame_losses.append(F.mse_loss(face_embed, ref_embed))
reference_loss = torch.stack(frame_losses).mean()
# ملحق فریموں کے درمیان زمانے کی مطابقت
temporal_losses = []
for i in range(len(generated_video) - 1):
curr_embed = face_encoder(generated_video[i])
next_embed = face_encoder(generated_video[i + 1])
temporal_losses.append(F.mse_loss(curr_embed, next_embed))
temporal_loss = torch.stack(temporal_losses).mean()
return reference_loss + 0.5 * temporal_lossمتعدد کردار کے منظرنامے: سخت ترین مسئلہ
اکیلے کردار کی مطابقت بڑی حد تک حل ہو گئی ہے۔ متعدد کردار کے منظرنامے—جہاں کئی الگ الگ شناخت ایک ساتھ برقرار رہنی چاہئیں—اب بھی مشکل ہیں۔ توجہ کے طریقے شناخت کو ملا سکتے ہیں، جس سے کرداروں کے درمیان خصوصیت کا بہاؤ ہوتا ہے۔
موجودہ طریقے الگ شناخت کے ڈھانچے استعمال کرتے ہیں:
class MultiCharacterIdentityBank:
def __init__(self, max_characters=8, embed_dim=768):
self.banks = nn.ModuleList([
IdentityBank(embed_dim) for _ in range(max_characters)
])
self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
def encode_multiple(self, character_references):
all_tokens = []
for idx, refs in enumerate(character_references):
char_tokens = self.banks[idx].encode(refs)
# شناخت کو ملانے سے روکنے کے لیے الگ کار شامل کریں
char_tokens = torch.cat([char_tokens, self.character_separator])
all_tokens.append(char_tokens)
return torch.cat(all_tokens, dim=0)الگ کار کے نشانات قریب سے کام کر رہے چڑھائی کنندوں کے درمیان belays کی طرح کام کرتے ہیں—الگ شناخت برقرار رکھتے ہیں۔
تخلیق کاروں کے لیے عملی نتائج
جو لوگ ان اوزاروں کو استعمال کر رہے ہیں بجائے ان کو بنانے کے، کئی عملی نمونے ابھرے ہیں:
حوالہ کی تصویر کا معیار اہم ہے: اعلیٰ وضاحت، اچھی روشنی والی حوالہ کی تصویریں جن میں غیر جانبدارانہ تاثیریں ہوں، مزید مطابقت کے نتائج دیتی ہیں۔ ماڈل ان لنگر نقاط سے شناخت سیکھتا ہے، اور شور تقسیم ہوتا ہے۔
متعدد حوالے طاقت کو بہتر بناتے ہیں: 3-5 حوالہ کی تصویریں مختلف زاویوں سے فراہم کرنا ماڈل کو ایک مکمل شناخت کی نمائندگی بنانے میں مدد دیتا ہے۔ اسے متعدد نقاط سے ایک مقام کی نقاب کشائی سمجھیں۔
مطابقت کے لیے فوری انجینئری: فوری شناخت کی تفصیلات اشاروں میں بصری مطابقت کو بڑھاتی ہیں۔ "ایک 30 سالہ عورت جس کے پاس چھوٹے بھوری بال اور سبز آنکھیں ہوں" اضافی حدود فراہم کرتا ہے جو ماڈل استعمال کر سکتے ہیں۔
آگے کا راستہ
ہم ایک حد کے قریب پہنچ رہے ہیں جہاں ایچ آئی سے تخلیق شدہ ویڈیو کردار کی مطابقت برقرار رکھ سکتی ہے جو کہانی کہنے کے لیے کافی ہو۔ باقی چیلنجیں—نازک اظہار کی مطابقت، 60 سیکنڈ سے تجاوز کرتے ہوئے طویل مدتی تخلیق، اور متعدد کردار کا تعامل—فعال طور پر معالجے میں ہیں۔
Bonega.ai میں، ہم خاص طور پر دیکھ رہے ہیں کہ یہ مطابقت کے بہتری کیسے ویڈیو توسیع کی صلاحیتوں کے ساتھ یکجا ہوتی ہے۔ موجودہ فوٹیج کو بڑھانے کی صلاحیت جبکہ کردار کی مطابقت کو مکمل رکھتے ہوئے تخلیقی امکانات کھولتا ہے جو 12 ماہ پہلے عملی طور پر ممکن نہیں تھے۔
شناخت کو پہلے درجے کی تعمیری فکر کے طور پر سمجھنے کی ریاضیاتی خوبصورتی، بجائے بعد کی کارروائی کے اصلاح کے، یہ نشان دہی کرتی ہے کہ ہم ویڈیو کی تخلیق کے بارے میں کیسے سوچتے ہیں۔ جیسے موجودہ پہاڑ پر کسی چوٹی کے دھکے سے پہلے ایک اچھی طرح سے لیس اعلیٰ کیمپ قائم کرنا، یہ بنیادی بہتریاں طویل، زیادہ منصوبہ بند تخلیقی سفریں سرانجام دیتی ہیں جو آگے تک پھیلتے ہیں۔
کردار کی مطابقت محض ایک تکنیکی پیمانہ نہیں—یہ بصری کہانی کہنے کی بنیاد ہے۔ اور 2025 میں، وہ بنیاد آخری کار اس پر تعمیر کرنے کے لیے مضبوط ہو گئی ہے۔
کیا یہ مضمون مددگار تھا؟

Alexis
اے آئی انجینئرلوزان سے تعلق رکھنے والے اے آئی انجینئر جو تحقیقی گہرائی کو عملی جدت کے ساتھ یکجا کرتے ہیں۔ ماڈل آرکیٹیکچرز اور الپائن چوٹیوں کے درمیان وقت تقسیم کرتے ہیں۔
متعلقہ مضامین
ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

ڈفیوژن ٹرانسفارمرز: 2025 میں ویڈیو جنریشن میں انقلاب لانے والا فن تعمیر
گہرائی سے جائزہ کہ کس طرح ڈفیوژن ماڈلز اور ٹرانسفارمرز کے ارتقاء نے AI ویڈیو جنریشن میں ایک نمونہ تبدیلی پیدا کی ہے، Sora، Veo 3، اور دیگر شاندار ماڈلز کے پیچھے تکنیکی اختراعات کو دریافت کرتے ہوئے۔

Pika 2.5: رفتار، قیمت اور تخلیقی اوزار کے ذریعے AI ویڈیو کو عام کرنا
Pika Labs نے ورژن 2.5 جاری کیا ہے، جو تیز تر تخلیق، بہتر طبیعیات اور Pikaframes اور Pikaffects جیسے تخلیقی اوزار کو یکجا کرتے ہوئے AI ویڈیو کو سب کے لیے قابل رسائی بناتا ہے۔

2025 میں AI ویڈیو Prompt Engineering کی مکمل رہنمائی
شاندار AI سے تیار شدہ ویڈیوز بنانے والے prompts تیار کرنے کے فن میں مہارت حاصل کریں۔ چھ پرتوں کا فریم ورک، سینماٹک اصطلاحات، اور پلیٹ فارم کے لیے مخصوص تکنیکیں سیکھیں۔