এআই ভিডিওতে চরিত্র সামঞ্জস্য: মডেলগুলি কীভাবে মুখ মনে রাখতে শিখছে
আর্কিটেকচারাল উদ্ভাবন সম্পর্কে একটি প্রযুক্তিগত গভীর বিশ্লেষণ যা এআই ভিডিও মডেলগুলিকে শট জুড়ে চরিত্র পরিচয় বজায় রাখতে সক্ষম করে, মনোযোগ প্রক্রিয়া থেকে পরিচয়-সংরক্ষণ এমবেডিং পর্যন্ত।

এআই ভিডিও প্রজন্মের সবচেয়ে অধ্যবসায়ী চ্যালেঞ্জগুলির মধ্যে একটি হল শট জুড়ে চরিত্র সামঞ্জস্য বজায় রাখা। যেকোনো চলচ্চিত্রকারকে জিজ্ঞাসা করুন: আপনার প্রধান চরিত্রের মুখ কাটের মধ্যে সূক্ষ্মভাবে পরিবর্তিত হওয়ার মুহূর্তটি গল্পটি ভেঙে দেয়। 2025 সালে, আমরা অবশেষে মডেলগুলিকে স্থাপত্য উদ্ভাবনের সাথে এই সমস্যাটি সমাধান করতে দেখেছি যা একটি কঠিন শিখরে পরিকল্পিত রুটের মতোই মার্জিত। আমাকে আপনাকে মধ্য দিয়ে হাঁটতে দিন যে আধুনিক ভিডিও মডেলগুলি কীভাবে মুখ মনে রাখতে শিখছে।
সামঞ্জস্য চ্যালেঞ্জ
ঐতিহ্যবাহী বিচ্ছুরণ মডেল প্রতিটি ফ্রেম সম্ভাবনাগত স্যাম্পলিং দিয়ে তৈরি করে। এটি বৈচিত্র্য প্রবর্তন করে—বৈচিত্র্যের জন্য উপকারী, পরিচয়ের জন্য সমস্যাজনক। 24fps-এ একটি 10-সেকেন্ডের ভিডিও তৈরি করার সময়, মডেল 240টি ক্রমান্বয়ে সিদ্ধান্ত নেয়, প্রতিটিতে বিপথগমনের সুযোগ রয়েছে।
# মূল সমস্যা: প্রতিটি ডিনোইজিং পদক্ষেপ বৈচিত্র্য প্রবর্তন করে
def denoise_step(x_t, model, t):
noise_pred = model(x_t, t)
# এই স্যাম্পলিং স্টোকাস্টিসিটি প্রবর্তন করে
x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
return x_t_minus_1 # ছোট বৈচিত্র্য ফ্রেম জুড়ে জমা হয়Gen-1 এবং Pika 1.0 এর মতো প্রাথমিক ভিডিও মডেলগুলি এটির সাথে স্পষ্টভাবে সংগ্রাম করেছিল। চরিত্রগুলি চেহারায় স্থানান্তরিত হবে, শটের মধ্যে সামান্য বয়সী হবে, বা অসঙ্গত বৈশিষ্ট্য বিকাশ করবে—যা অনুশীলনকারীরা "পরিচয় প্রবাহ" বলে। যুগান্তকারী উদ্ভাবন চরিত্র সামঞ্জস্যকে পোস্ট-প্রসেসিং সমস্যা হিসাবে নয়, বরং স্থাপত্য সমস্যা হিসাবে বিবেচনা করা থেকে এসেছিল।
পরিচয়-সংরক্ষণ এমবেডিং: ভিত্তি
প্রথম প্রধান উদ্ভাবন ছিল নিবেদিত পরিচয় এমবেডিং প্রবর্তন করা যা প্রজন্ম প্রক্রিয়া জুড়ে স্থায়ী হয়। শুধুমাত্র পাঠ্য শর্তাধীনতার উপর নির্ভর করার পরিবর্তে, মডেলগুলি এখন স্পষ্ট পরিচয় টোকেন বজায় রাখে:
class IdentityEncoder(nn.Module):
def __init__(self, embed_dim=768):
super().__init__()
self.face_encoder = FaceRecognitionBackbone() # প্রি-প্রশিক্ষিত মুখের মডেল
self.projection = nn.Linear(512, embed_dim)
self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
def encode_identity(self, reference_frame):
# রেফারেন্স থেকে পরিচয় বৈশিষ্ট্য নিষ্কাশন করুন
face_features = self.face_encoder(reference_frame)
identity_embed = self.projection(face_features)
# শেখা পরিচয় টোকেনগুলির সাথে ক্রস-উপস্থিত করুন
identity_tokens = self.cross_attention(
query=self.identity_bank,
key=identity_embed,
value=identity_embed
)
return identity_tokensএই পরিচয় টোকেনগুলি তখন বিচ্ছুরণ প্রক্রিয়ার প্রতিটি ডিনোইজিং পদক্ষেপে ইনজেক্ট করা হয়, যা আমি "অ্যাঙ্করপয়েন্ট" হিসাবে চিন্তা করতে পছন্দ করি—একটি পর্বতারোহণ রুটে স্থির সুরক্ষার মতো যা আপনি যখনই অনিশ্চয়তার পরিস্থিতি হয় তখনই ফিরে ক্লিপ করতে পারেন।
ক্রস-ফ্রেম মনোযোগ: অনুসূচী পরিচয় শেখা
দ্বিতীয় যুগান্তকারী ছিল স্থাপত্য: মডেলগুলি এখন চরিত্রের চেহারা সম্পর্কে সিদ্ধান্ত নেওয়ার সময় স্পষ্টভাবে ফ্রেম জুড়ে মনোযোগ দেয়। বিচ্ছুরণ ট্রান্সফর্মার্স স্বাভাবিকভাবে তাদের স্পেসটাইম প্যাচ প্রসেসিংয়ের মাধ্যমে এটি সমর্থন করে, তবে সামঞ্জস্য-কেন্দ্রিক মডেলগুলি আরও এগিয়ে যায়।
মূল উদ্ভাবন: নিবেদিত পরিচয় মনোযোগ স্তর যা বিশেষভাবে অনুসূচী মাত্রা জুড়ে মুখের অঞ্চলগুলিতে মনোযোগ দেয়:
class IdentityAwareAttention(nn.Module):
def __init__(self, dim, num_heads=8):
super().__init__()
self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
self.identity_attn = nn.MultiheadAttention(dim, num_heads)
def forward(self, x, identity_tokens, face_masks):
# ফ্রেমের মধ্যে মানক স্থানিক মনোযোগ
x = self.spatial_attn(x, x, x)[0] + x
# ফ্রেম জুড়ে অনুসূচী মনোযোগ
x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
x = self.temporal_attn(x, x, x)[0] + x
x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
# মুখের অঞ্চলগুলি ব্যবহার করে পরিচয়-নির্দিষ্ট মনোযোগ
face_tokens = x * face_masks.unsqueeze(-1)
x = self.identity_attn(
query=x,
key=identity_tokens,
value=identity_tokens
)[0] + x
return xএই ত্রিমুখী মনোযোগ প্রক্রিয়া—স্থানিক, অনুসূচী এবং পরিচয়-নির্দিষ্ট—মডেলকে প্রতিষ্ঠিত পরিচয় এবং পূর্ববর্তী ফ্রেমগুলি উভয়কেই স্পষ্টভাবে উল্লেখ করার সময় চেহারার সিদ্ধান্ত নিতে দেয়।
বর্তমান মডেল পদ্ধতি তুলনা
প্রধান ভিডিও প্রজন্ম প্ল্যাটফর্মগুলি চরিত্র সামঞ্জস্যকে আলাদাভাবে প্রয়োগ করেছে:
| মডেল | পদ্ধতি | সামঞ্জস্য পদ্ধতি | কার্যকারিতা |
|---|---|---|---|
| Sora 2 | স্পেসটাইম প্যাচ | দীর্ঘ প্রেক্ষাপটের মাধ্যমে অপ্রকাশ্য | সংক্ষিপ্ত ক্লিপের জন্য ভাল |
| Veo 3 | বহু-পর্যায়ের প্রজন্ম | কীফ্রেম এঙ্করিং | মানব গতির জন্য শক্তিশালী |
| Gen-4.5 | রেফারেন্স শর্তাযুক্ততা | স্পষ্ট পরিচয় ইনজেকশন | সর্বোত্তম-ইন-ক্লাস সামঞ্জস্য |
| Kling 1.6 | মুখ-সচেতন মনোযোগ | নিবেদিত মুখ ট্র্যাকিং | ক্লোজ-আপের জন্য শক্তিশালী |
Runway এর Gen-4.5 এখানে বিশেষ উল্লেখের যোগ্য। তাদের পদ্ধতি রেফারেন্স ইমেজ শর্তাযুক্ততার সাথে একত্রিত করে যা তারা "পরিচয় তালা" বলে—শেখা টোকেন যা মডেল অন্যান্য প্রজন্মমূলক সিদ্ধান্ত নির্বিশেষে সংরক্ষণ করার জন্য প্রশিক্ষিত হয়। এই স্থাপত্য পছন্দ সম্ভবত তাদের ভিডিও অ্যারেনা আধিপত্যে অবদান রেখেছে।
রেফারেন্স ফ্রেম প্যারাডাইম
2025 সালে একটি উল্লেখযোগ্য পরিবর্তন ছিল রেফারেন্স-শর্তযুক্ত প্রজন্মের দিকে পরিবর্তন। শুধুমাত্র পাঠ্য বর্ণনা থেকে চরিত্রগুলি তৈরি করার পরিবর্তে, মডেলগুলি এখন রেফারেন্স ইমেজ গ্রহণ করে যা প্রামাণিক চেহারা প্রতিষ্ঠা করে:
class ReferenceConditionedGenerator:
def __init__(self, base_model, identity_encoder):
self.model = base_model
self.identity_encoder = identity_encoder
def generate(self, prompt, reference_images, num_frames=120):
# রেফারেন্স ইমেজ থেকে পরিচয় এনকোড করুন
identity_embeds = []
for ref in reference_images:
identity_embeds.append(self.identity_encoder(ref))
# শক্তিশালী পরিচয়ের জন্য একাধিক রেফারেন্স পুল করুন
identity_tokens = torch.stack(identity_embeds).mean(dim=0)
# পরিচয় শর্তাযুক্ততার সাথে উৎপাদন করুন
video = self.model.generate(
prompt=prompt,
num_frames=num_frames,
cross_attention_kwargs={
"identity_tokens": identity_tokens,
"identity_strength": 0.8 # সামঞ্জস্য বনাম সৃজনশীলতা ভারসাম্য
}
)
return videoidentity_strength পরামিতি একটি গুরুত্বপূর্ণ ট্রেড-অফ প্রতিনিধিত্ব করে। খুব বেশি, এবং মডেল কঠোর হয়ে ওঠে, প্রাকৃতিক অভিব্যক্তি বৈচিত্র্য দেখাতে অক্ষম। খুব কম, এবং প্রবাহ ফেরত আসে। মিষ্টি জায়গা খুঁজে বের করা—সাধারণত 0.7-0.85 এর চারপাশে—শিল্প এবং বিজ্ঞানের অংশ।
পরিচয় সংরক্ষণের জন্য ক্ষতি ফাংশন
এই সিস্টেমগুলি প্রশিক্ষণের জন্য বিশেষ ক্ষতি ফাংশন প্রয়োজন যা স্পষ্টভাবে পরিচয় প্রবাহ শাস্তি দেয়:
পরিচয় সংরক্ষণ ক্ষতি:
L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²যেখানে f একটি প্রাক-প্রশিক্ষিত মুখ স্বীকৃতি এনকোডার, G জেনারেটর এবং v_t উত্পাদিত ফ্রেম প্রতিনিধিত্ব করে। প্রথম শব্দটি নিশ্চিত করে যে উত্পাদিত মুখগুলি রেফারেন্সগুলি মেলে; দ্বিতীয়টি ফ্রেম-টু-ফ্রেম বৈচিত্র্য শাস্তি দেয়।
def identity_preservation_loss(generated_video, reference_faces, face_encoder):
# রেফারেন্সের জন্য প্রতি-ফ্রেম পরিচয় মিলান
frame_losses = []
for frame in generated_video:
face_embed = face_encoder(frame)
ref_embed = face_encoder(reference_faces).mean(dim=0)
frame_losses.append(F.mse_loss(face_embed, ref_embed))
reference_loss = torch.stack(frame_losses).mean()
# সংলগ্ন ফ্রেমগুলির মধ্যে অনুসূচী সামঞ্জস্য
temporal_losses = []
for i in range(len(generated_video) - 1):
curr_embed = face_encoder(generated_video[i])
next_embed = face_encoder(generated_video[i + 1])
temporal_losses.append(F.mse_loss(curr_embed, next_embed))
temporal_loss = torch.stack(temporal_losses).mean()
return reference_loss + 0.5 * temporal_lossবহু-চরিত্র পরিস্থিতি: কঠিন সমস্যা
একক-চরিত্র সামঞ্জস্য বৃহত্তর সমাধান করা হয়েছে। বহু-চরিত্র পরিস্থিতি—যেখানে একাধিক স্বতন্ত্র পরিচয় একযোগে বজায় রাখা আবশ্যক—চ্যালেঞ্জিং থেকে যায়। মনোযোগ প্রক্রিয়া পরিচয় দ্বন্দ্ব করতে পারে, চরিত্রগুলির মধ্যে বৈশিষ্ট্য রক্তপাত সঙ্গে।
বর্তমান পদ্ধতি পৃথক পরিচয় ব্যাংক ব্যবহার করে:
class MultiCharacterIdentityBank:
def __init__(self, max_characters=8, embed_dim=768):
self.banks = nn.ModuleList([
IdentityBank(embed_dim) for _ in range(max_characters)
])
self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
def encode_multiple(self, character_references):
all_tokens = []
for idx, refs in enumerate(character_references):
char_tokens = self.banks[idx].encode(refs)
# দ্বন্দ্ব প্রতিরোধ করতে বিভাজক যোগ করুন
char_tokens = torch.cat([char_tokens, self.character_separator])
all_tokens.append(char_tokens)
return torch.cat(all_tokens, dim=0)বিভাজক টোকেনগুলি পর্বতারোহীদের মধ্যে বেলে মত কাজ করে—নিকটবর্তী অঞ্চলে কাজ করার সময়ও স্বতন্ত্র পরিচয় বজায় রাখে।
সৃজনশীলদের জন্য ব্যবহারিক প্রভাব
যারা এই সরঞ্জামগুলি তৈরি করার পরিবর্তে ব্যবহার করছেন তাদের জন্য, বেশ কয়েকটি ব্যবহারিক প্যাটার্ন উদীয়মান হয়েছে:
রেফারেন্স ইমেজ গুণমান গুরুত্বপূর্ণ: উচ্চ-রেজোলিউশন, সুস্থ-আলোকিত রেফারেন্স ছবি নিরপেক্ষ অভিব্যক্তি সঙ্গে আরও সামঞ্জস্যপূর্ণ ফলাফল উৎপাদন। মডেল এই অ্যাঙ্কর থেকে পরিচয় শিখে, এবং শব্দ প্রচার।
একাধিক রেফারেন্স শক্তিশালীতা উন্নত করে: বিভিন্ন কোণ থেকে 3-5টি রেফারেন্স ছবি প্রদান করা মডেলকে একটি আরও সম্পূর্ণ পরিচয় প্রতিনিধিত্ব তৈরি করতে সাহায্য করে। এটিকে একাধিক পয়েন্ট থেকে একটি অবস্থান ত্রিভুজ করার মতো মনে করুন।
সামঞ্জস্যের জন্য প্রম্পট ইঞ্জিনিয়ারিং: প্রম্পটে স্পষ্ট পরিচয় বর্ণনা ভিজ্যুয়াল সামঞ্জস্য শক্তিশালী করে। "একটি 30 বছর বয়সী মহিলা ছোট বাদামী চুল এবং সবুজ চোখ সঙ্গে" মডেল লাভ করতে পারেন অতিরিক্ত সীমাবদ্ধতা প্রদান করে।
সামনের পথ
আমরা একটি থ্রেশহোল্ডে পৌঁছাচ্ছি যেখানে এআই-প্রজন্মিত ভিডিও বর্ণনা গল্প বলার জন্য যথেষ্ট চরিত্র সামঞ্জস্য বজায় রাখতে পারে। অবশিষ্ট চ্যালেঞ্জগুলি—সূক্ষ্ম অভিব্যক্তি সামঞ্জস্য, 60 সেকেন্ডের বাইরে দীর্ঘ-ফর্ম প্রজন্ম এবং বহু-চরিত্র মিথস্ক্রিয়া—সক্রিয়ভাবে সম্বোধন করা হচ্ছে।
Bonega.ai তে, আমরা বিশেষভাবে আগ্রহী যে এই সামঞ্জস্য উন্নতি কীভাবে ভিডিও এক্সটেনশন ক্ষমতা এর সাথে একীভূত হয়। নিখুঁত চরিত্র সামঞ্জস্য বজায় রেখে বিদ্যমান ফুটেজ প্রসারিত করার ক্ষমতা সৃজনশীল সম্ভাবনা খুলে দেয় যা সহজেই 12 মাস আগে সম্ভব ছিল না।
পরিচয়কে প্রথম-শ্রেণীর স্থাপত্য উদ্বেগ হিসাবে বিবেচনা করা গণিতগত কমনীয়তা, প্রকাশোত্তর সংশোধনের পরিবর্তে, চিহ্ন কীভাবে আমরা ভিডিও প্রজন্ম সম্পর্কে চিন্তা করি তাতে একটি পরিপক্কতা চিহ্নিত করে। একটি শিখর পুশের আগে একটি সুস্থিত উচ্চ ক্যাম্প স্থাপনের মতো, এই ভিত্তিগত উন্নতিগুলি দীর্ঘ, আরও উচ্চাভিলাষী সৃজনশীল যাত্রাগুলিকে সক্ষম করে যা আগে রয়েছে।
চরিত্র সামঞ্জস্য শুধু একটি প্রযুক্তিগত মেট্রিক নয়—এটি ভিজ্যুয়াল গল্প বলার ভিত্তি। এবং 2025 সালে, সেই ভিত্তি অবশেষে শক্তিশালী হয়ে উঠেছে যার উপর নির্মাণ করা যায়।
এই নিবন্ধটি কি সহায়ক ছিল?

Alexis
এআই ইঞ্জিনিয়ারলোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।
সম্পর্কিত নিবন্ধসমূহ
এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

এআই ভিডিও ২০২৫, সবকিছু পরিবর্তনের বছর
Sora 2 থেকে নেটিভ অডিও পর্যন্ত, বিলিয়ন ডলারের ডিজনি ডিল থেকে ১০০ জনের টিম ট্রিলিয়ন ডলার কোম্পানিকে পরাজিত করা পর্যন্ত, ২০২৫ ছিল সেই বছর যখন এআই ভিডিও বাস্তব হয়ে উঠল। এটি যা ঘটেছে এবং এর অর্থ কী তা এখানে।

লুমা রে৩ মডিফাই: ৯০০ মিলিয়ন ডলারের বাজি যা চলচ্চিত্র উৎপাদনকে বিঘ্নিত করতে পারে
লুমা ল্যাবস ৯০০ মিলিয়ন ডলার তহবিল সুরক্ষিত করেছে এবং রে৩ মডিফাই চালু করেছে, এটি একটি সরঞ্জাম যা চরিত্র অদলবদল করার সময় মূল পারফরম্যান্স সংরক্ষণ করে চিত্রিত ফুটেজকে রূপান্তরিত করে। এটি কি ঐতিহ্যবাহী ভিএফএক্স পাইপলাইনের সমাপ্তির শুরু?

ByteDance Vidi2: এআই যা ভিডিও বোঝে একজন সম্পাদকের মতো
ByteDance এইমাত্র Vidi2 ওপেন-সোর্স করেছে, একটি 12B প্যারামিটার মডেল যা ভিডিও কন্টেন্ট এতটাই ভালোভাবে বোঝে যে ঘন্টার পর ঘন্টার ফুটেজকে স্বয়ংক্রিয়ভাবে পালিশ করা ক্লিপে রূপান্তরিত করে। এটি ইতিমধ্যে TikTok Smart Split চালিত করছে।