এআই ভিডিওতে চরিত্র সামঞ্জস্য: মডেলগুলি কীভাবে মুখ মনে রাখতে শিখছে

এআই ভিডিও প্রজন্মের সবচেয়ে অধ্যবসায়ী চ্যালেঞ্জগুলির মধ্যে একটি হল শট জুড়ে চরিত্র সামঞ্জস্য বজায় রাখা। যেকোনো চলচ্চিত্রকারকে জিজ্ঞাসা করুন: আপনার প্রধান চরিত্রের মুখ কাটের মধ্যে সূক্ষ্মভাবে পরিবর্তিত হওয়ার মুহূর্তটি গল্পটি ভেঙে দেয়। 2025 সালে, আমরা অবশেষে মডেলগুলিকে স্থাপত্য উদ্ভাবনের সাথে এই সমস্যাটি সমাধান করতে দেখেছি যা একটি কঠিন শিখরে পরিকল্পিত রুটের মতোই মার্জিত। আমাকে আপনাকে মধ্য দিয়ে হাঁটতে দিন যে আধুনিক ভিডিও মডেলগুলি কীভাবে মুখ মনে রাখতে শিখছে।

সামঞ্জস্য চ্যালেঞ্জ

ঐতিহ্যবাহী বিচ্ছুরণ মডেল প্রতিটি ফ্রেম সম্ভাবনাগত স্যাম্পলিং দিয়ে তৈরি করে। এটি বৈচিত্র্য প্রবর্তন করে—বৈচিত্র্যের জন্য উপকারী, পরিচয়ের জন্য সমস্যাজনক। 24fps-এ একটি 10-সেকেন্ডের ভিডিও তৈরি করার সময়, মডেল 240টি ক্রমান্বয়ে সিদ্ধান্ত নেয়, প্রতিটিতে বিপথগমনের সুযোগ রয়েছে।

# মূল সমস্যা: প্রতিটি ডিনোইজিং পদক্ষেপ বৈচিত্র্য প্রবর্তন করে
def denoise_step(x_t, model, t):
    noise_pred = model(x_t, t)
    # এই স্যাম্পলিং স্টোকাস্টিসিটি প্রবর্তন করে
    x_t_minus_1 = scheduler.step(noise_pred, t, x_t).prev_sample
    return x_t_minus_1  # ছোট বৈচিত্র্য ফ্রেম জুড়ে জমা হয়

Gen-1 এবং Pika 1.0 এর মতো প্রাথমিক ভিডিও মডেলগুলি এটির সাথে স্পষ্টভাবে সংগ্রাম করেছিল। চরিত্রগুলি চেহারায় স্থানান্তরিত হবে, শটের মধ্যে সামান্য বয়সী হবে, বা অসঙ্গত বৈশিষ্ট্য বিকাশ করবে—যা অনুশীলনকারীরা "পরিচয় প্রবাহ" বলে। যুগান্তকারী উদ্ভাবন চরিত্র সামঞ্জস্যকে পোস্ট-প্রসেসিং সমস্যা হিসাবে নয়, বরং স্থাপত্য সমস্যা হিসাবে বিবেচনা করা থেকে এসেছিল।

পরিচয়-সংরক্ষণ এমবেডিং: ভিত্তি

প্রথম প্রধান উদ্ভাবন ছিল নিবেদিত পরিচয় এমবেডিং প্রবর্তন করা যা প্রজন্ম প্রক্রিয়া জুড়ে স্থায়ী হয়। শুধুমাত্র পাঠ্য শর্তাধীনতার উপর নির্ভর করার পরিবর্তে, মডেলগুলি এখন স্পষ্ট পরিচয় টোকেন বজায় রাখে:

class IdentityEncoder(nn.Module):
    def __init__(self, embed_dim=768):
        super().__init__()
        self.face_encoder = FaceRecognitionBackbone()  # প্রি-প্রশিক্ষিত মুখের মডেল
        self.projection = nn.Linear(512, embed_dim)
        self.identity_bank = nn.Parameter(torch.randn(32, embed_dim))
 
    def encode_identity(self, reference_frame):
        # রেফারেন্স থেকে পরিচয় বৈশিষ্ট্য নিষ্কাশন করুন
        face_features = self.face_encoder(reference_frame)
        identity_embed = self.projection(face_features)
 
        # শেখা পরিচয় টোকেনগুলির সাথে ক্রস-উপস্থিত করুন
        identity_tokens = self.cross_attention(
            query=self.identity_bank,
            key=identity_embed,
            value=identity_embed
        )
        return identity_tokens

এই পরিচয় টোকেনগুলি তখন বিচ্ছুরণ প্রক্রিয়ার প্রতিটি ডিনোইজিং পদক্ষেপে ইনজেক্ট করা হয়, যা আমি "অ্যাঙ্করপয়েন্ট" হিসাবে চিন্তা করতে পছন্দ করি—একটি পর্বতারোহণ রুটে স্থির সুরক্ষার মতো যা আপনি যখনই অনিশ্চয়তার পরিস্থিতি হয় তখনই ফিরে ক্লিপ করতে পারেন।

ক্রস-ফ্রেম মনোযোগ: অনুসূচী পরিচয় শেখা

দ্বিতীয় যুগান্তকারী ছিল স্থাপত্য: মডেলগুলি এখন চরিত্রের চেহারা সম্পর্কে সিদ্ধান্ত নেওয়ার সময় স্পষ্টভাবে ফ্রেম জুড়ে মনোযোগ দেয়। বিচ্ছুরণ ট্রান্সফর্মার্স স্বাভাবিকভাবে তাদের স্পেসটাইম প্যাচ প্রসেসিংয়ের মাধ্যমে এটি সমর্থন করে, তবে সামঞ্জস্য-কেন্দ্রিক মডেলগুলি আরও এগিয়ে যায়।

মূল উদ্ভাবন: নিবেদিত পরিচয় মনোযোগ স্তর যা বিশেষভাবে অনুসূচী মাত্রা জুড়ে মুখের অঞ্চলগুলিতে মনোযোগ দেয়:

class IdentityAwareAttention(nn.Module):
    def __init__(self, dim, num_heads=8):
        super().__init__()
        self.spatial_attn = nn.MultiheadAttention(dim, num_heads)
        self.temporal_attn = nn.MultiheadAttention(dim, num_heads)
        self.identity_attn = nn.MultiheadAttention(dim, num_heads)
 
    def forward(self, x, identity_tokens, face_masks):
        # ফ্রেমের মধ্যে মানক স্থানিক মনোযোগ
        x = self.spatial_attn(x, x, x)[0] + x
 
        # ফ্রেম জুড়ে অনুসূচী মনোযোগ
        x = rearrange(x, '(b t) n d -> (b n) t d', t=num_frames)
        x = self.temporal_attn(x, x, x)[0] + x
        x = rearrange(x, '(b n) t d -> (b t) n d', n=num_patches)
 
        # মুখের অঞ্চলগুলি ব্যবহার করে পরিচয়-নির্দিষ্ট মনোযোগ
        face_tokens = x * face_masks.unsqueeze(-1)
        x = self.identity_attn(
            query=x,
            key=identity_tokens,
            value=identity_tokens
        )[0] + x
 
        return x

এই ত্রিমুখী মনোযোগ প্রক্রিয়া—স্থানিক, অনুসূচী এবং পরিচয়-নির্দিষ্ট—মডেলকে প্রতিষ্ঠিত পরিচয় এবং পূর্ববর্তী ফ্রেমগুলি উভয়কেই স্পষ্টভাবে উল্লেখ করার সময় চেহারার সিদ্ধান্ত নিতে দেয়।

বর্তমান মডেল পদ্ধতি তুলনা

প্রধান ভিডিও প্রজন্ম প্ল্যাটফর্মগুলি চরিত্র সামঞ্জস্যকে আলাদাভাবে প্রয়োগ করেছে:

মডেল	পদ্ধতি	সামঞ্জস্য পদ্ধতি	কার্যকারিতা
Sora 2	স্পেসটাইম প্যাচ	দীর্ঘ প্রেক্ষাপটের মাধ্যমে অপ্রকাশ্য	সংক্ষিপ্ত ক্লিপের জন্য ভাল
Veo 3	বহু-পর্যায়ের প্রজন্ম	কীফ্রেম এঙ্করিং	মানব গতির জন্য শক্তিশালী
Gen-4.5	রেফারেন্স শর্তাযুক্ততা	স্পষ্ট পরিচয় ইনজেকশন	সর্বোত্তম-ইন-ক্লাস সামঞ্জস্য
Kling 1.6	মুখ-সচেতন মনোযোগ	নিবেদিত মুখ ট্র্যাকিং	ক্লোজ-আপের জন্য শক্তিশালী

Runway এর Gen-4.5 এখানে বিশেষ উল্লেখের যোগ্য। তাদের পদ্ধতি রেফারেন্স ইমেজ শর্তাযুক্ততার সাথে একত্রিত করে যা তারা "পরিচয় তালা" বলে—শেখা টোকেন যা মডেল অন্যান্য প্রজন্মমূলক সিদ্ধান্ত নির্বিশেষে সংরক্ষণ করার জন্য প্রশিক্ষিত হয়। এই স্থাপত্য পছন্দ সম্ভবত তাদের ভিডিও অ্যারেনা আধিপত্যে অবদান রেখেছে।

রেফারেন্স ফ্রেম প্যারাডাইম

2025 সালে একটি উল্লেখযোগ্য পরিবর্তন ছিল রেফারেন্স-শর্তযুক্ত প্রজন্মের দিকে পরিবর্তন। শুধুমাত্র পাঠ্য বর্ণনা থেকে চরিত্রগুলি তৈরি করার পরিবর্তে, মডেলগুলি এখন রেফারেন্স ইমেজ গ্রহণ করে যা প্রামাণিক চেহারা প্রতিষ্ঠা করে:

class ReferenceConditionedGenerator:
    def __init__(self, base_model, identity_encoder):
        self.model = base_model
        self.identity_encoder = identity_encoder
 
    def generate(self, prompt, reference_images, num_frames=120):
        # রেফারেন্স ইমেজ থেকে পরিচয় এনকোড করুন
        identity_embeds = []
        for ref in reference_images:
            identity_embeds.append(self.identity_encoder(ref))
 
        # শক্তিশালী পরিচয়ের জন্য একাধিক রেফারেন্স পুল করুন
        identity_tokens = torch.stack(identity_embeds).mean(dim=0)
 
        # পরিচয় শর্তাযুক্ততার সাথে উৎপাদন করুন
        video = self.model.generate(
            prompt=prompt,
            num_frames=num_frames,
            cross_attention_kwargs={
                "identity_tokens": identity_tokens,
                "identity_strength": 0.8  # সামঞ্জস্য বনাম সৃজনশীলতা ভারসাম্য
            }
        )
        return video

identity_strength পরামিতি একটি গুরুত্বপূর্ণ ট্রেড-অফ প্রতিনিধিত্ব করে। খুব বেশি, এবং মডেল কঠোর হয়ে ওঠে, প্রাকৃতিক অভিব্যক্তি বৈচিত্র্য দেখাতে অক্ষম। খুব কম, এবং প্রবাহ ফেরত আসে। মিষ্টি জায়গা খুঁজে বের করা—সাধারণত 0.7-0.85 এর চারপাশে—শিল্প এবং বিজ্ঞানের অংশ।

পরিচয় সংরক্ষণের জন্য ক্ষতি ফাংশন

এই সিস্টেমগুলি প্রশিক্ষণের জন্য বিশেষ ক্ষতি ফাংশন প্রয়োজন যা স্পষ্টভাবে পরিচয় প্রবাহ শাস্তি দেয়:

পরিচয় সংরক্ষণ ক্ষতি:

L_identity = ||f(G(z, c)) - f(x_ref)||² + λ_temporal * Σ_t ||f(v_t) - f(v_{t+1})||²

যেখানে f একটি প্রাক-প্রশিক্ষিত মুখ স্বীকৃতি এনকোডার, G জেনারেটর এবং v_t উত্পাদিত ফ্রেম প্রতিনিধিত্ব করে। প্রথম শব্দটি নিশ্চিত করে যে উত্পাদিত মুখগুলি রেফারেন্সগুলি মেলে; দ্বিতীয়টি ফ্রেম-টু-ফ্রেম বৈচিত্র্য শাস্তি দেয়।

def identity_preservation_loss(generated_video, reference_faces, face_encoder):
    # রেফারেন্সের জন্য প্রতি-ফ্রেম পরিচয় মিলান
    frame_losses = []
    for frame in generated_video:
        face_embed = face_encoder(frame)
        ref_embed = face_encoder(reference_faces).mean(dim=0)
        frame_losses.append(F.mse_loss(face_embed, ref_embed))
 
    reference_loss = torch.stack(frame_losses).mean()
 
    # সংলগ্ন ফ্রেমগুলির মধ্যে অনুসূচী সামঞ্জস্য
    temporal_losses = []
    for i in range(len(generated_video) - 1):
        curr_embed = face_encoder(generated_video[i])
        next_embed = face_encoder(generated_video[i + 1])
        temporal_losses.append(F.mse_loss(curr_embed, next_embed))
 
    temporal_loss = torch.stack(temporal_losses).mean()
 
    return reference_loss + 0.5 * temporal_loss

বহু-চরিত্র পরিস্থিতি: কঠিন সমস্যা

একক-চরিত্র সামঞ্জস্য বৃহত্তর সমাধান করা হয়েছে। বহু-চরিত্র পরিস্থিতি—যেখানে একাধিক স্বতন্ত্র পরিচয় একযোগে বজায় রাখা আবশ্যক—চ্যালেঞ্জিং থেকে যায়। মনোযোগ প্রক্রিয়া পরিচয় দ্বন্দ্ব করতে পারে, চরিত্রগুলির মধ্যে বৈশিষ্ট্য রক্তপাত সঙ্গে।

বর্তমান পদ্ধতি পৃথক পরিচয় ব্যাংক ব্যবহার করে:

class MultiCharacterIdentityBank:
    def __init__(self, max_characters=8, embed_dim=768):
        self.banks = nn.ModuleList([
            IdentityBank(embed_dim) for _ in range(max_characters)
        ])
        self.character_separator = nn.Parameter(torch.randn(1, embed_dim))
 
    def encode_multiple(self, character_references):
        all_tokens = []
        for idx, refs in enumerate(character_references):
            char_tokens = self.banks[idx].encode(refs)
            # দ্বন্দ্ব প্রতিরোধ করতে বিভাজক যোগ করুন
            char_tokens = torch.cat([char_tokens, self.character_separator])
            all_tokens.append(char_tokens)
        return torch.cat(all_tokens, dim=0)

বিভাজক টোকেনগুলি পর্বতারোহীদের মধ্যে বেলে মত কাজ করে—নিকটবর্তী অঞ্চলে কাজ করার সময়ও স্বতন্ত্র পরিচয় বজায় রাখে।

সৃজনশীলদের জন্য ব্যবহারিক প্রভাব

যারা এই সরঞ্জামগুলি তৈরি করার পরিবর্তে ব্যবহার করছেন তাদের জন্য, বেশ কয়েকটি ব্যবহারিক প্যাটার্ন উদীয়মান হয়েছে:

রেফারেন্স ইমেজ গুণমান গুরুত্বপূর্ণ: উচ্চ-রেজোলিউশন, সুস্থ-আলোকিত রেফারেন্স ছবি নিরপেক্ষ অভিব্যক্তি সঙ্গে আরও সামঞ্জস্যপূর্ণ ফলাফল উৎপাদন। মডেল এই অ্যাঙ্কর থেকে পরিচয় শিখে, এবং শব্দ প্রচার।

একাধিক রেফারেন্স শক্তিশালীতা উন্নত করে: বিভিন্ন কোণ থেকে 3-5টি রেফারেন্স ছবি প্রদান করা মডেলকে একটি আরও সম্পূর্ণ পরিচয় প্রতিনিধিত্ব তৈরি করতে সাহায্য করে। এটিকে একাধিক পয়েন্ট থেকে একটি অবস্থান ত্রিভুজ করার মতো মনে করুন।

সামঞ্জস্যের জন্য প্রম্পট ইঞ্জিনিয়ারিং: প্রম্পটে স্পষ্ট পরিচয় বর্ণনা ভিজ্যুয়াল সামঞ্জস্য শক্তিশালী করে। "একটি 30 বছর বয়সী মহিলা ছোট বাদামী চুল এবং সবুজ চোখ সঙ্গে" মডেল লাভ করতে পারেন অতিরিক্ত সীমাবদ্ধতা প্রদান করে।

সামনের পথ

আমরা একটি থ্রেশহোল্ডে পৌঁছাচ্ছি যেখানে এআই-প্রজন্মিত ভিডিও বর্ণনা গল্প বলার জন্য যথেষ্ট চরিত্র সামঞ্জস্য বজায় রাখতে পারে। অবশিষ্ট চ্যালেঞ্জগুলি—সূক্ষ্ম অভিব্যক্তি সামঞ্জস্য, 60 সেকেন্ডের বাইরে দীর্ঘ-ফর্ম প্রজন্ম এবং বহু-চরিত্র মিথস্ক্রিয়া—সক্রিয়ভাবে সম্বোধন করা হচ্ছে।

Bonega.ai তে, আমরা বিশেষভাবে আগ্রহী যে এই সামঞ্জস্য উন্নতি কীভাবে ভিডিও এক্সটেনশন ক্ষমতা এর সাথে একীভূত হয়। নিখুঁত চরিত্র সামঞ্জস্য বজায় রেখে বিদ্যমান ফুটেজ প্রসারিত করার ক্ষমতা সৃজনশীল সম্ভাবনা খুলে দেয় যা সহজেই 12 মাস আগে সম্ভব ছিল না।

পরিচয়কে প্রথম-শ্রেণীর স্থাপত্য উদ্বেগ হিসাবে বিবেচনা করা গণিতগত কমনীয়তা, প্রকাশোত্তর সংশোধনের পরিবর্তে, চিহ্ন কীভাবে আমরা ভিডিও প্রজন্ম সম্পর্কে চিন্তা করি তাতে একটি পরিপক্কতা চিহ্নিত করে। একটি শিখর পুশের আগে একটি সুস্থিত উচ্চ ক্যাম্প স্থাপনের মতো, এই ভিত্তিগত উন্নতিগুলি দীর্ঘ, আরও উচ্চাভিলাষী সৃজনশীল যাত্রাগুলিকে সক্ষম করে যা আগে রয়েছে।

চরিত্র সামঞ্জস্য শুধু একটি প্রযুক্তিগত মেট্রিক নয়—এটি ভিজ্যুয়াল গল্প বলার ভিত্তি। এবং 2025 সালে, সেই ভিত্তি অবশেষে শক্তিশালী হয়ে উঠেছে যার উপর নির্মাণ করা যায়।