২০২৫ সালে AI ভিডিও Prompt Engineering-এর সম্পূর্ণ গাইড

AI ভিডিওর জন্য prompt engineering একটি রেসিপি নিখুঁত করার মতো: একই উপাদান ব্যবহার করেও কৌশলের উপর নির্ভর করে সম্পূর্ণ ভিন্ন ফলাফল পাওয়া যায়। প্রতিটি প্রধান platform-এ অসংখ্য ঘণ্টা ভিডিও তৈরি করার পর, যা সত্যিই কাজ করে তা আমি একটি ব্যবহারিক framework-এ সংক্ষিপ্ত করেছি। চলুন গোলমাল এড়িয়ে এমন কৌশলগুলোতে মনোনিবেশ করি যা ধারাবাহিক, পেশাদার ফলাফল দেয়।

কেন ভিডিও Prompt ভিন্ন

আপনি যদি Midjourney বা DALL-E-এর মতো ইমেজ জেনারেটরের সাথে কাজ করে থাকেন, তাহলে মনে করতে পারেন ভিডিও prompt একইভাবে কাজ করে। তারা তা করে না। ভিডিও একটি temporal dimension যোগ করে—গতিবিধি, pacing, transition—যা prompt engineering-কে একটি একক নির্দেশনা থেকে একটি sequence পরিচালনায় রূপান্তরিত করে।

এটিকে একটি ছবি তোলা এবং একটি দৃশ্য পরিচালনা করার মধ্যে পার্থক্যের মতো ভাবুন। একটি ছবির জন্য, আপনি শট সেট আপ করেন। ভিডিওর জন্য, আপনাকে সময়ের সাথে কী ঘটবে তা choreograph করতে হবে:

ক্যামেরা কীভাবে নড়াচড়া করে?
কী কী action ঘটে?
প্রতিটি element কতক্ষণ স্থায়ী হয়?
emotional arc কী?

এই প্রশ্নগুলোর জন্য এমন vocabulary এবং structure প্রয়োজন যা static image prompt-এর বাইরে।

ছয়-স্তরের Framework

পেশাদার ভিডিও prompt একটি সুসংগঠিত পদ্ধতি অনুসরণ করে। আমি এটিকে ছয়-স্তরের framework বলি—প্রতিটি স্তর নির্দিষ্টতা যোগ করে যা AI-কে আপনার দৃষ্টিভঙ্গির দিকে গাইড করে:

স্তর ১: Subject এবং Action

আপনার ফোকাস সঠিকভাবে সংজ্ঞায়িত করুন। অস্পষ্ট subject অস্পষ্ট ফলাফল তৈরি করে।

দুর্বল: "একটি বাগানে একজন মহিলা" শক্তিশালী: "একটি প্রবাহিত লাল পোশাক পরা একজন মহিলা গোলাপ বুশের মধ্য দিয়ে ধীরে ধীরে হেঁটে যাচ্ছে, যাওয়ার সময় আলতো করে পাপড়ি স্পর্শ করছে"

শক্তিশালী সংস্করণটি পোশাক, গতির গতি, এবং পরিবেশের সাথে interaction নির্দিষ্ট করে। প্রতিটি বিস্তারিত AI-এর ব্যাখ্যাকে আপনার উদ্দেশ্যের দিকে সীমাবদ্ধ করে।

স্তর ২: Shot Type এবং Framing

Cinematographer-রা একটি শতাব্দী ধরে visual grammar তৈরি করেছেন। এটি ব্যবহার করুন।

Shot Type	ব্যবহার
Wide shot	লোকেশন, স্কেল প্রতিষ্ঠা
Medium shot	চরিত্রের interaction, সংলাপ
Close-up	আবেগ, বিস্তারিত, ঘনিষ্ঠতা
Extreme close-up	নাটকীয় জোর

উদাহরণ: "Medium tracking shot, ক্যামেরা কোমরের উচ্চতায় অবস্থিত, পাশ থেকে অনুসরণ করছে"

স্তর ৩: Camera Movement

স্থির শট অপেশাদার মনে হয়। Movement শক্তি তৈরি করে এবং মনোযোগ গাইড করে।

Movement	প্রভাব
Pan	অনুভূমিকভাবে স্থান প্রকাশ করে
Tilt	উল্লম্বভাবে স্থান প্রকাশ করে
Dolly/tracking	গভীরতা তৈরি করে, subject অনুসরণ করে
Crane	স্কেল, নাটক প্রতিষ্ঠা করে
Handheld	জরুরি, documentary অনুভূতি
Steadicam	মসৃণ অনুসরণ, নিমজ্জন

উদাহরণ: "দরজা দিয়ে ধীর dolly forward, চোখের স্তরের দৃষ্টিকোণ বজায় রেখে"

স্তর ৪: Lighting এবং Atmosphere

Lighting অন্য যেকোনো উপাদানের চেয়ে বেশি শক্তিশালীভাবে মেজাজ সেট করে।

পদ	Visual প্রভাব
Golden hour	উষ্ণ, রোমান্টিক, nostalgic
Blue hour	শীতল, চিন্তাশীল, রহস্যময়
High key	উজ্জ্বল, আশাবাদী, পরিষ্কার
Low key	নাটকীয়, moody, suspenseful
Volumetric light	কুয়াশা/ধুলোর মধ্য দিয়ে রশ্মি, ethereal
Rim lighting	পৃথকীকরণ, নাটক, silhouette edge

উদাহরণ: "ধুলোযুক্ত জানালা দিয়ে ফিল্টার করা volumetric রশ্মি সহ golden hour lighting, উষ্ণ color grade"

স্তর ৫: Technical Specifications

আপনি যখন সুনির্দিষ্ট নিয়ন্ত্রণ চান তখন নির্দিষ্ট technical parameter-এর নাম উল্লেখ করুন:

Lens: 35mm (natural), 50mm (portrait), 85mm (compression), 24mm (wide)
Depth of field: Shallow (bokeh background) বনাম deep (সবকিছু sharp)
Frame rate: 24fps (cinematic), 60fps (smooth), 120fps (slow motion)
Aspect ratio: 16:9 (standard), 2.39:1 (cinematic), 9:16 (vertical)

উদাহরণ: "85mm lens-এ শুট করা, creamy bokeh সহ shallow depth of field, সামান্য film grain"

স্তর ৬: Duration এবং Pacing

ভিডিও সময়ের সাথে প্রকাশিত হয়। ছন্দ নির্দিষ্ট করুন:

Scene duration (সাধারণত 3-10 সেকেন্ড)
Transition style (cut, dissolve, wipe)
Pacing (slow/contemplative বনাম fast/energetic)
মিউজিক synchronization-এর জন্য beat timing

উদাহরণ: "ধীর, সুচিন্তিত গতিবিধি সহ 6-সেকেন্ডের শট, শেষ frame-এ 1 সেকেন্ড ধরে রাখা"

একসাথে রাখা: সম্পূর্ণ Prompt উদাহরণ

এভাবে স্তরগুলো পেশাদার prompt-এ একত্রিত হয়:

Cinematic Portrait:

একজন অভিজ্ঞ জেলের মুখের medium close-up, ভোরের blue hour,
85mm lens-এ shallow depth of field সহ শুট করা। মৃদু handheld micro-movements,
তার ধূসর চুলে halo প্রভাব তৈরি করে পিছন থেকে soft rim lighting।
চিন্তাশীল অভিব্যক্তি, চোখ সামান্য camera-এর বাইরে তাকিয়ে আছে।
lifted shadow সহ cool color grade, 5 সেকেন্ড duration।

Action Sequence:

সূর্যাস্তে শহুরে ছাদ জুড়ে দৌড়ানো একজন parkour ক্রীড়াবিদকে অনুসরণ করে wide tracking shot।
ধারাবাহিক দূরত্ব বজায় রেখে dynamic steadicam movement,
নাটকীয় silhouette তৈরি করে golden hour backlighting। 24fps cinematic motion,
0.8x গতিতে সামান্য slow-motion। উচ্চ contrast, teal-orange color grade।
ক্রমবর্ধমান intensity সহ 8 সেকেন্ড।

Product Showcase:

কালো velvet surface-এ একটি luxury watch-এর চারপাশে ধীর 360-ডিগ্রি orbit।
জটিল dial বিস্তারিত ক্যাপচার করে macro lens, নিয়ন্ত্রিত studio lighting
soft key light এবং সূক্ষ্ম fill সহ। Subject-কে বিচ্ছিন্ন করে shallow depth of field,
crystal-এ মৃদু reflection। ধীর, সুচিন্তিত camera movement সহ premium অনুভূতি।
10 সেকেন্ড duration।

Negative Prompting: AI-কে কী এড়াতে হবে তা বলা

আপনি কী চান না তা নির্দিষ্ট করা সমান গুরুত্বপূর্ণ। প্রতিটি platform এটি ভিন্নভাবে পরিচালনা করে:

সাধারণ negative prompt:

ঝাপসা footage, motion blur artifact
বিকৃত মুখ, anatomical ত্রুটি
Watermark, টেক্সট overlay
অপ্রাকৃতিক গতিবিধি, jerky transition
নিম্ন resolution, compression artifact

Platform-নির্দিষ্ট syntax:

Platform	পদ্ধতি
Veo 3	নিবেদিত negative prompt field
Kling	Prompt-এ "avoid" বা "without" অন্তর্ভুক্ত করুন
Runway	পৃথক negative prompt parameter
Sora	Weight-ভিত্তিক exclusion

উদাহরণ: "এড়ান: ঝাপসা footage, বিকৃত মুখের বৈশিষ্ট্য, watermark, jerky camera movement, oversaturated রং"

Style Reference Stacking

একটি স্বতন্ত্র aesthetic চান? 2-3 টি ফিল্ম reference একত্রিত করুন:

Formula: [Film A] color grading + [Film B] atmosphere + [Film C] camera movement

উদাহরণ:

"Blade Runner 2049 color grading plus Se7en atmosphere plus Heat camera movement"
"Wes Anderson symmetry plus Studio Ghibli color palette plus Terrence Malick natural lighting"
"Mad Max: Fury Road energy plus Roger Deakins lighting plus Spielberg blocking"

3 টি reference-এ সীমাবদ্ধ করুন। বেশি হলে পরস্পরবিরোধী signal তৈরি হয়।

Platform-নির্দিষ্ট Optimization

প্রতিটি model-এর শক্তি রয়েছে। Platform-এর সাথে আপনার prompt style মেলান:

Model	শক্তি	Prompt ফোকাস
Kling 2.5	Athletic motion, character animation	Action verb, physical movement
Sora 2	Multi-shot storytelling, spatial consistency	Scene transition, narrative arc
Veo 3	Precision control, JSON formatting	Technical specification, structured syntax
Runway Gen-3	Stylization, artistic interpretation	Aesthetic reference, mood descriptor
WAN 2.5	Dialogue, lip-sync	Speech action, facial expression

Veo 3 JSON উদাহরণ:

{
  "subject": "লাল পোশাক পরা মহিলা",
  "action": "বাগানের মধ্য দিয়ে হাঁটা",
  "shot_type": "medium tracking",
  "camera_movement": "ডান থেকে বামে dolly",
  "lighting": "golden hour, volumetric",
  "lens": "35mm",
  "duration": "6 সেকেন্ড"
}

5-10-1 খরচ Optimization নিয়ম

Premium render ব্যয়বহুল। এই workflow ব্যবহার করুন:

5 টি variation নিম্ন-খরচের model-এ (প্রতিটি 40-60 credit)
10 টি iteration সেরা candidate পরিমার্জন করা
1 টি final render premium tier-এ (~350 credit)

এটি গুণমান বজায় রেখে হাজার থেকে প্রায় 1,000 credit-এ খরচ কমায়।

এড়ানোর সাধারণ ভুল

শত শত prompt পর্যালোচনা করার পর, এই ত্রুটিগুলো প্রায়শই দেখা যায়:

ভুল	সমস্যা	সমাধান
Casual বর্ণনা	AI আলগাভাবে ব্যাখ্যা করে	Cinematography পরিভাষা ব্যবহার করুন
Duration অমিল	Action timeframe-এ ফিট হয় না	Duration-এর সাথে জটিলতা মেলান
Style ওভারলোড	পরস্পরবিরোধী aesthetic signal	সর্বোচ্চ 3 টি reference-এ সীমাবদ্ধ করুন
Movement অনুপস্থিত	স্থির, অপেশাদার অনুভূতি	সবসময় camera motion নির্দিষ্ট করুন
অস্পষ্ট lighting	অসঙ্গত মেজাজ	নির্দিষ্ট lighting setup-এর নাম দিন
Negative prompt নেই	অবাঞ্ছিত artifact	স্পষ্টভাবে সমস্যা exclude করুন

আপনার Prompt Library তৈরি করা

সাধারণ পরিস্থিতির জন্য template তৈরি করুন:

Interview Setup:

Medium shot, subject rule-of-thirds বামে অবস্থিত, চোখের স্তরের camera,
[LIGHTING_SETUP], background ঝাপসা করে shallow depth of field,
প্রাকৃতিক অনুভূতির জন্য সূক্ষ্ম handheld micro-movements, [DURATION]।

B-Roll Nature:

[SUBJECT]-এর [SHOT_TYPE], [TIME_OF_DAY] lighting,
ধীর [CAMERA_MOVEMENT], [LENS]mm lens, deep focus,
[COLOR_GRADE] palette, [DURATION]।

Product Hero:

[SURFACE]-এ [PRODUCT]-এর চারপাশে [ORBIT_DIRECTION] orbit,
[KEY_LIGHT_POSITION] key এবং সূক্ষ্ম fill সহ studio lighting,
macro বিস্তারিত মুহূর্ত, [LENS]mm, pristine reflection, [DURATION]।

নির্দিষ্ট প্রয়োজনের জন্য bracket পূরণ করুন। ব্যবহারের ক্ষেত্র অনুসারে সংগঠিত একটি library তৈরি করুন।

Iteration কৌশল

পদ্ধতিগত পরিমার্জনের মাধ্যমে নিখুঁত prompt উঠে আসে:

সহজভাবে শুরু করুন: শুধুমাত্র মূল subject এবং action
একটি element যোগ করুন: একক সংযোজন পরীক্ষা করুন
যা কাজ করে তা নথিভুক্ত করুন: কার্যকর বাক্যাংশের একটি লগ রাখুন
A/B পরীক্ষা বাক্যাংশ: একই ধারণা, ভিন্ন শব্দ
বিজয়ী সংরক্ষণ করুন: আপনার prompt library তৈরি করুন

লগ format:

Prompt: [সম্পূর্ণ prompt]
Model: [ব্যবহৃত platform]
Result: [1-5 রেটিং]
Notes: [কী কাজ করেছে/করেনি]

Quality পর্যালোচনা Checklist

যেকোনো AI ভিডিও চূড়ান্ত করার আগে, যাচাই করুন:

সর্বত্র subject সামঞ্জস্য
প্রাকৃতিক গতি (কোন jerkiness নেই)
Lighting ধারাবাহিকতা
কোন মুখের বিকৃতি নেই
Color grade সামঞ্জস্য
যথাযথ pacing
পরিষ্কার অডিও (প্রযোজ্য হলে)
কোন watermark বা artifact নেই

পরবর্তী পদক্ষেপ

অনুশীলনের সাথে prompt engineering উন্নত হয়। সহজ শট দিয়ে শুরু করুন, প্রতিটি স্তর আয়ত্ত করুন, তারপর সেগুলো একত্রিত করুন। লক্ষ্য পরিভাষা মুখস্থ করা নয়—কী ভিডিওকে আকর্ষণীয় করে তার জন্য intuition বিকাশ করা।

একটি generation লগ রাখুন। যা কাজ করেছে তা পর্যালোচনা করুন। আপনার library তৈরি করুন। অপেশাদার এবং পেশাদার AI ভিডিওর মধ্যে পার্থক্য প্রায়শই prompt নির্ভুলতায় নেমে আসে।

আপনার ক্যামেরা অপেক্ষা করছে। ফিল্মিং শুরু করুন।