คู่มือฉบับสมบูรณ์สำหรับการเขียน Prompt วิดีโอ AI ในปี 2025
เรียนรู้ศิลปะการสร้าง prompt ที่สามารถสร้างวิดีโอ AI ที่สวยงามน่าทึ่ง ด้วยกรอบการทำงาน 6 ชั้น คำศัพท์ทางภาพยนตร์ และเทคนิคเฉพาะแพลตฟอร์ม

การเขียน prompt สำหรับวิดีโอ AI เปรียบเสมือนการปรับแต่งสูตรอาหารให้สมบูรณ์แบบ ส่วนผสมเดียวกันสามารถให้ผลลัพธ์ที่แตกต่างกันอย่างมากขึ้นอยู่กับเทคนิคที่ใช้ หลังจากที่ผู้เขียนได้ใช้เวลาอันยาวนานในการสร้างวิดีโอในทุกแพลตฟอร์มหลัก ขอนำเสนอกรอบการทำงานที่เป็นประโยชน์และได้ผลจริง เรามาเจาะลึกเทคนิคที่ช่วยให้ได้ผลลัพธ์ที่สม่ำเสมอและเป็นมืออาชีพกันเลยครับ
เหตุใด Prompt วิดีโอจึงแตกต่างกัน
หากท่านเคยใช้งานโปรแกรมสร้างภาพเช่น Midjourney หรือ DALL-E ท่านอาจคิดว่า prompt วิดีโอทำงานแบบเดียวกัน แต่ความจริงแล้วไม่เป็นเช่นนั้นครับ วิดีโอมีมิติด้านเวลา ซึ่งรวมถึงการเคลื่อนไหว จังหวะ และการเปลี่ยนผ่าน ซึ่งเปลี่ยนการเขียน prompt จากคำสั่งเดียวเป็นการออเคสตราลำดับเหตุการณ์
ให้นึกถึงความแตกต่างระหว่างการถ่ายภาพกับการกำกับฉาก สำหรับภาพถ่าย ท่านจัดองค์ประกอบ แต่สำหรับวิดีโอ ท่านต้องออกแบบท่าทางสิ่งที่เกิดขึ้นตามเวลา
- กล้องเคลื่อนที่อย่างไร?
- เหตุการณ์ใดกำลังเผยออกมา?
- แต่ละองค์ประกอบใช้เวลานานเท่าใด?
- เส้นโค้งอารมณ์เป็นอย่างไร?
คำถามเหล่านี้ต้องการคำศัพท์และโครงสร้างที่ไปไกลกว่า prompt สำหรับภาพนิ่งครับ
กรอบการทำงาน 6 ชั้น
Prompt วิดีโอมืออาชีพปฏิบัติตามแนวทางที่มีโครงสร้าง ผู้เขียนเรียกมันว่ากรอบการทำงาน 6 ชั้น โดยแต่ละชั้นเพิ่มความเฉพาะเจาะจงที่นำ AI ไปสู่วิสัยทัศน์ของท่าน
ชั้นที่ 1: หัวเรื่องและการกระทำ
กำหนดจุดสนใจของท่านด้วยความแม่นยำ หัวเรื่องที่คลุมเครือให้ผลลัพธ์ที่คลุมเครือเช่นกัน
อ่อน: "ผู้หญิงในสวน" แข็งแรง: "ผู้หญิงในชุดกระโปรงสีแดงพลิ้วไหว กำลังเดินช้าๆ ผ่านพุ่มกุหลาบ สัมผัสกลีบดอกไม้อย่างอ่อนโยนขณะที่เดินผ่าน"
เวอร์ชันที่แข็งแรงระบุเสื้อผ้า ความเร็วในการเคลื่อนไหว และการโต้ตอบกับสิ่งแวดล้อม ทุกรายละเอียดจำกัดการตีความของ AI ให้เข้าใกล้เจตนาของท่านครับ
ชั้นที่ 2: ประเภทช็อตและการจัดกรอบ
ช่างภาพยนตร์ใช้เวลาหนึ่งศตวรรษในการพัฒนาไวยากรณ์ภาพ เชิญใช้ประโยชน์จากมันครับ
| ประเภทช็อต | กรณีการใช้งาน |
|---|---|
| Wide shot | สถานที่ตั้ง ขนาด |
| Medium shot | ปฏิสัมพันธ์ของตัวละคร บทสนทนา |
| Close-up | อารมณ์ รายละเอียด ความใกล้ชิด |
| Extreme close-up | เน้นดราม่า |
ตัวอย่าง: "Medium tracking shot กล้องวางไว้ที่ระดับเอว ติดตามจากด้านข้าง"
ชั้นที่ 3: การเคลื่อนไหวของกล้อง
ช็อตที่หยุดนิ่งดูเหมือนมือสมัครเล่น การเคลื่อนไหวสร้างพลังและนำความสนใจครับ
| การเคลื่อนไหว | ผลลัพธ์ |
|---|---|
| Pan | เปิดเผยพื้นที่ในแนวนอน |
| Tilt | เปิดเผยพื้นที่ในแนวตั้ง |
| Dolly/tracking | สร้างความลึก ติดตามหัวเรื่อง |
| Crane | สร้างขนาด ดราม่า |
| Handheld | ความเร่งด่วน ความรู้สึกสารคดี |
| Steadicam | การติดตามที่ราบรื่น ดื่มด่ำ |
ตัวอย่าง: "Dolly ช้าๆ เดินหน้าผ่านประตู รักษามุมมองระดับสายตา"
ชั้นที่ 4: แสงและบรรยากาศ
แสงสร้างอารมณ์ได้ทรงพลังกว่าองค์ประกอบอื่นใดครับ
| คำศัพท์ | ผลภาพ |
|---|---|
| Golden hour | อบอุ่น โรแมนติก คิดถึง |
| Blue hour | เย็น ไตร่ตรอง ลึกลับ |
| High key | สดใส มองโลกในแง่ดี สะอาด |
| Low key | ดราม่า มีอารมณ์ ตึงเครียด |
| Volumetric light | รังสีผ่านหมอก/ฝุ่น บรรยากาศสวรรค์ |
| Rim lighting | การแยก ดราม่า ขอบเงา |
ตัวอย่าง: "แสง golden hour พร้อมรังสีไอน้ำกรองผ่านหน้าต่างที่มีฝุ่น การไล่ระดับสีที่อบอุ่น"
ชั้นที่ 5: ข้อกำหนดทางเทคนิค
ระบุพารามิเตอร์ทางเทคนิคเฉพาะเมื่อท่านต้องการการควบคุมที่แม่นยำ
- เลนส์: 35mm (ธรรมชาติ), 50mm (ภาพบุคคล), 85mm (การบีบอัด), 24mm (กว้าง)
- ความลึกของสนาม: ตื้น (พื้นหลังเบลอ) เทียบกับลึก (ทุกอย่างคม)
- อัตราเฟรม: 24fps (ภาพยนตร์), 60fps (ราบรื่น), 120fps (สโลว์โมชั่น)
- อัตราส่วนภาพ: 16:9 (มาตรฐาน), 2.39:1 (ภาพยนตร์), 9:16 (แนวตั้ง)
ตัวอย่าง: "ถ่ายด้วยเลนส์ 85mm ความลึกสนามตื้นพร้อมโบเก้นุ่มนวล เม็ดฟิล์มเล็กน้อย"
ชั้นที่ 6: ระยะเวลาและจังหวะ
วิดีโอคลี่คลายตามเวลา ระบุจังหวะครับ
- ระยะเวลาฉาก (โดยทั่วไป 3-10 วินาที)
- สไตล์การเปลี่ยนผ่าน (cut, dissolve, wipe)
- จังหวะ (ช้า/ไตร่ตรอง เทียบกับ เร็ว/มีพลัง)
- จังหวะการตีสำหรับการซิงค์ดนตรี
ตัวอย่าง: "ช็อต 6 วินาทีด้วยการเคลื่อนไหวที่ช้าและมีเจตนา หยุดที่เฟรมสุดท้าย 1 วินาที"
การรวมทุกอย่างเข้าด้วยกัน: ตัวอย่าง Prompt เต็ม
นี่คือวิธีที่ชั้นต่างๆ รวมกันเป็น prompt มืออาชีพครับ
ภาพบุคคลสไตล์ภาพยนตร์:
Medium close-up ของใบหน้าชาวประมงที่แก่แล้ว ตอนเช้าตรู่ blue hour
ถ่ายด้วยเลนส์ 85mm ความลึกสนามตื้น การเคลื่อนไหวไมโครด้วยมืออย่างอ่อนโยน
แสง rim ที่นุ่มนวลจากด้านหลังสร้างเอฟเฟกต์รัศมีบนผมสีเทาของเขา
สีหน้าไตร่ตรอง ดวงตามองเล็กน้อยนอกกล้อง
การไล่ระดับสีเย็นพร้อมเงายกขึ้น ระยะเวลา 5 วินาทีฉากแอ็กชั่น:
Wide tracking shot ติดตามนักกีฬา parkour วิ่งข้ามหลังคาเมืองตอนพระอาทิตย์ตก
การเคลื่อนไหว steadicam แบบไดนามิกรักษาระยะห่างสม่ำเสมอ
แสงส่องจากด้านหลัง golden hour สร้างเงาที่ดราม่า 24fps การเคลื่อนไหวสไตล์ภาพยนตร์
สโลว์โมชั่นเล็กน้อยที่ 0.8x ความเร็ว คอนทราสต์สูง การไล่ระดับสีฟ้าเขียว-ส้ม
8 วินาทีด้วยความเข้มข้นที่เพิ่มขึ้นการแสดงผลิตภัณฑ์:
การโคจร 360 องศาช้าๆ รอบนาฬิกาหรูบนพื้นผิวกำมะหยี่สีดำ
เลนส์มาโครจับรายละเอียดหน้าปัดที่ซับซ้อน แสงสตูดิโอที่ควบคุม
พร้อมแสง key ที่นุ่มนวลและ fill ที่ละเอียดอ่อน ความลึกสนามตื้นแยกหัวเรื่อง
การสะท้อนอย่างอ่อนโยนบนคริสตัล ความรู้สึกพรีเมียมพร้อม
การเคลื่อนไหวกล้องที่ช้าและมีเจตนา ระยะเวลา 10 วินาทีการใช้ Negative Prompt: บอก AI ว่าอะไรควรหลีกเลี่ยง
สิ่งที่สำคัญพอๆ กันคือการระบุสิ่งที่ท่านไม่ต้องการครับ แต่ละแพลตฟอร์มจัดการแตกต่างกัน
Negative prompt ทั่วไป:
- ฟุตเทจเบลอ สิ่งประดิษฐ์ motion blur
- ใบหน้าผิดรูป ข้อผิดพลาดทางกายวิภาค
- ลายน้ำ ข้อความวางทับ
- การเคลื่อนไหวที่ไม่เป็นธรรมชาติ การเปลี่ยนผ่านที่กระตุก
- ความละเอียดต่ำ สิ่งประดิษฐ์การบีบอัด
ไวยากรณ์เฉพาะแพลตฟอร์ม:
| แพลตฟอร์ม | วิธี |
|---|---|
| Veo 3 | ช่อง negative prompt เฉพาะ |
| Kling | รวม "avoid" หรือ "without" ใน prompt |
| Runway | พารามิเตอร์ negative prompt แยก |
| Sora | การยกเว้นตามน้ำหนัก |
ตัวอย่าง: "Avoid: ฟุตเทจเบลอ ใบหน้าผิดรูป ลายน้ำ การเคลื่อนไหวกล้องที่กระตุก สีอิ่มตัวเกินไป"
การซ้อนทับการอ้างอิงสไตล์
ต้องการความสวยงามที่โดดเด่นใช่ไหมครับ? รวมการอ้างอิงภาพยนตร์ 2-3 รายการ
สูตร: การไล่ระดับสี [ภาพยนตร์ A] + บรรยากาศ [ภาพยนตร์ B] + การเคลื่อนไหวกล้อง [ภาพยนตร์ C]
ตัวอย่าง:
- "การไล่ระดับสี Blade Runner 2049 บวกบรรยากาศ Se7en บวกการเคลื่อนไหวกล้อง Heat"
- "ความสมมาตร Wes Anderson บวกจานสี Studio Ghibli บวกแสงธรรมชาติ Terrence Malick"
- "พลัง Mad Max: Fury Road บวกแสง Roger Deakins บวกการจัด blocking Spielberg"
จำกัดเป็น 3 การอ้างอิง มากกว่านั้นสร้างสัญญาณที่ขัดแย้งกันครับ
การเพิ่มประสิทธิภาพเฉพาะแพลตฟอร์ม
แต่ละโมเดลมีจุดแข็ง จับคู่สไตล์ prompt ของท่านกับแพลตฟอร์มครับ
| โมเดล | จุดแข็ง | โฟกัส Prompt |
|---|---|---|
| Kling 2.5 | การเคลื่อนไหวกีฬา แอนิเมชั่นตัวละคร | คำกริยาการกระทำ การเคลื่อนไหวทางกายภาพ |
| Sora 2 | การเล่าเรื่องหลายช็อต ความสม่ำเสมอเชิงพื้นที่ | การเปลี่ยนผ่านฉาก เส้นโค้งการเล่าเรื่อง |
| Veo 3 | การควบคุมที่แม่นยำ การจัดรูปแบบ JSON | ข้อกำหนดทางเทคนิค ไวยากรณ์ที่มีโครงสร้าง |
| Runway Gen-3 | การตกแต่ง การตีความศิลปะ | การอ้างอิงความสวยงาม คำอธิบายอารมณ์ |
| WAN 2.5 | บทสนทนา การซิงค์ริมฝีปาก | การกระทำการพูด สีหน้า |
ตัวอย่าง JSON ของ Veo 3:
{
"subject": "woman in red dress",
"action": "walking through garden",
"shot_type": "medium tracking",
"camera_movement": "dolly right to left",
"lighting": "golden hour, volumetric",
"lens": "35mm",
"duration": "6 seconds"
}กฎการเพิ่มประสิทธิภาพต้นทุน 5-10-1
การเรนเดอร์พรีเมียมมีราคาแพง ใช้ขั้นตอนการทำงานนี้ครับ
- 5 รูปแบบ บนโมเดลที่มีต้นทุนต่ำกว่า (40-60 เครดิตแต่ละอัน)
- 10 การทำซ้ำ ปรับแต่งตัวเลือกที่ดีที่สุด
- 1 การเรนเดอร์สุดท้าย บนระดับพรีเมียม (~350 เครดิต)
สิ่งนี้ลดต้นทุนจากหลายพันเหลือประมาณ 1,000 เครดิตในขณะที่รักษาคุณภาพครับ
ข้อผิดพลาดทั่วไปที่ควรหลีกเลี่ยง
หลังจากตรวจสอบ prompt หลายร้อยรายการ ข้อผิดพลาดเหล่านี้ปรากฏบ่อยที่สุด
| ข้อผิดพลาด | ปัญหา | วิธีแก้ไข |
|---|---|---|
| คำอธิบายแบบสบายๆ | AI ตีความอย่างหลวมๆ | ใช้คำศัพท์ทางภาพยนตร์ |
| ระยะเวลาไม่ตรงกัน | การกระทำไม่พอดีกับกรอบเวลา | จับคู่ความซับซ้อนกับระยะเวลา |
| สไตล์โอเวอร์โหลด | สัญญาณความสวยงามที่ขัดแย้ง | จำกัดสูงสุด 3 การอ้างอิง |
| ขาดการเคลื่อนไหว | ความรู้สึกนิ่ง มือสมัครเล่น | ระบุการเคลื่อนไหวกล้องเสมอ |
| แสงคลุมเครือ | อารมณ์ไม่สม่ำเสมอ | ตั้งชื่อการตั้งค่าแสงเฉพาะ |
| ไม่มี negative prompt | สิ่งประดิษฐ์ที่ไม่ต้องการ | ยกเว้นปัญหาอย่างชัดเจน |
การสร้างไลบรารี Prompt ของท่าน
สร้างเทมเพลตสำหรับสถานการณ์ทั่วไปครับ
การตั้งค่าสัมภาษณ์:
Medium shot หัวเรื่องวางตำแหน่ง rule-of-thirds ซ้าย กล้องระดับสายตา
[LIGHTING_SETUP] ความลึกสนามตื้นเบลอพื้นหลัง
การเคลื่อนไหวไมโครด้วยมืออย่างละเอียดอ่อนเพื่อความรู้สึกธรรมชาติ [DURATION]B-Roll ธรรมชาติ:
[SHOT_TYPE] ของ [SUBJECT] แสง [TIME_OF_DAY]
[CAMERA_MOVEMENT] ช้า เลนส์ [LENS]mm โฟกัสลึก
จานสี [COLOR_GRADE] [DURATION]ฮีโร่ผลิตภัณฑ์:
[ORBIT_DIRECTION] โคจรรอบ [PRODUCT] บน [SURFACE]
แสงสตูดิโอพร้อมตำแหน่ง key [KEY_LIGHT_POSITION] และ fill ที่ละเอียดอ่อน
ช่วงเวลารายละเอียดมาโคร [LENS]mm การสะท้อนที่บริสุทธิ์ [DURATION]กรอกวงเล็บสำหรับความต้องการเฉพาะ สร้างไลบรารีที่จัดระเบียบตามกรณีการใช้งานครับ
กลยุทธ์การทำซ้ำ
Prompt ที่สมบูรณ์แบบเกิดขึ้นผ่านการปรับแต่งอย่างเป็นระบบ
- เริ่มง่าย: หัวเรื่องหลักและการกระทำเท่านั้น
- เพิ่มองค์ประกอบหนึ่ง: ทดสอบการเพิ่มเดี่ยว
- บันทึกสิ่งที่ได้ผล: เก็บบันทึกวลีที่มีประสิทธิภาพ
- A/B ทดสอบวลี: แนวคิดเดียวกัน คำต่างกัน
- บันทึกผู้ชนะ: สร้างไลบรารี prompt ของท่าน
รูปแบบบันทึก:
Prompt: [prompt เต็ม]
Model: [แพลตฟอร์มที่ใช้]
Result: [คะแนน 1-5]
Notes: [สิ่งที่ได้ผล/ไม่ได้ผล]รายการตรวจสอบการตรวจสอบคุณภาพ
ก่อนที่จะสรุปวิดีโอ AI ใดๆ กรุณาตรวจสอบครับ
- ความสม่ำเสมอของหัวเรื่องตลอด
- การเคลื่อนไหวธรรมชาติ (ไม่กระตุก)
- ความต่อเนื่องของแสง
- ไม่มีใบหน้าผิดรูป
- ความสม่ำเสมอของการไล่ระดับสี
- จังหวะที่เหมาะสม
- เสียงสะอาด (ถ้ามี)
- ไม่มีลายน้ำหรือสิ่งประดิษฐ์
ขั้นตอนต่อไป
การเขียน prompt ดีขึ้นด้วยการฝึกฝนครับ เริ่มต้นด้วยช็อตที่ง่ายกว่า เชี่ยวชาญแต่ละชั้น จากนั้นรวมพวกมันเข้าด้วยกัน เป้าหมายไม่ใช่การจำคำศัพท์ แต่คือการพัฒนาสัญชาตญาณสำหรับสิ่งที่ทำให้วิดีโอน่าสนใจ
เก็บบันทึกการสร้าง ตรวจสอบสิ่งที่ได้ผล สร้างไลบรารีของท่าน ความแตกต่างระหว่างวิดีโอ AI มือสมัครเล่นและมืออาชีพมักมาจากความแม่นยำของ prompt
กล้องของท่านกำลังรออยู่ เริ่มการถ่ายทำได้เลยครับ
บทความนี้มีประโยชน์หรือไม่?

Damien
นักพัฒนา AIนักพัฒนา AI จากลียงที่ชอบเปลี่ยนแนวคิด ML ที่ซับซ้อนให้เป็นสูตรง่ายๆ เมื่อไม่ได้แก้ไขบั๊กโมเดล คุณจะพบเขาปั่นจักรยานผ่านหุบเขาโรน
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

ความสอดคล้องของตัวละคร AI วิดีโอ: วิธีที่โมเดล AI เรียนรู้ที่จะจดจำใบหน้า
การศึกษาเชิงเทคนิคลึกซึ้งเกี่ยวกับการนวัตกรรมด้านสถาปัตยกรรมที่ช่วยให้โมเดลวิดีโอ AI สามารถรักษาเอกลักษณ์ตัวละครระหว่างฉากต่างๆ ได้ตั้งแต่กลไกความสนใจ ไปจนถึงการฝังข้อมูลที่รักษาเอกลักษณ์ครับ

Kling O1: Kuaishou เข้าร่วมการแข่งขัน Unified Multimodal Video
Kuaishou เพิ่งเปิดตัว Kling O1 ซึ่งเป็น unified multimodal AI ที่คิดในรูปแบบวิดีโอ เสียง และข้อความพร้อมกัน การแข่งขันด้านความฉลาดทางภาพและเสียงกำลังร้อนแรงขึ้น