ยุคภาพยนตร์เงียบสิ้นสุดลง: การสร้างเสียงพร้อมกันเปลี่ยนแปลงวิดีโอ AI ไปตลอดกาล
การสร้างวิดีโอ AI เพิ่งพัฒนาจากภาพยนตร์เงียบสู่ภาพยนตร์พูดได้ มาสำรวจว่าการสังเคราะห์เสียงและภาพพร้อมกันกำลังปรับเปลี่ยนขั้นตอนการสร้างสรรค์อย่างไร พร้อมบทสนทนาที่ซิงค์กัน ฉากเสียงรอบข้าง และเอฟเฟกต์เสียงที่สร้างขึ้นควบคู่ไปกับภาพครับ

จำหนังชาร์ลี แชปลินเรื่องเก่าๆ ได้ไหมครับ? ท่าทางที่เกินจริง เสียงเปียโนประกอบ บทสนทนาที่เป็นข้อความ? ในช่วงไม่กี่ปีที่ผ่านมา การสร้างวิดีโอ AI ติดอยู่ในยุคภาพยนตร์เงียบของมันเองครับ เราสามารถสร้างภาพที่สวยงามจากข้อความได้—ทิวทัศน์เมืองตอนพลบค่ำ ผู้คนที่กำลังเต้นรำ กาแล็กซีที่กำลังระเบิด—แต่ภาพเหล่านั้นเล่นออกมาด้วยความเงียบที่น่าขนลุก เราต้องเพิ่มเสียงทีหลัง หวังว่าเสียงเท้าจะซิงค์กัน อธิษฐานว่าการเคลื่อนไหวของริมฝีปากจะตรงกันครับ
ยุคนั้นเพิ่งจะสิ้นสุดลงครับ
จากฝันร้ายหลังการผลิตสู่การสังเคราะห์แบบพื้นฐาน
ความก้าวกระโดดทางเทคนิคนี้น่าทึ่งมากครับ ขั้นตอนการทำงานแบบเดิมๆ เป็นแบบนี้:
- สร้างวิดีโอจากคำสั่ง
- ส่งออกเฟรม
- เปิดซอฟต์แวร์เสียง
- ค้นหาหรือสร้างเอฟเฟกต์เสียง
- ซิงค์ทุกอย่างด้วยตนเอง
- อธิษฐานว่ามันจะไม่ดูแย่
ตอนนี้? โมเดลสร้างเสียงและวิดีโอ พร้อมกัน ในกระบวนการเดียวครับ ไม่ใช่สตรีมแยกกันที่ถูกเย็บต่อกัน—แต่เป็นข้อมูลที่รวมกันไหลผ่าน latent space เดียวกันครับ
# วิธีเก่า: สร้างแยกกัน, ซิงค์ด้วยตนเอง
video = generate_video(prompt)
audio = generate_audio_separately(prompt)
result = sync_audio_video(video, audio) # Good luck!
# วิธีใหม่: การสร้างแบบรวมกัน
result = generate_audiovisual(prompt) # เสียงและภาพ, เกิดมาพร้อมกันVeo 3 ของ Google บีบอัดการแทนค่าเสียงและวิดีโอเข้าไปใน latent space ที่ใช้ร่วมกันครับ เมื่อกระบวนการ diffusion คลี่ออก ทั้งสองโมดัลลิตีปรากฏขึ้นพร้อมกัน—บทสนทนา เสียงรอบข้าง เอฟเฟกต์เสียง ทั้งหมดจัดตำแหน่งตามเวลาโดยการออกแบบมากกว่าการจัดตำแหน่งทีหลังครับ
"พื้นฐาน" หมายความว่าอย่างไรจริงๆ
ให้ผมอธิบายว่าเกิดอะไรขึ้นภายในนะครับ เพราะความแตกต่างนี้สำคัญครับ
| แนวทาง | แหล่งเสียง | วิธีซิงค์ | คุณภาพ |
|---|---|---|---|
| หลังการผลิต | โมเดล/ไลบรารีแยก | ด้วยตนเองหรืออัลกอริทึม | มักไม่ตรงกัน |
| สองขั้นตอน | สร้างหลังวิดีโอ | Cross-modal attention | ดีกว่า แต่มีสิ่งผิดปกติ |
| การสังเคราะห์พื้นฐาน | Latent space เดียวกัน | โดยธรรมชาติจากการสร้าง | ซิงค์ตามธรรมชาติ |
การสังเคราะห์แบบพื้นฐานหมายความว่าโมเดลเรียนรู้ความสัมพันธ์ระหว่างเหตุการณ์ภาพและเสียงระหว่างการฝึกครับ ประตูที่กระแทกไม่ใช่ "ภาพประตู + เสียงประตู"—แต่เป็นเหตุการณ์เสียงและภาพที่รวมกันที่โมเดลแทนค่าแบบองค์รวมครับ
ผลลัพธ์ที่ได้จริงๆ? ความแม่นยำในการซิงค์ริมฝีปากต่ำกว่า 120 มิลลิวินาทีสำหรับ Veo 3 และ Veo 3.1 ผลักดันให้ลงมาอยู่ที่ประมาณ 10 มิลลิวินาทีครับ นั่นดีกว่าความล่าช้าของเว็บแคมส่วนใหญ่เสียอีกครับ
ความเป็นไปได้ในการสร้างสรรค์นั้นยอดเยี่ยมมากครับ
ผมได้ทดลองใช้เครื่องมือเหล่านี้สำหรับการสร้างเนื้อหา และความเป็นไปได้รู้สึกใหม่จริงๆ ครับ นี่คือสิ่งที่กลายเป็นเรื่องง่ายทันทีครับ:
ฉากเสียงรอบข้าง: สร้างฉากถนนที่มีฝนตก และมันมาพร้อมกับฝน การจราจรที่ไกล เสียงเท้าที่สะท้อนครับ โมเดลเข้าใจว่าฝนที่ตกบนโลหะมีเสียงแตกต่างจากฝนบนทางเท้าครับ
บทสนทนาที่ซิงค์กัน: พิมพ์การสนทนา ได้ตัวละครที่พูดพร้อมการเคลื่อนไหวริมฝีปากที่ตรงกันครับ ไม่สมบูรณ์แบบ—ยังมีช่วงเวลาที่น่ากังวลบ้าง—แต่เราก้าวกระโดดจาก "ปลอมอย่างชัดเจน" สู่ "น่าเชื่อในบางครั้ง" ครับ
เอฟเฟกต์เสียงทางกายภาพ: ลูกบอลที่กระเด้งมีเสียงเหมือนลูกบอลที่กระเด้งจริงๆ ครับ แก้วที่แตกมีเสียงเหมือนแก้วจริงๆ โมเดลได้เรียนรู้ลายเซ็นเสียงของการโต้ตอบทางกายภาพครับ
คำสั่ง: "บาริสต้าทำฟองนมในร้านกาแฟที่พลุกพล่าน ลูกค้าคุยกัน
เครื่องทำเอสเพรสโซ่ส่งเสียงฟู่ เพลงแจ๊สเล่นเบาๆ ในพื้นหลัง"
ผลลัพธ์: 8 วินาทีของประสบการณ์เสียงและภาพที่ซิงค์กันอย่างสมบูรณ์แบบไม่ต้องการวิศวกรเสียง ไม่ต้องการศิลปิน Foley ไม่ต้องการเซสชันผสมเสียงครับ
ความสามารถปัจจุบันของโมเดลต่างๆ
ภูมิทัศน์กำลังเคลื่อนไหวอย่างรวดเร็ว แต่นี่คือสถานการณ์ปัจจุบันครับ:
Google Veo 3 / Veo 3.1
- การสร้างเสียงพื้นฐานพร้อมรองรับบทสนทนา
- ความละเอียด 1080p แบบพื้นฐานที่ 24 fps
- ฉากเสียงรอบข้างที่แข็งแกร่ง
- รวมอยู่ในระบบนิเวศ Gemini
OpenAI Sora 2
- การสร้างเสียงและวิดีโอที่ซิงค์กัน
- สูงสุด 60 วินาทีพร้อมซิงค์เสียง (90 วินาทีทั้งหมด)
- ความพร้อมใช้งานระดับองค์กรผ่าน Azure AI Foundry
- ความสัมพันธ์ฟิสิกส์-เสียงที่แข็งแกร่ง
Kuaishou Kling 2.1
- ความสอดคล้องหลายช็อตพร้อมเสียง
- ระยะเวลาสูงสุด 2 นาที
- ผู้สร้างสรรค์ 45 ล้านคน+ ใช้แพลตฟอร์ม
MiniMax Hailuo 02
- สถาปัตยกรรม Noise-Aware Compute Redistribution
- การปฏิบัติตามคำสั่งที่แข็งแกร่ง
- ไปป์ไลน์การสร้างที่มีประสิทธิภาพ
"ปัญหา Foley" กำลังละลายหายไป
หนึ่งในสิ่งโปรดของผมเกี่ยวกับการเปลี่ยนแปลงนี้คือการดูปัญหา Foley ละลายหายไปครับ Foley—ศิลปะการสร้างเอฟเฟกต์เสียงในชีวิตประจำวัน—เป็นงานฝีมือเฉพาะทางมาเป็นศตวรรษแล้วครับ การบันทึกเสียงเท้า ทำลายมะพร้าวเพื่อเสียงกีบม้า เขย่าผ้าเพื่อเสียงลมครับ
ตอนนี้โมเดลก็แค่... รู้ ไม่ใช่ผ่านกฎหรือไลบรารี แต่ผ่านความสัมพันธ์ทางสถิติที่เรียนรู้ระหว่างเหตุการณ์ภาพและลายเซ็นเสียงของพวกมันครับ
มันกำลังแทนที่ศิลปิน Foley หรือไม่ครับ? สำหรับการผลิตภาพยนตร์ระดับสูง อาจจะยังไม่ครับ สำหรับวิดีโอ YouTube เนื้อหาโซเชียล ต้นแบบด่วน? แน่นอนครับ แท่งคุณภาพเปลี่ยนไปอย่างมากครับ
ข้อจำกัดทางเทคนิคยังคงมีอยู่
มาพูดความจริงเกี่ยวกับสิ่งที่ยังไม่ทำงานกันเถอะครับ:
ลำดับดนตรีที่ซับซ้อน: การสร้างตัวละครที่เล่นเปียโนด้วยการจับนิ้วที่ถูกต้องและเสียงที่แม่นยำตามโน้ต? ยังเสียส่วนใหญ่ครับ ความสัมพันธ์ภาพ-เสียงสำหรับการแสดงดนตรีที่แม่นยำนั้นยากมากครับ
ความสอดคล้องระยะยาว: คุณภาพเสียงมีแนวโน้มที่จะเปลี่ยนไปในการสร้างที่ยาวขึ้นครับ เสียงรอบข้างพื้นหลังสามารถเปลี่ยนแปลงอย่างไม่เป็นธรรมชาติรอบๆ เครื่องหมาย 15-20 วินาทีในบางโมเดลครับ
คำพูดในเสียงรบกวน: การสร้างบทสนทนาที่ชัดเจนในสภาพแวดล้อมเสียงที่ซับซ้อนยังคงสร้างสิ่งผิดปกติครับ ปัญหา cocktail party ยังคงยากครับ
รูปแบบเสียงทางวัฒนธรรม: โมเดลที่ฝึกเป็นหลักบนเนื้อหาตะวันตกมีปัญหากับลักษณะเสียงของภูมิภาคครับ ลายเซ็น reverb รูปแบบเสียงรอบข้าง และเครื่องหมายเสียงทางวัฒนธรรมของสภาพแวดล้อมที่ไม่ใช่ตะวันตกไม่ได้ถูกจับอย่างมีประสิทธิภาพครับ
ความหมายสำหรับผู้สร้างสรรค์
หากคุณกำลังสร้างเนื้อหาวิดีโอ ขั้นตอนการทำงานของคุณกำลังจะเปลี่ยนแปลงอย่างพื้นฐานครับ การคาดการณ์บางส่วน:
เนื้อหาหมุนเวียนเร็ว กลายเป็นเร็วยิ่งขึ้นครับ วิดีโอโซเชียลมีเดียที่เคยต้องการวิศวกรเสียงสามารถสร้างจากต้นจนจบในไม่กี่นาทีครับ
การทำต้นแบบ เร็วขึ้นอย่างรุนแรงครับ นำเสนอแนวคิดด้วยคลิปเสียงและภาพที่สมบูรณ์แบบแทนที่จะเป็น storyboard และเพลงชั่วคราวครับ
การเข้าถึง ดีขึ้นครับ ผู้สร้างสรรค์ที่ไม่มีทักษะการผลิตเสียงสามารถผลิตเนื้อหาด้วยการออกแบบเสียงคุณภาพระดับมืออาชีพครับ
พรีเมี่ยมทักษะเปลี่ยน จากการดำเนินการสู่การคิดครับ การรู้ว่าอะไรฟังดูดีสำคัญกว่าการรู้วิธีทำให้มันฟังดูดีครับ
ความแปลกประหลาดทางปรัชญา
นี่คือส่วนที่ทำให้ผมนอนไม่หลับครับ: โมเดลเหล่านี้ไม่เคย "ได้ยิน" อะไรเลย พวกมันได้เรียนรู้รูปแบบทางสถิติระหว่างการแทนค่าภาพและรูปคลื่นเสียงครับ แต่พวกมันสร้างเสียงที่รู้สึกถูกต้อง ที่ตรงกับความคาดหวังของเราว่าโลกควรมีเสียงอย่างไรครับ
นั่นคือความเข้าใจหรือไม่ครับ? มันคือการจับคู่รูปแบบที่ซับซ้อนพอที่จะไม่สามารถแยกแยะจากความเข้าใจได้หรือไม่? ผมไม่มีคำตอบ แต่ผมพบว่าคำถามน่าสนใจครับ
โมเดลสร้างเสียงที่แก้วไวน์ทำเมื่อมันแตกเพราะมันได้เรียนรู้ความสัมพันธ์จากตัวอย่างหลายล้าน—ไม่ใช่เพราะมันเข้าใจกลศาสตร์แก้วหรือฟิสิกส์เสียงครับ แต่ผลลัพธ์ฟังดู ถูกต้อง ในแบบที่รู้สึกเกือบจะเป็นไปไม่ได้ที่จะอธิบายผ่านสถิติล้วนๆ ครับ
เรากำลังมุ่งหน้าไปที่ไหน
แนวโน้มดูชัดเจนครับ: ระยะเวลานานขึ้น ความเที่ยงตรงสูงขึ้น การควบคุมมากขึ้นครับ ภายในกลางปี 2026 ผมคาดว่าเราจะเห็น:
- การสร้างเสียงและวิดีโอพื้นฐาน 5+ นาที
- การสร้างแบบเรียลไทม์สำหรับแอปพลิเคชันโต้ตอบ
- การควบคุมเสียงที่ละเอียด (ปรับระดับเสียงบทสนทนา สไตล์เพลง ระดับเสียงรอบข้างแยกกัน)
- การแก้ไขข้ามโมดัล (เปลี่ยนภาพ เสียงอัปเดตโดยอัตโนมัติ)
ช่องว่างระหว่างการจินตนาการบางสิ่งและการแสดงมันเป็นเนื้อหาเสียงและภาพที่สมบูรณ์กำลังยุบลงครับ สำหรับผู้สร้างสรรค์ นั่นเป็นทั้งน่าตื่นเต้นหรือน่ากลัว—น่าจะทั้งสองอย่างครับ
ลองด้วยตัวคุณเอง
วิธีที่ดีที่สุดในการเข้าใจการเปลี่ยนแปลงนี้คือการสัมผัสมันครับ โมเดลส่วนใหญ่เสนอระดับฟรีหรือการทดลองใช้:
- Google AI Studio: เข้าถึงความสามารถ Veo 3 ผ่าน Gemini
- Sora ใน ChatGPT: มีให้สำหรับสมาชิก Plus และ Pro
- Kling: การเข้าถึงเว็บที่แพลตฟอร์มของพวกเขา
- Runway Gen-4: API และอินเทอร์เฟซเว็บที่มีให้
เริ่มต้นง่ายๆ ครับ สร้างคลิป 4 วินาทีของบางสิ่งที่มีเสียงชัดเจน—ลูกบอลที่กระเด้ง ฝนบนหน้าต่าง คนที่กำลังปรบมือครับ สังเกตว่าเสียงตรงกับภาพโดยไม่มีการแทรกแซงจากคุณอย่างไรครับ
จากนั้นลองบางสิ่งที่ซับซ้อนครับ ตลาดที่พลุกพล่าน พายุฟ้าคะนองที่กำลังเข้ามา การสนทนาระหว่างคนสองคนครับ
คุณจะรู้สึกถึงช่วงเวลาที่มันคลิก—เมื่อคุณตระหนักว่าเราไม่ได้แค่สร้างวิดีโออีกต่อไป เรากำลังสร้าง ประสบการณ์ ครับ
ยุคภาพยนตร์เงียบจบลงแล้วครับ ภาพยนตร์พูดได้มาถึงแล้วครับ
บทความนี้มีประโยชน์หรือไม่?

Henry
นักเทคโนโลยีสร้างสรรค์นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ
Adobe เพิ่งทำให้ Gen-4.5 ของ Runway กลายเป็นหัวใจหลักของวิดีโอ AI ใน Firefly พันธมิตรเชิงกลยุทธ์นี้กำลังเปลี่ยนแปลงเวิร์กโฟลว์สร้างสรรค์สำหรับมืออาชีพ สตูดิโอ และแบรนด์ทั่วโลก

ดิสนีย์ลงทุน 1 พันล้านดอลลาร์ใน OpenAI: ความหมายของข้อตกลง Sora 2 สำหรับผู้สร้างสรรค์วิดีโอ AI
ข้อตกลงการออกใบอนุญาตอันประวัติศาสตร์ของดิสนีย์นำตัวละครสัญลักษณ์มากกว่า 200 ตัวมาสู่ Sora 2 เราจะวิเคราะห์ความหมายสำหรับผู้สร้างสรรค์ อุตสาหกรรม และอนาคตของเนื้อหา AI ที่สร้างสรรค์