Meta Pixel
HenryHenry
3 min read
420 คำ

ยุคภาพยนตร์เงียบสิ้นสุดลง: การสร้างเสียงพร้อมกันเปลี่ยนแปลงวิดีโอ AI ไปตลอดกาล

การสร้างวิดีโอ AI เพิ่งพัฒนาจากภาพยนตร์เงียบสู่ภาพยนตร์พูดได้ มาสำรวจว่าการสังเคราะห์เสียงและภาพพร้อมกันกำลังปรับเปลี่ยนขั้นตอนการสร้างสรรค์อย่างไร พร้อมบทสนทนาที่ซิงค์กัน ฉากเสียงรอบข้าง และเอฟเฟกต์เสียงที่สร้างขึ้นควบคู่ไปกับภาพครับ

ยุคภาพยนตร์เงียบสิ้นสุดลง: การสร้างเสียงพร้อมกันเปลี่ยนแปลงวิดีโอ AI ไปตลอดกาล

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

จำหนังชาร์ลี แชปลินเรื่องเก่าๆ ได้ไหมครับ? ท่าทางที่เกินจริง เสียงเปียโนประกอบ บทสนทนาที่เป็นข้อความ? ในช่วงไม่กี่ปีที่ผ่านมา การสร้างวิดีโอ AI ติดอยู่ในยุคภาพยนตร์เงียบของมันเองครับ เราสามารถสร้างภาพที่สวยงามจากข้อความได้—ทิวทัศน์เมืองตอนพลบค่ำ ผู้คนที่กำลังเต้นรำ กาแล็กซีที่กำลังระเบิด—แต่ภาพเหล่านั้นเล่นออกมาด้วยความเงียบที่น่าขนลุก เราต้องเพิ่มเสียงทีหลัง หวังว่าเสียงเท้าจะซิงค์กัน อธิษฐานว่าการเคลื่อนไหวของริมฝีปากจะตรงกันครับ

ยุคนั้นเพิ่งจะสิ้นสุดลงครับ

จากฝันร้ายหลังการผลิตสู่การสังเคราะห์แบบพื้นฐาน

ความก้าวกระโดดทางเทคนิคนี้น่าทึ่งมากครับ ขั้นตอนการทำงานแบบเดิมๆ เป็นแบบนี้:

  1. สร้างวิดีโอจากคำสั่ง
  2. ส่งออกเฟรม
  3. เปิดซอฟต์แวร์เสียง
  4. ค้นหาหรือสร้างเอฟเฟกต์เสียง
  5. ซิงค์ทุกอย่างด้วยตนเอง
  6. อธิษฐานว่ามันจะไม่ดูแย่

ตอนนี้? โมเดลสร้างเสียงและวิดีโอ พร้อมกัน ในกระบวนการเดียวครับ ไม่ใช่สตรีมแยกกันที่ถูกเย็บต่อกัน—แต่เป็นข้อมูลที่รวมกันไหลผ่าน latent space เดียวกันครับ

# วิธีเก่า: สร้างแยกกัน, ซิงค์ด้วยตนเอง
video = generate_video(prompt)
audio = generate_audio_separately(prompt)
result = sync_audio_video(video, audio)  # Good luck!
 
# วิธีใหม่: การสร้างแบบรวมกัน
result = generate_audiovisual(prompt)  # เสียงและภาพ, เกิดมาพร้อมกัน

Veo 3 ของ Google บีบอัดการแทนค่าเสียงและวิดีโอเข้าไปใน latent space ที่ใช้ร่วมกันครับ เมื่อกระบวนการ diffusion คลี่ออก ทั้งสองโมดัลลิตีปรากฏขึ้นพร้อมกัน—บทสนทนา เสียงรอบข้าง เอฟเฟกต์เสียง ทั้งหมดจัดตำแหน่งตามเวลาโดยการออกแบบมากกว่าการจัดตำแหน่งทีหลังครับ

"พื้นฐาน" หมายความว่าอย่างไรจริงๆ

ให้ผมอธิบายว่าเกิดอะไรขึ้นภายในนะครับ เพราะความแตกต่างนี้สำคัญครับ

แนวทางแหล่งเสียงวิธีซิงค์คุณภาพ
หลังการผลิตโมเดล/ไลบรารีแยกด้วยตนเองหรืออัลกอริทึมมักไม่ตรงกัน
สองขั้นตอนสร้างหลังวิดีโอCross-modal attentionดีกว่า แต่มีสิ่งผิดปกติ
การสังเคราะห์พื้นฐานLatent space เดียวกันโดยธรรมชาติจากการสร้างซิงค์ตามธรรมชาติ

การสังเคราะห์แบบพื้นฐานหมายความว่าโมเดลเรียนรู้ความสัมพันธ์ระหว่างเหตุการณ์ภาพและเสียงระหว่างการฝึกครับ ประตูที่กระแทกไม่ใช่ "ภาพประตู + เสียงประตู"—แต่เป็นเหตุการณ์เสียงและภาพที่รวมกันที่โมเดลแทนค่าแบบองค์รวมครับ

ผลลัพธ์ที่ได้จริงๆ? ความแม่นยำในการซิงค์ริมฝีปากต่ำกว่า 120 มิลลิวินาทีสำหรับ Veo 3 และ Veo 3.1 ผลักดันให้ลงมาอยู่ที่ประมาณ 10 มิลลิวินาทีครับ นั่นดีกว่าความล่าช้าของเว็บแคมส่วนใหญ่เสียอีกครับ

ความเป็นไปได้ในการสร้างสรรค์นั้นยอดเยี่ยมมากครับ

ผมได้ทดลองใช้เครื่องมือเหล่านี้สำหรับการสร้างเนื้อหา และความเป็นไปได้รู้สึกใหม่จริงๆ ครับ นี่คือสิ่งที่กลายเป็นเรื่องง่ายทันทีครับ:

ฉากเสียงรอบข้าง: สร้างฉากถนนที่มีฝนตก และมันมาพร้อมกับฝน การจราจรที่ไกล เสียงเท้าที่สะท้อนครับ โมเดลเข้าใจว่าฝนที่ตกบนโลหะมีเสียงแตกต่างจากฝนบนทางเท้าครับ

บทสนทนาที่ซิงค์กัน: พิมพ์การสนทนา ได้ตัวละครที่พูดพร้อมการเคลื่อนไหวริมฝีปากที่ตรงกันครับ ไม่สมบูรณ์แบบ—ยังมีช่วงเวลาที่น่ากังวลบ้าง—แต่เราก้าวกระโดดจาก "ปลอมอย่างชัดเจน" สู่ "น่าเชื่อในบางครั้ง" ครับ

เอฟเฟกต์เสียงทางกายภาพ: ลูกบอลที่กระเด้งมีเสียงเหมือนลูกบอลที่กระเด้งจริงๆ ครับ แก้วที่แตกมีเสียงเหมือนแก้วจริงๆ โมเดลได้เรียนรู้ลายเซ็นเสียงของการโต้ตอบทางกายภาพครับ

คำสั่ง: "บาริสต้าทำฟองนมในร้านกาแฟที่พลุกพล่าน ลูกค้าคุยกัน
        เครื่องทำเอสเพรสโซ่ส่งเสียงฟู่ เพลงแจ๊สเล่นเบาๆ ในพื้นหลัง"
 
ผลลัพธ์: 8 วินาทีของประสบการณ์เสียงและภาพที่ซิงค์กันอย่างสมบูรณ์แบบ

ไม่ต้องการวิศวกรเสียง ไม่ต้องการศิลปิน Foley ไม่ต้องการเซสชันผสมเสียงครับ

ความสามารถปัจจุบันของโมเดลต่างๆ

ภูมิทัศน์กำลังเคลื่อนไหวอย่างรวดเร็ว แต่นี่คือสถานการณ์ปัจจุบันครับ:

Google Veo 3 / Veo 3.1

  • การสร้างเสียงพื้นฐานพร้อมรองรับบทสนทนา
  • ความละเอียด 1080p แบบพื้นฐานที่ 24 fps
  • ฉากเสียงรอบข้างที่แข็งแกร่ง
  • รวมอยู่ในระบบนิเวศ Gemini

OpenAI Sora 2

  • การสร้างเสียงและวิดีโอที่ซิงค์กัน
  • สูงสุด 60 วินาทีพร้อมซิงค์เสียง (90 วินาทีทั้งหมด)
  • ความพร้อมใช้งานระดับองค์กรผ่าน Azure AI Foundry
  • ความสัมพันธ์ฟิสิกส์-เสียงที่แข็งแกร่ง

Kuaishou Kling 2.1

  • ความสอดคล้องหลายช็อตพร้อมเสียง
  • ระยะเวลาสูงสุด 2 นาที
  • ผู้สร้างสรรค์ 45 ล้านคน+ ใช้แพลตฟอร์ม

MiniMax Hailuo 02

  • สถาปัตยกรรม Noise-Aware Compute Redistribution
  • การปฏิบัติตามคำสั่งที่แข็งแกร่ง
  • ไปป์ไลน์การสร้างที่มีประสิทธิภาพ

"ปัญหา Foley" กำลังละลายหายไป

หนึ่งในสิ่งโปรดของผมเกี่ยวกับการเปลี่ยนแปลงนี้คือการดูปัญหา Foley ละลายหายไปครับ Foley—ศิลปะการสร้างเอฟเฟกต์เสียงในชีวิตประจำวัน—เป็นงานฝีมือเฉพาะทางมาเป็นศตวรรษแล้วครับ การบันทึกเสียงเท้า ทำลายมะพร้าวเพื่อเสียงกีบม้า เขย่าผ้าเพื่อเสียงลมครับ

ตอนนี้โมเดลก็แค่... รู้ ไม่ใช่ผ่านกฎหรือไลบรารี แต่ผ่านความสัมพันธ์ทางสถิติที่เรียนรู้ระหว่างเหตุการณ์ภาพและลายเซ็นเสียงของพวกมันครับ

มันกำลังแทนที่ศิลปิน Foley หรือไม่ครับ? สำหรับการผลิตภาพยนตร์ระดับสูง อาจจะยังไม่ครับ สำหรับวิดีโอ YouTube เนื้อหาโซเชียล ต้นแบบด่วน? แน่นอนครับ แท่งคุณภาพเปลี่ยนไปอย่างมากครับ

ข้อจำกัดทางเทคนิคยังคงมีอยู่

มาพูดความจริงเกี่ยวกับสิ่งที่ยังไม่ทำงานกันเถอะครับ:

ลำดับดนตรีที่ซับซ้อน: การสร้างตัวละครที่เล่นเปียโนด้วยการจับนิ้วที่ถูกต้องและเสียงที่แม่นยำตามโน้ต? ยังเสียส่วนใหญ่ครับ ความสัมพันธ์ภาพ-เสียงสำหรับการแสดงดนตรีที่แม่นยำนั้นยากมากครับ

ความสอดคล้องระยะยาว: คุณภาพเสียงมีแนวโน้มที่จะเปลี่ยนไปในการสร้างที่ยาวขึ้นครับ เสียงรอบข้างพื้นหลังสามารถเปลี่ยนแปลงอย่างไม่เป็นธรรมชาติรอบๆ เครื่องหมาย 15-20 วินาทีในบางโมเดลครับ

คำพูดในเสียงรบกวน: การสร้างบทสนทนาที่ชัดเจนในสภาพแวดล้อมเสียงที่ซับซ้อนยังคงสร้างสิ่งผิดปกติครับ ปัญหา cocktail party ยังคงยากครับ

รูปแบบเสียงทางวัฒนธรรม: โมเดลที่ฝึกเป็นหลักบนเนื้อหาตะวันตกมีปัญหากับลักษณะเสียงของภูมิภาคครับ ลายเซ็น reverb รูปแบบเสียงรอบข้าง และเครื่องหมายเสียงทางวัฒนธรรมของสภาพแวดล้อมที่ไม่ใช่ตะวันตกไม่ได้ถูกจับอย่างมีประสิทธิภาพครับ

ความหมายสำหรับผู้สร้างสรรค์

หากคุณกำลังสร้างเนื้อหาวิดีโอ ขั้นตอนการทำงานของคุณกำลังจะเปลี่ยนแปลงอย่างพื้นฐานครับ การคาดการณ์บางส่วน:

เนื้อหาหมุนเวียนเร็ว กลายเป็นเร็วยิ่งขึ้นครับ วิดีโอโซเชียลมีเดียที่เคยต้องการวิศวกรเสียงสามารถสร้างจากต้นจนจบในไม่กี่นาทีครับ

การทำต้นแบบ เร็วขึ้นอย่างรุนแรงครับ นำเสนอแนวคิดด้วยคลิปเสียงและภาพที่สมบูรณ์แบบแทนที่จะเป็น storyboard และเพลงชั่วคราวครับ

การเข้าถึง ดีขึ้นครับ ผู้สร้างสรรค์ที่ไม่มีทักษะการผลิตเสียงสามารถผลิตเนื้อหาด้วยการออกแบบเสียงคุณภาพระดับมืออาชีพครับ

พรีเมี่ยมทักษะเปลี่ยน จากการดำเนินการสู่การคิดครับ การรู้ว่าอะไรฟังดูดีสำคัญกว่าการรู้วิธีทำให้มันฟังดูดีครับ

ความแปลกประหลาดทางปรัชญา

นี่คือส่วนที่ทำให้ผมนอนไม่หลับครับ: โมเดลเหล่านี้ไม่เคย "ได้ยิน" อะไรเลย พวกมันได้เรียนรู้รูปแบบทางสถิติระหว่างการแทนค่าภาพและรูปคลื่นเสียงครับ แต่พวกมันสร้างเสียงที่รู้สึกถูกต้อง ที่ตรงกับความคาดหวังของเราว่าโลกควรมีเสียงอย่างไรครับ

นั่นคือความเข้าใจหรือไม่ครับ? มันคือการจับคู่รูปแบบที่ซับซ้อนพอที่จะไม่สามารถแยกแยะจากความเข้าใจได้หรือไม่? ผมไม่มีคำตอบ แต่ผมพบว่าคำถามน่าสนใจครับ

โมเดลสร้างเสียงที่แก้วไวน์ทำเมื่อมันแตกเพราะมันได้เรียนรู้ความสัมพันธ์จากตัวอย่างหลายล้าน—ไม่ใช่เพราะมันเข้าใจกลศาสตร์แก้วหรือฟิสิกส์เสียงครับ แต่ผลลัพธ์ฟังดู ถูกต้อง ในแบบที่รู้สึกเกือบจะเป็นไปไม่ได้ที่จะอธิบายผ่านสถิติล้วนๆ ครับ

เรากำลังมุ่งหน้าไปที่ไหน

แนวโน้มดูชัดเจนครับ: ระยะเวลานานขึ้น ความเที่ยงตรงสูงขึ้น การควบคุมมากขึ้นครับ ภายในกลางปี 2026 ผมคาดว่าเราจะเห็น:

  • การสร้างเสียงและวิดีโอพื้นฐาน 5+ นาที
  • การสร้างแบบเรียลไทม์สำหรับแอปพลิเคชันโต้ตอบ
  • การควบคุมเสียงที่ละเอียด (ปรับระดับเสียงบทสนทนา สไตล์เพลง ระดับเสียงรอบข้างแยกกัน)
  • การแก้ไขข้ามโมดัล (เปลี่ยนภาพ เสียงอัปเดตโดยอัตโนมัติ)

ช่องว่างระหว่างการจินตนาการบางสิ่งและการแสดงมันเป็นเนื้อหาเสียงและภาพที่สมบูรณ์กำลังยุบลงครับ สำหรับผู้สร้างสรรค์ นั่นเป็นทั้งน่าตื่นเต้นหรือน่ากลัว—น่าจะทั้งสองอย่างครับ

ลองด้วยตัวคุณเอง

วิธีที่ดีที่สุดในการเข้าใจการเปลี่ยนแปลงนี้คือการสัมผัสมันครับ โมเดลส่วนใหญ่เสนอระดับฟรีหรือการทดลองใช้:

  1. Google AI Studio: เข้าถึงความสามารถ Veo 3 ผ่าน Gemini
  2. Sora ใน ChatGPT: มีให้สำหรับสมาชิก Plus และ Pro
  3. Kling: การเข้าถึงเว็บที่แพลตฟอร์มของพวกเขา
  4. Runway Gen-4: API และอินเทอร์เฟซเว็บที่มีให้

เริ่มต้นง่ายๆ ครับ สร้างคลิป 4 วินาทีของบางสิ่งที่มีเสียงชัดเจน—ลูกบอลที่กระเด้ง ฝนบนหน้าต่าง คนที่กำลังปรบมือครับ สังเกตว่าเสียงตรงกับภาพโดยไม่มีการแทรกแซงจากคุณอย่างไรครับ

จากนั้นลองบางสิ่งที่ซับซ้อนครับ ตลาดที่พลุกพล่าน พายุฟ้าคะนองที่กำลังเข้ามา การสนทนาระหว่างคนสองคนครับ

คุณจะรู้สึกถึงช่วงเวลาที่มันคลิก—เมื่อคุณตระหนักว่าเราไม่ได้แค่สร้างวิดีโออีกต่อไป เรากำลังสร้าง ประสบการณ์ ครับ

ยุคภาพยนตร์เงียบจบลงแล้วครับ ภาพยนตร์พูดได้มาถึงแล้วครับ

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
AI VideoPika Labs

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์

Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

Read
Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ
AI VideoAdobe

Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ

Adobe เพิ่งทำให้ Gen-4.5 ของ Runway กลายเป็นหัวใจหลักของวิดีโอ AI ใน Firefly พันธมิตรเชิงกลยุทธ์นี้กำลังเปลี่ยนแปลงเวิร์กโฟลว์สร้างสรรค์สำหรับมืออาชีพ สตูดิโอ และแบรนด์ทั่วโลก

Read
ดิสนีย์ลงทุน 1 พันล้านดอลลาร์ใน OpenAI: ความหมายของข้อตกลง Sora 2 สำหรับผู้สร้างสรรค์วิดีโอ AI
AI VideoSora 2

ดิสนีย์ลงทุน 1 พันล้านดอลลาร์ใน OpenAI: ความหมายของข้อตกลง Sora 2 สำหรับผู้สร้างสรรค์วิดีโอ AI

ข้อตกลงการออกใบอนุญาตอันประวัติศาสตร์ของดิสนีย์นำตัวละครสัญลักษณ์มากกว่า 200 ตัวมาสู่ Sora 2 เราจะวิเคราะห์ความหมายสำหรับผู้สร้างสรรค์ อุตสาหกรรม และอนาคตของเนื้อหา AI ที่สร้างสรรค์

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

ยุคภาพยนตร์เงียบสิ้นสุดลง: การสร้างเสียงพร้อมกันเปลี่ยนแปลงวิดีโอ AI ไปตลอดกาล