Meta Pixel
HenryHenry
3 min read
412 คำ

Alibaba Wan2.6: Reference-to-Video นำใบหน้าของคุณเข้าสู่โลกที่สร้างโดย AI

โมเดลวิดีโอ AI ล่าสุดของ Alibaba แนะนำการสร้าง reference-to-video ที่ให้คุณใช้รูปลักษณ์และเสียงของตัวเองในคอนเทนต์ที่สร้างโดย AI นี่คือความหมายสำหรับครีเอเตอร์

Alibaba Wan2.6: Reference-to-Video นำใบหน้าของคุณเข้าสู่โลกที่สร้างโดย AI

ลืมอวาตาร์ AI ทั่วไปไปได้เลย Alibaba เพิ่งปล่อย Wan2.6 และฟีเจอร์เด่นของมันให้คุณใส่ตัวเองเข้าไปในวิดีโอที่สร้างโดย AI โดยใช้เพียงรูปอ้างอิงหรือคลิปเสียง ผลกระทบนั้นน่าทึ่งมาก

การปฏิวัติ Reference

Text-to-video เป็นกระบวนทัศน์มาตรฐานตั้งแต่ยุคแรกของการสร้างวิดีโอ AI พิมพ์พรอมต์ ได้วิดีโอ ง่ายแต่มีข้อจำกัด คุณไม่สามารถทำให้มันเป็นคุณได้โดยไม่ต้อง fine-tune อย่างมากหรือเทรน LoRA

Wan2.6 เปลี่ยนสมการนี้โดยสิ้นเชิง

💡

Reference-to-video หมายความว่า AI ใช้รูปลักษณ์จริง เสียง หรือทั้งสองอย่างของคุณเป็นอินพุตสำหรับการ conditioning ควบคู่กับพรอมต์ข้อความ คุณกลายเป็นตัวละครในการสร้าง ไม่ใช่ความคิดทีหลัง

ปล่อยออกมาเมื่อวันที่ 16 ธันวาคม 2025 Wan2.6 แสดงถึงการรุกเข้าสู่พื้นที่วิดีโอ AI อย่างก้าวร้าวของ Alibaba โมเดลมาในหลายขนาด (1.3B และ 14B พารามิเตอร์) และแนะนำความสามารถหลักสามประการที่ทำให้มันแตกต่างจากคู่แข่ง

Wan2.6 ทำอะไรได้จริง

14B
พารามิเตอร์
720p
ความละเอียดเนทีฟ
5-10s
ความยาววิดีโอ

โมเดลทำงานในสามโหมดที่แตกต่างกัน:

📝

Text-to-Video

การสร้างตามพรอมต์มาตรฐานพร้อมคุณภาพการเคลื่อนไหวและความสอดคล้องทางเวลาที่ดีขึ้น

🖼️

Image-to-Video

แปลงภาพนิ่งใด ๆ ให้เป็นลำดับวิดีโอที่สอดคล้องกัน

👤

Reference-to-Video

ใช้รูปลักษณ์ของคุณเป็นตัวละครถาวรตลอดคอนเทนต์ที่สร้างขึ้น

ความสามารถ reference-to-video คือจุดที่สิ่งต่าง ๆ น่าสนใจ อัปโหลดภาพถ่ายที่ชัดเจนของคุณ (หรือวัตถุใด ๆ) และ Wan2.6 จะสกัดคุณลักษณะเอกลักษณ์ที่คงอยู่ตลอดลำดับที่สร้างขึ้น ใบหน้าของคุณยังคงเป็นใบหน้าของคุณ แม้ว่า AI จะสร้างสถานการณ์ใหม่ทั้งหมดรอบ ๆ มัน

แนวทางทางเทคนิค

Wan2.6 ใช้รูปแบบหนึ่งของสถาปัตยกรรม diffusion transformer ที่กลายเป็นมาตรฐานในโมเดลชั้นนำของปี 2025 แต่การใช้งานของ Alibaba รวมถึง embedding เฉพาะทางสำหรับการรักษาเอกลักษณ์ คล้ายกับสิ่งที่เราสำรวจในการวิเคราะห์เชิงลึกเกี่ยวกับความสอดคล้องของตัวละคร

💡

Reference conditioning ทำงานผ่านกลไก cross-attention ที่ฉีดข้อมูลเอกลักษณ์ที่หลายชั้นของกระบวนการสร้าง สิ่งนี้รักษาลักษณะใบหน้าให้คงที่ในขณะที่ทุกอย่างอื่นสามารถเปลี่ยนแปลงได้ตามธรรมชาติ

ส่วนเสียงใช้ตัวเข้ารหัสเสียงแยกต่างหากที่จับลักษณะเสียงของคุณ: โทนเสียง รูปแบบระดับเสียง และจังหวะการพูด เมื่อรวมกับการอ้างอิงภาพ คุณจะได้เอาต์พุตเสียงและภาพที่ซิงค์กันซึ่งฟังดูและดูเหมือนคุณจริง ๆ

แนวทางนี้แตกต่างจากกลยุทธ์ world model ของ Runway ซึ่งเน้นการจำลองฟิสิกส์และความสอดคล้องของสิ่งแวดล้อม Wan2.6 ให้ความสำคัญกับการรักษาเอกลักษณ์มากกว่าความแม่นยำของสิ่งแวดล้อม ซึ่งเป็นการแลกเปลี่ยนที่สมเหตุสมผลสำหรับกรณีการใช้งานเป้าหมาย

Open Source สำคัญ

บางทีด้านที่สำคัญที่สุดของ Wan2.6 คือ Alibaba ปล่อยมันเป็น open source น้ำหนักมีให้ดาวน์โหลด หมายความว่าคุณสามารถรันมันในเครื่องบนฮาร์ดแวร์ที่มีความสามารถได้

Wan2.6 (Open)

รันในเครื่อง ไม่มีค่า API ควบคุมข้อมูลของคุณได้เต็มที่

Sora 2 / Veo 3 (Closed)

API เท่านั้น ค่าใช้จ่ายต่อการสร้าง ข้อมูลส่งไปยังบุคคลที่สาม

สิ่งนี้ดำเนินรูปแบบที่เราครอบคลุมในการปฏิวัติวิดีโอ AI แบบ open-source ที่บริษัทจีนปล่อยโมเดลที่ทรงพลังซึ่งทำงานบนฮาร์ดแวร์ผู้บริโภค เวอร์ชัน 14B ต้องการ VRAM จำนวนมาก (24GB+) แต่รุ่น 1.3B สามารถรันบน RTX 4090 ได้

กรณีการใช้งานที่สมเหตุสมผลจริง ๆ

Reference-to-video ปลดล็อกสถานการณ์ที่ก่อนหน้านี้เป็นไปไม่ได้หรือแพงเกินไป

  • คอนเทนต์การตลาดที่ปรับแต่งได้ในระดับใหญ่
  • สร้างอวาตาร์ที่กำหนดเองโดยไม่ต้องถ่ายในสตูดิโอ
  • การทำต้นแบบอย่างรวดเร็วสำหรับแนวคิดวิดีโอ
  • การเข้าถึง: อวาตาร์ภาษามือ การศึกษาที่ปรับแต่งได้

ลองจินตนาการถึงการสร้างวิดีโอสาธิตผลิตภัณฑ์ที่มีตัวคุณโดยไม่เคยยืนหน้ากล้องเลย หรือสร้างคอนเทนต์การฝึกอบรมที่ผู้สอนเป็นเวอร์ชัน reference-conditioned ของ CEO ของคุณ การใช้งานขยายไปไกลกว่าความแปลกใหม่

ปัญหาความเป็นส่วนตัว

มาพูดถึงความกังวลที่ชัดเจน: เทคโนโลยีนี้สามารถถูกนำไปใช้ในทางที่ผิดสำหรับ deepfakes

Alibaba ได้ใช้มาตรการป้องกันบางอย่าง โมเดลรวมถึงลายน้ำคล้ายกับแนวทาง SynthID ของ Google และเงื่อนไขการบริการห้ามการใช้งานโดยไม่ได้รับความยินยอม แต่เหล่านี้เป็นตัวชะลอความเร็ว ไม่ใช่อุปสรรค

⚠️

เทคโนโลยี Reference-to-video ต้องการการใช้งานอย่างรับผิดชอบ ขอความยินยอมเสมอก่อนใช้รูปลักษณ์ของผู้อื่น และโปร่งใสเกี่ยวกับคอนเทนต์ที่สร้างโดย AI

จินนี่ออกจากขวดแล้ว โมเดลหลายตัวตอนนี้เสนอการสร้างที่รักษาเอกลักษณ์ และธรรมชาติ open-source ของ Wan2.6 หมายความว่าทุกคนสามารถเข้าถึงความสามารถนี้ได้ การสนทนาเปลี่ยนจาก "ควรมีสิ่งนี้หรือไม่" เป็น "เราจะจัดการกับมันอย่างรับผิดชอบอย่างไร"

การเปรียบเทียบ

Wan2.6 เข้าสู่ตลาดที่แออัด นี่คือวิธีที่มันเทียบกับคู่แข่งชั้นนำของธันวาคม 2025

โมเดลReference-to-VideoOpen Sourceเสียงเนทีฟความยาวสูงสุด
Wan2.610s
Runway Gen-4.5จำกัด15s
Sora 260s
Veo 3120s
LTX-210s

Wan2.6 แลกความยาวกับการรักษาเอกลักษณ์ หากคุณต้องการคลิป 60 วินาที Sora 2 ยังคงเป็นทางเลือกที่ดีที่สุดของคุณ แต่ถ้าคุณต้องการให้คลิปเหล่านั้นแสดงบุคคลเฉพาะอย่างสม่ำเสมอ Wan2.6 เสนอสิ่งที่โมเดลปิดไม่ได้เสนอ

ภาพรวมที่ใหญ่กว่า

Reference-to-video แสดงถึงการเปลี่ยนแปลงในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ AI คำถามไม่ใช่แค่ "อะไรควรเกิดขึ้นในวิดีโอนี้" อีกต่อไป แต่คือ "ใครควรอยู่ในนั้น"

นี่คือชั้นของการปรับแต่งที่ขาดหายไปจาก text-to-video อวาตาร์ AI ทั่วไปรู้สึกเหมือน stock footage ตัวละคร reference-conditioned รู้สึกเหมือนคุณ

รวมกับการสร้างเสียงเนทีฟและความสอดคล้องของตัวละครที่ดีขึ้น เรากำลังเข้าใกล้อนาคตที่การสร้างคอนเทนต์วิดีโอระดับมืออาชีพต้องการเพียงภาพถ่ายจากเว็บแคมและพรอมต์ข้อความ

Alibaba พนันว่าการสร้างที่เน้นเอกลักษณ์เป็นพรมแดนถัดไป ด้วย Wan2.6 ตอนนี้เป็น open source และทำงานบนฮาร์ดแวร์ผู้บริโภค เราจะได้รู้ในไม่ช้าว่าพวกเขาถูกต้องหรือไม่

💡

อ่านเพิ่มเติม: สำหรับการเปรียบเทียบโมเดลวิดีโอ AI ชั้นนำ ดูการเปรียบเทียบ Sora 2 vs Runway vs Veo 3 ของเรา เพื่อทำความเข้าใจสถาปัตยกรรมพื้นฐาน ดู Diffusion Transformers ในปี 2025

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

LTX-2: การสร้างวิดีโอ AI 4K แบบพื้นฐานบน GPU ผู้บริโภคผ่าน Open Source
AI Video GenerationOpen Source

LTX-2: การสร้างวิดีโอ AI 4K แบบพื้นฐานบน GPU ผู้บริโภคผ่าน Open Source

Lightricks ปล่อย LTX-2 พร้อมการสร้างวิดีโอ 4K แบบพื้นฐานและเสียงที่ซิงค์กัน เสนอการเข้าถึง open-source บนฮาร์ดแวร์ผู้บริโภคในขณะที่คู่แข่งยังคงถูกล็อกด้วย API แม้ว่าจะมีการแลกเปลี่ยนประสิทธิภาพที่สำคัญครับ

Read
Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
RunwayWorld Models

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์

GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

Read
YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
YouTubeVeo 3

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน

Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

Alibaba Wan2.6: Reference-to-Video นำใบหน้าของคุณเข้าสู่โลกที่สร้างโดย AI