Alibaba Wan2.6: Reference-to-Video นำใบหน้าของคุณเข้าสู่โลกที่สร้างโดย AI

ลืมอวาตาร์ AI ทั่วไปไปได้เลย Alibaba เพิ่งปล่อย Wan2.6 และฟีเจอร์เด่นของมันให้คุณใส่ตัวเองเข้าไปในวิดีโอที่สร้างโดย AI โดยใช้เพียงรูปอ้างอิงหรือคลิปเสียง ผลกระทบนั้นน่าทึ่งมาก

การปฏิวัติ Reference

Text-to-video เป็นกระบวนทัศน์มาตรฐานตั้งแต่ยุคแรกของการสร้างวิดีโอ AI พิมพ์พรอมต์ ได้วิดีโอ ง่ายแต่มีข้อจำกัด คุณไม่สามารถทำให้มันเป็นคุณได้โดยไม่ต้อง fine-tune อย่างมากหรือเทรน LoRA

Wan2.6 เปลี่ยนสมการนี้โดยสิ้นเชิง

💡

Reference-to-video หมายความว่า AI ใช้รูปลักษณ์จริง เสียง หรือทั้งสองอย่างของคุณเป็นอินพุตสำหรับการ conditioning ควบคู่กับพรอมต์ข้อความ คุณกลายเป็นตัวละครในการสร้าง ไม่ใช่ความคิดทีหลัง

ปล่อยออกมาเมื่อวันที่ 16 ธันวาคม 2025 Wan2.6 แสดงถึงการรุกเข้าสู่พื้นที่วิดีโอ AI อย่างก้าวร้าวของ Alibaba โมเดลมาในหลายขนาด (1.3B และ 14B พารามิเตอร์) และแนะนำความสามารถหลักสามประการที่ทำให้มันแตกต่างจากคู่แข่ง

Wan2.6 ทำอะไรได้จริง

14B

พารามิเตอร์

720p

ความละเอียดเนทีฟ

5-10s

ความยาววิดีโอ

โมเดลทำงานในสามโหมดที่แตกต่างกัน:

📝

Text-to-Video

การสร้างตามพรอมต์มาตรฐานพร้อมคุณภาพการเคลื่อนไหวและความสอดคล้องทางเวลาที่ดีขึ้น

🖼️

Image-to-Video

แปลงภาพนิ่งใด ๆ ให้เป็นลำดับวิดีโอที่สอดคล้องกัน

👤

Reference-to-Video

ใช้รูปลักษณ์ของคุณเป็นตัวละครถาวรตลอดคอนเทนต์ที่สร้างขึ้น

ความสามารถ reference-to-video คือจุดที่สิ่งต่าง ๆ น่าสนใจ อัปโหลดภาพถ่ายที่ชัดเจนของคุณ (หรือวัตถุใด ๆ) และ Wan2.6 จะสกัดคุณลักษณะเอกลักษณ์ที่คงอยู่ตลอดลำดับที่สร้างขึ้น ใบหน้าของคุณยังคงเป็นใบหน้าของคุณ แม้ว่า AI จะสร้างสถานการณ์ใหม่ทั้งหมดรอบ ๆ มัน

แนวทางทางเทคนิค

Wan2.6 ใช้รูปแบบหนึ่งของสถาปัตยกรรม diffusion transformer ที่กลายเป็นมาตรฐานในโมเดลชั้นนำของปี 2025 แต่การใช้งานของ Alibaba รวมถึง embedding เฉพาะทางสำหรับการรักษาเอกลักษณ์ คล้ายกับสิ่งที่เราสำรวจในการวิเคราะห์เชิงลึกเกี่ยวกับความสอดคล้องของตัวละคร

💡

Reference conditioning ทำงานผ่านกลไก cross-attention ที่ฉีดข้อมูลเอกลักษณ์ที่หลายชั้นของกระบวนการสร้าง สิ่งนี้รักษาลักษณะใบหน้าให้คงที่ในขณะที่ทุกอย่างอื่นสามารถเปลี่ยนแปลงได้ตามธรรมชาติ

ส่วนเสียงใช้ตัวเข้ารหัสเสียงแยกต่างหากที่จับลักษณะเสียงของคุณ: โทนเสียง รูปแบบระดับเสียง และจังหวะการพูด เมื่อรวมกับการอ้างอิงภาพ คุณจะได้เอาต์พุตเสียงและภาพที่ซิงค์กันซึ่งฟังดูและดูเหมือนคุณจริง ๆ

แนวทางนี้แตกต่างจากกลยุทธ์ world model ของ Runway ซึ่งเน้นการจำลองฟิสิกส์และความสอดคล้องของสิ่งแวดล้อม Wan2.6 ให้ความสำคัญกับการรักษาเอกลักษณ์มากกว่าความแม่นยำของสิ่งแวดล้อม ซึ่งเป็นการแลกเปลี่ยนที่สมเหตุสมผลสำหรับกรณีการใช้งานเป้าหมาย

Open Source สำคัญ

บางทีด้านที่สำคัญที่สุดของ Wan2.6 คือ Alibaba ปล่อยมันเป็น open source น้ำหนักมีให้ดาวน์โหลด หมายความว่าคุณสามารถรันมันในเครื่องบนฮาร์ดแวร์ที่มีความสามารถได้

✓Wan2.6 (Open)

รันในเครื่อง ไม่มีค่า API ควบคุมข้อมูลของคุณได้เต็มที่

✗Sora 2 / Veo 3 (Closed)

API เท่านั้น ค่าใช้จ่ายต่อการสร้าง ข้อมูลส่งไปยังบุคคลที่สาม

สิ่งนี้ดำเนินรูปแบบที่เราครอบคลุมในการปฏิวัติวิดีโอ AI แบบ open-source ที่บริษัทจีนปล่อยโมเดลที่ทรงพลังซึ่งทำงานบนฮาร์ดแวร์ผู้บริโภค เวอร์ชัน 14B ต้องการ VRAM จำนวนมาก (24GB+) แต่รุ่น 1.3B สามารถรันบน RTX 4090 ได้

กรณีการใช้งานที่สมเหตุสมผลจริง ๆ

Reference-to-video ปลดล็อกสถานการณ์ที่ก่อนหน้านี้เป็นไปไม่ได้หรือแพงเกินไป

✓คอนเทนต์การตลาดที่ปรับแต่งได้ในระดับใหญ่
✓สร้างอวาตาร์ที่กำหนดเองโดยไม่ต้องถ่ายในสตูดิโอ
✓การทำต้นแบบอย่างรวดเร็วสำหรับแนวคิดวิดีโอ
✓การเข้าถึง: อวาตาร์ภาษามือ การศึกษาที่ปรับแต่งได้

ลองจินตนาการถึงการสร้างวิดีโอสาธิตผลิตภัณฑ์ที่มีตัวคุณโดยไม่เคยยืนหน้ากล้องเลย หรือสร้างคอนเทนต์การฝึกอบรมที่ผู้สอนเป็นเวอร์ชัน reference-conditioned ของ CEO ของคุณ การใช้งานขยายไปไกลกว่าความแปลกใหม่

ปัญหาความเป็นส่วนตัว

มาพูดถึงความกังวลที่ชัดเจน: เทคโนโลยีนี้สามารถถูกนำไปใช้ในทางที่ผิดสำหรับ deepfakes

Alibaba ได้ใช้มาตรการป้องกันบางอย่าง โมเดลรวมถึงลายน้ำคล้ายกับแนวทาง SynthID ของ Google และเงื่อนไขการบริการห้ามการใช้งานโดยไม่ได้รับความยินยอม แต่เหล่านี้เป็นตัวชะลอความเร็ว ไม่ใช่อุปสรรค

⚠️

เทคโนโลยี Reference-to-video ต้องการการใช้งานอย่างรับผิดชอบ ขอความยินยอมเสมอก่อนใช้รูปลักษณ์ของผู้อื่น และโปร่งใสเกี่ยวกับคอนเทนต์ที่สร้างโดย AI

จินนี่ออกจากขวดแล้ว โมเดลหลายตัวตอนนี้เสนอการสร้างที่รักษาเอกลักษณ์ และธรรมชาติ open-source ของ Wan2.6 หมายความว่าทุกคนสามารถเข้าถึงความสามารถนี้ได้ การสนทนาเปลี่ยนจาก "ควรมีสิ่งนี้หรือไม่" เป็น "เราจะจัดการกับมันอย่างรับผิดชอบอย่างไร"

การเปรียบเทียบ

Wan2.6 เข้าสู่ตลาดที่แออัด นี่คือวิธีที่มันเทียบกับคู่แข่งชั้นนำของธันวาคม 2025

โมเดล	Reference-to-Video	Open Source	เสียงเนทีฟ	ความยาวสูงสุด
Wan2.6	✅	✅	✅	10s
Runway Gen-4.5	จำกัด	❌	✅	15s
Sora 2	❌	❌	✅	60s
Veo 3	❌	❌	✅	120s
LTX-2	❌	✅	✅	10s

Wan2.6 แลกความยาวกับการรักษาเอกลักษณ์ หากคุณต้องการคลิป 60 วินาที Sora 2 ยังคงเป็นทางเลือกที่ดีที่สุดของคุณ แต่ถ้าคุณต้องการให้คลิปเหล่านั้นแสดงบุคคลเฉพาะอย่างสม่ำเสมอ Wan2.6 เสนอสิ่งที่โมเดลปิดไม่ได้เสนอ

ภาพรวมที่ใหญ่กว่า

Reference-to-video แสดงถึงการเปลี่ยนแปลงในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ AI คำถามไม่ใช่แค่ "อะไรควรเกิดขึ้นในวิดีโอนี้" อีกต่อไป แต่คือ "ใครควรอยู่ในนั้น"

นี่คือชั้นของการปรับแต่งที่ขาดหายไปจาก text-to-video อวาตาร์ AI ทั่วไปรู้สึกเหมือน stock footage ตัวละคร reference-conditioned รู้สึกเหมือนคุณ

รวมกับการสร้างเสียงเนทีฟและความสอดคล้องของตัวละครที่ดีขึ้น เรากำลังเข้าใกล้อนาคตที่การสร้างคอนเทนต์วิดีโอระดับมืออาชีพต้องการเพียงภาพถ่ายจากเว็บแคมและพรอมต์ข้อความ

Alibaba พนันว่าการสร้างที่เน้นเอกลักษณ์เป็นพรมแดนถัดไป ด้วย Wan2.6 ตอนนี้เป็น open source และทำงานบนฮาร์ดแวร์ผู้บริโภค เราจะได้รู้ในไม่ช้าว่าพวกเขาถูกต้องหรือไม่

💡

อ่านเพิ่มเติม: สำหรับการเปรียบเทียบโมเดลวิดีโอ AI ชั้นนำ ดูการเปรียบเทียบ Sora 2 vs Runway vs Veo 3 ของเรา เพื่อทำความเข้าใจสถาปัตยกรรมพื้นฐาน ดู Diffusion Transformers ในปี 2025