Alibaba Wan2.6: Reference-to-Video นำใบหน้าของคุณเข้าสู่โลกที่สร้างโดย AI
โมเดลวิดีโอ AI ล่าสุดของ Alibaba แนะนำการสร้าง reference-to-video ที่ให้คุณใช้รูปลักษณ์และเสียงของตัวเองในคอนเทนต์ที่สร้างโดย AI นี่คือความหมายสำหรับครีเอเตอร์

ลืมอวาตาร์ AI ทั่วไปไปได้เลย Alibaba เพิ่งปล่อย Wan2.6 และฟีเจอร์เด่นของมันให้คุณใส่ตัวเองเข้าไปในวิดีโอที่สร้างโดย AI โดยใช้เพียงรูปอ้างอิงหรือคลิปเสียง ผลกระทบนั้นน่าทึ่งมาก
การปฏิวัติ Reference
Text-to-video เป็นกระบวนทัศน์มาตรฐานตั้งแต่ยุคแรกของการสร้างวิดีโอ AI พิมพ์พรอมต์ ได้วิดีโอ ง่ายแต่มีข้อจำกัด คุณไม่สามารถทำให้มันเป็นคุณได้โดยไม่ต้อง fine-tune อย่างมากหรือเทรน LoRA
Wan2.6 เปลี่ยนสมการนี้โดยสิ้นเชิง
Reference-to-video หมายความว่า AI ใช้รูปลักษณ์จริง เสียง หรือทั้งสองอย่างของคุณเป็นอินพุตสำหรับการ conditioning ควบคู่กับพรอมต์ข้อความ คุณกลายเป็นตัวละครในการสร้าง ไม่ใช่ความคิดทีหลัง
ปล่อยออกมาเมื่อวันที่ 16 ธันวาคม 2025 Wan2.6 แสดงถึงการรุกเข้าสู่พื้นที่วิดีโอ AI อย่างก้าวร้าวของ Alibaba โมเดลมาในหลายขนาด (1.3B และ 14B พารามิเตอร์) และแนะนำความสามารถหลักสามประการที่ทำให้มันแตกต่างจากคู่แข่ง
Wan2.6 ทำอะไรได้จริง
โมเดลทำงานในสามโหมดที่แตกต่างกัน:
Text-to-Video
การสร้างตามพรอมต์มาตรฐานพร้อมคุณภาพการเคลื่อนไหวและความสอดคล้องทางเวลาที่ดีขึ้น
Image-to-Video
แปลงภาพนิ่งใด ๆ ให้เป็นลำดับวิดีโอที่สอดคล้องกัน
Reference-to-Video
ใช้รูปลักษณ์ของคุณเป็นตัวละครถาวรตลอดคอนเทนต์ที่สร้างขึ้น
ความสามารถ reference-to-video คือจุดที่สิ่งต่าง ๆ น่าสนใจ อัปโหลดภาพถ่ายที่ชัดเจนของคุณ (หรือวัตถุใด ๆ) และ Wan2.6 จะสกัดคุณลักษณะเอกลักษณ์ที่คงอยู่ตลอดลำดับที่สร้างขึ้น ใบหน้าของคุณยังคงเป็นใบหน้าของคุณ แม้ว่า AI จะสร้างสถานการณ์ใหม่ทั้งหมดรอบ ๆ มัน
แนวทางทางเทคนิค
Wan2.6 ใช้รูปแบบหนึ่งของสถาปัตยกรรม diffusion transformer ที่กลายเป็นมาตรฐานในโมเดลชั้นนำของปี 2025 แต่การใช้งานของ Alibaba รวมถึง embedding เฉพาะทางสำหรับการรักษาเอกลักษณ์ คล้ายกับสิ่งที่เราสำรวจในการวิเคราะห์เชิงลึกเกี่ยวกับความสอดคล้องของตัวละคร
Reference conditioning ทำงานผ่านกลไก cross-attention ที่ฉีดข้อมูลเอกลักษณ์ที่หลายชั้นของกระบวนการสร้าง สิ่งนี้รักษาลักษณะใบหน้าให้คงที่ในขณะที่ทุกอย่างอื่นสามารถเปลี่ยนแปลงได้ตามธรรมชาติ
ส่วนเสียงใช้ตัวเข้ารหัสเสียงแยกต่างหากที่จับลักษณะเสียงของคุณ: โทนเสียง รูปแบบระดับเสียง และจังหวะการพูด เมื่อรวมกับการอ้างอิงภาพ คุณจะได้เอาต์พุตเสียงและภาพที่ซิงค์กันซึ่งฟังดูและดูเหมือนคุณจริง ๆ
แนวทางนี้แตกต่างจากกลยุทธ์ world model ของ Runway ซึ่งเน้นการจำลองฟิสิกส์และความสอดคล้องของสิ่งแวดล้อม Wan2.6 ให้ความสำคัญกับการรักษาเอกลักษณ์มากกว่าความแม่นยำของสิ่งแวดล้อม ซึ่งเป็นการแลกเปลี่ยนที่สมเหตุสมผลสำหรับกรณีการใช้งานเป้าหมาย
Open Source สำคัญ
บางทีด้านที่สำคัญที่สุดของ Wan2.6 คือ Alibaba ปล่อยมันเป็น open source น้ำหนักมีให้ดาวน์โหลด หมายความว่าคุณสามารถรันมันในเครื่องบนฮาร์ดแวร์ที่มีความสามารถได้
รันในเครื่อง ไม่มีค่า API ควบคุมข้อมูลของคุณได้เต็มที่
API เท่านั้น ค่าใช้จ่ายต่อการสร้าง ข้อมูลส่งไปยังบุคคลที่สาม
สิ่งนี้ดำเนินรูปแบบที่เราครอบคลุมในการปฏิวัติวิดีโอ AI แบบ open-source ที่บริษัทจีนปล่อยโมเดลที่ทรงพลังซึ่งทำงานบนฮาร์ดแวร์ผู้บริโภค เวอร์ชัน 14B ต้องการ VRAM จำนวนมาก (24GB+) แต่รุ่น 1.3B สามารถรันบน RTX 4090 ได้
กรณีการใช้งานที่สมเหตุสมผลจริง ๆ
Reference-to-video ปลดล็อกสถานการณ์ที่ก่อนหน้านี้เป็นไปไม่ได้หรือแพงเกินไป
- ✓คอนเทนต์การตลาดที่ปรับแต่งได้ในระดับใหญ่
- ✓สร้างอวาตาร์ที่กำหนดเองโดยไม่ต้องถ่ายในสตูดิโอ
- ✓การทำต้นแบบอย่างรวดเร็วสำหรับแนวคิดวิดีโอ
- ✓การเข้าถึง: อวาตาร์ภาษามือ การศึกษาที่ปรับแต่งได้
ลองจินตนาการถึงการสร้างวิดีโอสาธิตผลิตภัณฑ์ที่มีตัวคุณโดยไม่เคยยืนหน้ากล้องเลย หรือสร้างคอนเทนต์การฝึกอบรมที่ผู้สอนเป็นเวอร์ชัน reference-conditioned ของ CEO ของคุณ การใช้งานขยายไปไกลกว่าความแปลกใหม่
ปัญหาความเป็นส่วนตัว
มาพูดถึงความกังวลที่ชัดเจน: เทคโนโลยีนี้สามารถถูกนำไปใช้ในทางที่ผิดสำหรับ deepfakes
Alibaba ได้ใช้มาตรการป้องกันบางอย่าง โมเดลรวมถึงลายน้ำคล้ายกับแนวทาง SynthID ของ Google และเงื่อนไขการบริการห้ามการใช้งานโดยไม่ได้รับความยินยอม แต่เหล่านี้เป็นตัวชะลอความเร็ว ไม่ใช่อุปสรรค
เทคโนโลยี Reference-to-video ต้องการการใช้งานอย่างรับผิดชอบ ขอความยินยอมเสมอก่อนใช้รูปลักษณ์ของผู้อื่น และโปร่งใสเกี่ยวกับคอนเทนต์ที่สร้างโดย AI
จินนี่ออกจากขวดแล้ว โมเดลหลายตัวตอนนี้เสนอการสร้างที่รักษาเอกลักษณ์ และธรรมชาติ open-source ของ Wan2.6 หมายความว่าทุกคนสามารถเข้าถึงความสามารถนี้ได้ การสนทนาเปลี่ยนจาก "ควรมีสิ่งนี้หรือไม่" เป็น "เราจะจัดการกับมันอย่างรับผิดชอบอย่างไร"
การเปรียบเทียบ
Wan2.6 เข้าสู่ตลาดที่แออัด นี่คือวิธีที่มันเทียบกับคู่แข่งชั้นนำของธันวาคม 2025
| โมเดล | Reference-to-Video | Open Source | เสียงเนทีฟ | ความยาวสูงสุด |
|---|---|---|---|---|
| Wan2.6 | ✅ | ✅ | ✅ | 10s |
| Runway Gen-4.5 | จำกัด | ❌ | ✅ | 15s |
| Sora 2 | ❌ | ❌ | ✅ | 60s |
| Veo 3 | ❌ | ❌ | ✅ | 120s |
| LTX-2 | ❌ | ✅ | ✅ | 10s |
Wan2.6 แลกความยาวกับการรักษาเอกลักษณ์ หากคุณต้องการคลิป 60 วินาที Sora 2 ยังคงเป็นทางเลือกที่ดีที่สุดของคุณ แต่ถ้าคุณต้องการให้คลิปเหล่านั้นแสดงบุคคลเฉพาะอย่างสม่ำเสมอ Wan2.6 เสนอสิ่งที่โมเดลปิดไม่ได้เสนอ
ภาพรวมที่ใหญ่กว่า
Reference-to-video แสดงถึงการเปลี่ยนแปลงในวิธีที่เราคิดเกี่ยวกับการสร้างวิดีโอ AI คำถามไม่ใช่แค่ "อะไรควรเกิดขึ้นในวิดีโอนี้" อีกต่อไป แต่คือ "ใครควรอยู่ในนั้น"
นี่คือชั้นของการปรับแต่งที่ขาดหายไปจาก text-to-video อวาตาร์ AI ทั่วไปรู้สึกเหมือน stock footage ตัวละคร reference-conditioned รู้สึกเหมือนคุณ
รวมกับการสร้างเสียงเนทีฟและความสอดคล้องของตัวละครที่ดีขึ้น เรากำลังเข้าใกล้อนาคตที่การสร้างคอนเทนต์วิดีโอระดับมืออาชีพต้องการเพียงภาพถ่ายจากเว็บแคมและพรอมต์ข้อความ
Alibaba พนันว่าการสร้างที่เน้นเอกลักษณ์เป็นพรมแดนถัดไป ด้วย Wan2.6 ตอนนี้เป็น open source และทำงานบนฮาร์ดแวร์ผู้บริโภค เราจะได้รู้ในไม่ช้าว่าพวกเขาถูกต้องหรือไม่
อ่านเพิ่มเติม: สำหรับการเปรียบเทียบโมเดลวิดีโอ AI ชั้นนำ ดูการเปรียบเทียบ Sora 2 vs Runway vs Veo 3 ของเรา เพื่อทำความเข้าใจสถาปัตยกรรมพื้นฐาน ดู Diffusion Transformers ในปี 2025
บทความนี้มีประโยชน์หรือไม่?

Henry
นักเทคโนโลยีสร้างสรรค์นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

LTX-2: การสร้างวิดีโอ AI 4K แบบพื้นฐานบน GPU ผู้บริโภคผ่าน Open Source
Lightricks ปล่อย LTX-2 พร้อมการสร้างวิดีโอ 4K แบบพื้นฐานและเสียงที่ซิงค์กัน เสนอการเข้าถึง open-source บนฮาร์ดแวร์ผู้บริโภคในขณะที่คู่แข่งยังคงถูกล็อกด้วย API แม้ว่าจะมีการแลกเปลี่ยนประสิทธิภาพที่สำคัญครับ

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI