Alibaba Wan2.6: تقنية الفيديو المرجعي تضع وجهك في عوالم مُنشأة بالذكاء الاصطناعي

انسَ الصور الرمزية العامة للذكاء الاصطناعي. أطلقت Alibaba للتو Wan2.6، وميزته الأساسية تتيح لك إدراج نفسك في مقاطع الفيديو المُنشأة بالذكاء الاصطناعي باستخدام صورة مرجعية أو مقطع صوتي فقط. التداعيات مذهلة.

ثورة المرجع

كان تحويل النص إلى فيديو هو النموذج المعياري منذ الأيام الأولى لتوليد الفيديو بالذكاء الاصطناعي. تكتب أمرًا، تحصل على فيديو. بسيط، لكنه محدود. لا يمكنك جعل الفيديو يظهر أنت دون ضبط دقيق مكثف أو تدريب LoRA.

Wan2.6 يغير هذه المعادلة بالكامل.

💡

المرجع إلى الفيديو يعني أن الذكاء الاصطناعي يستخدم مظهرك الفعلي أو صوتك أو كليهما كمدخلات تكييف جنبًا إلى جنب مع الأوامر النصية. تصبح شخصية في التوليد، وليس فكرة لاحقة.

صدر في 16 ديسمبر 2025، يمثل Wan2.6 دفعة قوية من Alibaba في مجال الفيديو بالذكاء الاصطناعي. يأتي النموذج بأحجام متعددة (1.3 مليار و14 مليار معلمة) ويقدم ثلاث قدرات أساسية تميزه عن المنافسين.

ما الذي يفعله Wan2.6 فعلاً

14B

معلمة

720p

الدقة الأصلية

5-10 ثوانٍ

مدة الفيديو

يعمل النموذج في ثلاثة أوضاع متميزة:

📝

نص إلى فيديو

توليد قياسي يعتمد على الأوامر مع جودة حركة محسنة واتساق زمني.

🖼️

صورة إلى فيديو

تحريك أي صورة ثابتة إلى تسلسل فيديو متماسك.

👤

مرجع إلى فيديو

استخدم مظهرك كشخصية مستمرة عبر المحتوى المُنشأ.

قدرة المرجع إلى الفيديو هي حيث تصبح الأمور مثيرة للاهتمام. ارفع صورة واضحة لنفسك (أو أي موضوع)، وسيستخرج Wan2.6 سمات الهوية التي تستمر عبر التسلسل المُنشأ بأكمله. يبقى وجهك وجهك، حتى عندما ينشئ الذكاء الاصطناعي سيناريوهات جديدة تمامًا من حوله.

النهج التقني

يستخدم Wan2.6 نوعًا مختلفًا من بنية محول الانتشار التي أصبحت معيارية في النماذج الرائدة لعام 2025. لكن تطبيق Alibaba يتضمن تضمينات متخصصة للحفاظ على الهوية، مشابهة لما استكشفناه في تحليلنا المعمق حول اتساق الشخصيات.

💡

يعمل التكييف المرجعي من خلال آليات الانتباه المتقاطع التي تحقن معلومات الهوية في طبقات متعددة من عملية التوليد. هذا يحافظ على استقرار ملامح الوجه مع السماح لكل شيء آخر بالتغير طبيعيًا.

يستخدم مكون الصوت مشفرًا صوتيًا منفصلاً يلتقط خصائصك الصوتية: الطابع، وأنماط النغمة، وإيقاع الكلام. عند دمجه مع المرجع البصري، تحصل على مخرج صوتي بصري متزامن يبدو ويسمع مثلك فعلاً.

يختلف هذا النهج عن استراتيجية نموذج العالم من Runway، التي تركز على محاكاة الفيزياء والتماسك البيئي. Wan2.6 يعطي الأولوية للحفاظ على الهوية على حساب الدقة البيئية، وهي مقايضة منطقية لحالة الاستخدام المستهدفة.

أهمية المصدر المفتوح

ربما يكون الجانب الأكثر أهمية في Wan2.6 هو أن Alibaba أصدرته كمصدر مفتوح. الأوزان متاحة للتنزيل، مما يعني أنه يمكنك تشغيله محليًا على أجهزة قادرة.

✓Wan2.6 (مفتوح)

تشغيل محلي، بدون تكاليف API، تحكم كامل في بياناتك

✗Sora 2 / Veo 3 (مغلق)

API فقط، تكاليف لكل توليد، البيانات تُرسل لأطراف ثالثة

هذا يستمر في النمط الذي غطيناه في ثورة فيديو الذكاء الاصطناعي مفتوح المصدر، حيث تصدر الشركات الصينية نماذج قوية تعمل على أجهزة المستهلكين. تتطلب نسخة 14B ذاكرة VRAM كبيرة (24GB+)، لكن نسخة 1.3B يمكن أن تعمل على RTX 4090.

حالات استخدام ذات معنى فعلي

يفتح المرجع إلى الفيديو سيناريوهات كانت مستحيلة سابقًا أو باهظة التكلفة.

✓محتوى تسويقي مخصص على نطاق واسع
✓إنشاء صورة رمزية مخصصة بدون جلسات استوديو
✓نماذج أولية سريعة لمفاهيم الفيديو
✓إمكانية الوصول: صور رمزية للغة الإشارة، تعليم مخصص

تخيل إنشاء فيديو عرض منتج يظهر فيه أنت دون أن تقف أمام الكاميرا. أو توليد محتوى تدريبي حيث المدرب هو نسخة مكيفة بالمرجع من مديرك التنفيذي. التطبيقات تتجاوز مجرد الحداثة بكثير.

مسألة الخصوصية

لنتناول القلق الواضح: يمكن إساءة استخدام هذه التقنية للتزييف العميق.

نفذت Alibaba بعض الحواجز الوقائية. يتضمن النموذج علامة مائية مشابهة لـنهج SynthID من Google، وشروط الخدمة تحظر الاستخدام غير التوافقي. لكن هذه مطبات سرعة، وليست حواجز.

⚠️

تقنية المرجع إلى الفيديو تتطلب استخدامًا مسؤولاً. احصل دائمًا على الموافقة قبل استخدام مظهر شخص آخر، وكن شفافًا بشأن المحتوى المُنشأ بالذكاء الاصطناعي.

خرج المارد من القمقم. تقدم نماذج متعددة الآن توليدًا مع الحفاظ على الهوية، والطبيعة مفتوحة المصدر لـ Wan2.6 تعني أن أي شخص يمكنه الوصول إلى هذه القدرة. تحول النقاش من "هل يجب أن يوجد هذا" إلى "كيف نتعامل معه بمسؤولية".

المقارنة مع المنافسين

يدخل Wan2.6 سوقًا مزدحمة. إليك كيف يتموضع مقابل المنافسين الرائدين في ديسمبر 2025.

النموذج	مرجع إلى فيديو	مصدر مفتوح	صوت أصلي	الحد الأقصى للمدة
Wan2.6	✅	✅	✅	10 ثوانٍ
Runway Gen-4.5	محدود	❌	✅	15 ثانية
Sora 2	❌	❌	✅	60 ثانية
Veo 3	❌	❌	✅	120 ثانية
LTX-2	❌	✅	✅	10 ثوانٍ

يقايض Wan2.6 المدة بالحفاظ على الهوية. إذا كنت تحتاج مقاطع بطول 60 ثانية، Sora 2 لا يزال خيارك الأفضل. لكن إذا كنت تحتاج أن تظهر هذه المقاطع شخصًا معينًا باستمرار، يقدم Wan2.6 شيئًا لا تملكه النماذج المغلقة.

الصورة الأكبر

يمثل المرجع إلى الفيديو تحولاً في كيفية تفكيرنا في توليد الفيديو بالذكاء الاصطناعي. السؤال لم يعد فقط "ماذا يجب أن يحدث في هذا الفيديو" بل "من يجب أن يكون فيه".

هذه هي طبقة التخصيص التي كانت مفقودة من النص إلى الفيديو. الصور الرمزية العامة للذكاء الاصطناعي كانت تبدو كلقطات مخزنة. الشخصيات المكيفة بالمرجع تبدو مثل أنت.

بالاقتران مع توليد الصوت الأصلي وتحسين اتساق الشخصيات، نقترب من مستقبل حيث إنشاء محتوى فيديو احترافي لا يتطلب أكثر من صورة كاميرا ويب وأمر نصي.

تراهن Alibaba على أن التوليد القائم على الهوية هو الحدود التالية. مع Wan2.6 الآن مفتوح المصدر ويعمل على أجهزة المستهلكين، سنكتشف قريبًا ما إذا كانوا على حق.

💡

للمزيد من القراءة: لمقارنة نماذج فيديو الذكاء الاصطناعي الرائدة، راجع مقارنة Sora 2 مقابل Runway مقابل Veo 3. لفهم البنية الأساسية، اطلع على محولات الانتشار في 2025.