Meta Pixel
HenryHenry
5 min read
962 كلمات

Alibaba Wan2.6: تقنية الفيديو المرجعي تضع وجهك في عوالم مُنشأة بالذكاء الاصطناعي

يقدم أحدث نموذج فيديو بالذكاء الاصطناعي من Alibaba ميزة التوليد من المرجع إلى الفيديو، مما يتيح لك استخدام مظهرك وصوتك في المحتوى المُنشأ بالذكاء الاصطناعي. إليك ما يعنيه هذا لصناع المحتوى.

Alibaba Wan2.6: تقنية الفيديو المرجعي تضع وجهك في عوالم مُنشأة بالذكاء الاصطناعي

انسَ الصور الرمزية العامة للذكاء الاصطناعي. أطلقت Alibaba للتو Wan2.6، وميزته الأساسية تتيح لك إدراج نفسك في مقاطع الفيديو المُنشأة بالذكاء الاصطناعي باستخدام صورة مرجعية أو مقطع صوتي فقط. التداعيات مذهلة.

ثورة المرجع

كان تحويل النص إلى فيديو هو النموذج المعياري منذ الأيام الأولى لتوليد الفيديو بالذكاء الاصطناعي. تكتب أمرًا، تحصل على فيديو. بسيط، لكنه محدود. لا يمكنك جعل الفيديو يظهر أنت دون ضبط دقيق مكثف أو تدريب LoRA.

Wan2.6 يغير هذه المعادلة بالكامل.

💡

المرجع إلى الفيديو يعني أن الذكاء الاصطناعي يستخدم مظهرك الفعلي أو صوتك أو كليهما كمدخلات تكييف جنبًا إلى جنب مع الأوامر النصية. تصبح شخصية في التوليد، وليس فكرة لاحقة.

صدر في 16 ديسمبر 2025، يمثل Wan2.6 دفعة قوية من Alibaba في مجال الفيديو بالذكاء الاصطناعي. يأتي النموذج بأحجام متعددة (1.3 مليار و14 مليار معلمة) ويقدم ثلاث قدرات أساسية تميزه عن المنافسين.

ما الذي يفعله Wan2.6 فعلاً

14B
معلمة
720p
الدقة الأصلية
5-10 ثوانٍ
مدة الفيديو

يعمل النموذج في ثلاثة أوضاع متميزة:

📝

نص إلى فيديو

توليد قياسي يعتمد على الأوامر مع جودة حركة محسنة واتساق زمني.

🖼️

صورة إلى فيديو

تحريك أي صورة ثابتة إلى تسلسل فيديو متماسك.

👤

مرجع إلى فيديو

استخدم مظهرك كشخصية مستمرة عبر المحتوى المُنشأ.

قدرة المرجع إلى الفيديو هي حيث تصبح الأمور مثيرة للاهتمام. ارفع صورة واضحة لنفسك (أو أي موضوع)، وسيستخرج Wan2.6 سمات الهوية التي تستمر عبر التسلسل المُنشأ بأكمله. يبقى وجهك وجهك، حتى عندما ينشئ الذكاء الاصطناعي سيناريوهات جديدة تمامًا من حوله.

النهج التقني

يستخدم Wan2.6 نوعًا مختلفًا من بنية محول الانتشار التي أصبحت معيارية في النماذج الرائدة لعام 2025. لكن تطبيق Alibaba يتضمن تضمينات متخصصة للحفاظ على الهوية، مشابهة لما استكشفناه في تحليلنا المعمق حول اتساق الشخصيات.

💡

يعمل التكييف المرجعي من خلال آليات الانتباه المتقاطع التي تحقن معلومات الهوية في طبقات متعددة من عملية التوليد. هذا يحافظ على استقرار ملامح الوجه مع السماح لكل شيء آخر بالتغير طبيعيًا.

يستخدم مكون الصوت مشفرًا صوتيًا منفصلاً يلتقط خصائصك الصوتية: الطابع، وأنماط النغمة، وإيقاع الكلام. عند دمجه مع المرجع البصري، تحصل على مخرج صوتي بصري متزامن يبدو ويسمع مثلك فعلاً.

يختلف هذا النهج عن استراتيجية نموذج العالم من Runway، التي تركز على محاكاة الفيزياء والتماسك البيئي. Wan2.6 يعطي الأولوية للحفاظ على الهوية على حساب الدقة البيئية، وهي مقايضة منطقية لحالة الاستخدام المستهدفة.

أهمية المصدر المفتوح

ربما يكون الجانب الأكثر أهمية في Wan2.6 هو أن Alibaba أصدرته كمصدر مفتوح. الأوزان متاحة للتنزيل، مما يعني أنه يمكنك تشغيله محليًا على أجهزة قادرة.

Wan2.6 (مفتوح)

تشغيل محلي، بدون تكاليف API، تحكم كامل في بياناتك

Sora 2 / Veo 3 (مغلق)

API فقط، تكاليف لكل توليد، البيانات تُرسل لأطراف ثالثة

هذا يستمر في النمط الذي غطيناه في ثورة فيديو الذكاء الاصطناعي مفتوح المصدر، حيث تصدر الشركات الصينية نماذج قوية تعمل على أجهزة المستهلكين. تتطلب نسخة 14B ذاكرة VRAM كبيرة (24GB+)، لكن نسخة 1.3B يمكن أن تعمل على RTX 4090.

حالات استخدام ذات معنى فعلي

يفتح المرجع إلى الفيديو سيناريوهات كانت مستحيلة سابقًا أو باهظة التكلفة.

  • محتوى تسويقي مخصص على نطاق واسع
  • إنشاء صورة رمزية مخصصة بدون جلسات استوديو
  • نماذج أولية سريعة لمفاهيم الفيديو
  • إمكانية الوصول: صور رمزية للغة الإشارة، تعليم مخصص

تخيل إنشاء فيديو عرض منتج يظهر فيه أنت دون أن تقف أمام الكاميرا. أو توليد محتوى تدريبي حيث المدرب هو نسخة مكيفة بالمرجع من مديرك التنفيذي. التطبيقات تتجاوز مجرد الحداثة بكثير.

مسألة الخصوصية

لنتناول القلق الواضح: يمكن إساءة استخدام هذه التقنية للتزييف العميق.

نفذت Alibaba بعض الحواجز الوقائية. يتضمن النموذج علامة مائية مشابهة لـنهج SynthID من Google، وشروط الخدمة تحظر الاستخدام غير التوافقي. لكن هذه مطبات سرعة، وليست حواجز.

⚠️

تقنية المرجع إلى الفيديو تتطلب استخدامًا مسؤولاً. احصل دائمًا على الموافقة قبل استخدام مظهر شخص آخر، وكن شفافًا بشأن المحتوى المُنشأ بالذكاء الاصطناعي.

خرج المارد من القمقم. تقدم نماذج متعددة الآن توليدًا مع الحفاظ على الهوية، والطبيعة مفتوحة المصدر لـ Wan2.6 تعني أن أي شخص يمكنه الوصول إلى هذه القدرة. تحول النقاش من "هل يجب أن يوجد هذا" إلى "كيف نتعامل معه بمسؤولية".

المقارنة مع المنافسين

يدخل Wan2.6 سوقًا مزدحمة. إليك كيف يتموضع مقابل المنافسين الرائدين في ديسمبر 2025.

النموذجمرجع إلى فيديومصدر مفتوحصوت أصليالحد الأقصى للمدة
Wan2.610 ثوانٍ
Runway Gen-4.5محدود15 ثانية
Sora 260 ثانية
Veo 3120 ثانية
LTX-210 ثوانٍ

يقايض Wan2.6 المدة بالحفاظ على الهوية. إذا كنت تحتاج مقاطع بطول 60 ثانية، Sora 2 لا يزال خيارك الأفضل. لكن إذا كنت تحتاج أن تظهر هذه المقاطع شخصًا معينًا باستمرار، يقدم Wan2.6 شيئًا لا تملكه النماذج المغلقة.

الصورة الأكبر

يمثل المرجع إلى الفيديو تحولاً في كيفية تفكيرنا في توليد الفيديو بالذكاء الاصطناعي. السؤال لم يعد فقط "ماذا يجب أن يحدث في هذا الفيديو" بل "من يجب أن يكون فيه".

هذه هي طبقة التخصيص التي كانت مفقودة من النص إلى الفيديو. الصور الرمزية العامة للذكاء الاصطناعي كانت تبدو كلقطات مخزنة. الشخصيات المكيفة بالمرجع تبدو مثل أنت.

بالاقتران مع توليد الصوت الأصلي وتحسين اتساق الشخصيات، نقترب من مستقبل حيث إنشاء محتوى فيديو احترافي لا يتطلب أكثر من صورة كاميرا ويب وأمر نصي.

تراهن Alibaba على أن التوليد القائم على الهوية هو الحدود التالية. مع Wan2.6 الآن مفتوح المصدر ويعمل على أجهزة المستهلكين، سنكتشف قريبًا ما إذا كانوا على حق.

💡

للمزيد من القراءة: لمقارنة نماذج فيديو الذكاء الاصطناعي الرائدة، راجع مقارنة Sora 2 مقابل Runway مقابل Veo 3. لفهم البنية الأساسية، اطلع على محولات الانتشار في 2025.

هل كان هذا المقال مفيداً؟

Henry

Henry

متخصص تكنولوجيا إبداعية

متخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

LTX-2: توليد فيديو بذكاء اصطناعي بدقة 4K أصلية على وحدات معالجة الرسوميات الاستهلاكية من خلال المصدر المفتوح
AI Video GenerationOpen Source

LTX-2: توليد فيديو بذكاء اصطناعي بدقة 4K أصلية على وحدات معالجة الرسوميات الاستهلاكية من خلال المصدر المفتوح

تطلق Lightricks نموذج LTX-2 مع توليد فيديو بدقة 4K أصلية وصوت متزامن، مع توفير الوصول مفتوح المصدر على الأجهزة الاستهلاكية بينما تبقى المنافسات محجوزة خلف APIs، مع مقايضات أداء مهمة.

Read
Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي
RunwayWorld Models

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي

يمثل GWM-1 من Runway نقلة نوعية من توليد مقاطع الفيديو إلى محاكاة العوالم. اكتشف كيف يُنشئ هذا النموذج التسلسلي بيئات قابلة للاستكشاف، وأفاتارات واقعية، ومحاكيات لتدريب الروبوتات.

Read
يوتيوب يدمج Veo 3 Fast في Shorts: توليد فيديوهات بالذكاء الاصطناعي مجاناً لـ 2.5 مليار مستخدم
YouTubeVeo 3

يوتيوب يدمج Veo 3 Fast في Shorts: توليد فيديوهات بالذكاء الاصطناعي مجاناً لـ 2.5 مليار مستخدم

جوجل تدمج نموذج Veo 3 Fast مباشرة في YouTube Shorts، مقدمة توليد فيديوهات من النص مع الصوت مجاناً للمبدعين حول العالم. إليكم ما يعنيه هذا للمنصة ولإتاحة فيديوهات الذكاء الاصطناعي.

Read

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

Alibaba Wan2.6: تقنية الفيديو المرجعي تضع وجهك في عوالم مُنشأة بالذكاء الاصطناعي