Meta Pixel
HenryHenry
5 min read
829 كلمات

نماذج الفيديو بالذكاء الاصطناعي مفتوحة المصدر تلحق بالركب أخيراً

تُضيّق Wan 2.2 وHunyuanVideo 1.5 وOpen-Sora 2.0 الفجوة مع العمالقة التجاريين. إليكم ما يعنيه ذلك للمبدعين والمؤسسات.

نماذج الفيديو بالذكاء الاصطناعي مفتوحة المصدر تلحق بالركب أخيراً

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

لسنوات طويلة، بدا توليد الفيديو بالذكاء الاصطناعي مفتوح المصدر كمن يحضر سباق سيارات خارقة على دراجة هوائية. هيمنت النماذج التجارية من OpenAI وGoogle وRunway على كل معيار قياسي، بينما عانت البدائل المفتوحة من التماسك الأساسي. لكن شيئاً تغير في أواخر 2025، والفجوة تضيق الآن بشكل حقيقي.

المنافسون الجدد من عالم المصدر المفتوح

دعوني أكون صريحاً: إذا جربتم توليد الفيديو مفتوح المصدر قبل عام واستسلمتم من الإحباط، فقد حان الوقت للمحاولة مجدداً. تحوّل المشهد بالكامل.

720p
الدقة الأصلية
24fps
معدل الإطارات
14GB
الحد الأدنى للذاكرة

Wan 2.2: اختراق MoE

يستحق نموذج Wan 2.2 من Alibaba اهتماماً خاصاً. إنه أول نموذج فيديو مفتوح المصدر يستخدم بنية خليط الخبراء (MoE)، وهي ذات المقاربة التي جعلت GPT-4 بهذه القوة. النتيجة؟ دقة 720p أصلية بمعدل 24 إطاراً في الثانية على بطاقات RTX 4090 الاستهلاكية، مع إمكانية الوصول إلى 1080p عبر الترقية بالذكاء الاصطناعي.

💡

تم تدريب Wan 2.2 على صور أكثر بنسبة 65% وفيديوهات أكثر بنسبة 83% مقارنة بسلفه. القفزة في الجودة واضحة للعيان.

يتعامل النموذج مع الفيزياء بشكل مدهش، محافظاً على ثبات الأجسام واتساق الجاذبية الذي أخفقت فيه النماذج المفتوحة السابقة. ليس مثالياً، لكنه قريب بما يكفي ليُحدث فرقاً.

HunyuanVideo 1.5: تحقيق المزيد بموارد أقل

اتخذت Tencent نهجاً مختلفاً مع HunyuanVideo 1.5. بدلاً من التوسع للأعلى، قلّصوا الحجم من 13 مليار إلى 8.3 مليار معامل، مع تحسين السرعة والجودة في آن واحد بطريقة ما.

نقاط القوة

يعمل على 14 جيجابايت من الذاكرة مع التفريغ. دمج صوتي أصلي. محاكاة فيزيائية مدمجة. بنية فعّالة.

القيود

أبطأ من البدائل السحابية. يتطلب إعداداً تقنياً. أقل صقلاً من الأدوات التجارية.

تهم مكاسب الكفاءة لأنها تجلب توليد الفيديو الجاد إلى الحواسيب المحمولة ومحطات العمل، وليس فقط مراكز البيانات.

Open-Sora 2.0: تجربة الـ 200 ألف دولار

إليكم رقماً مثيراً للتأمل: تم تدريب Open-Sora 2.0 بتكلفة تقارب 200,000 دولار. قارنوا ذلك بمئات الملايين التي أُنفقت على النماذج التجارية. ومع ذلك يُضاهي جودة HunyuanVideo ذي الـ 11 مليار معامل، بل ويتحدى العملاق Step-Video بمعاملاته الثلاثين مليار.

كود التدريب مفتوح بالكامل. الأوزان قابلة للتحميل. البنية موثّقة. هذا ليس عرضاً بحثياً، إنه نموذج جاهز للإنتاج يمكنكم تشغيله اليوم.

لماذا تضيق الفجوة

ثلاث قوى تتقارب:

منتصف 2025

تقارب البنية

تبنّت النماذج المفتوحة بنيات محوّل الانتشار، لتلحق بالابتكارات التجارية.

أواخر 2025

كفاءة التدريب

خفّضت التقنيات الجديدة مثل MoE والانتباه المتناثر متطلبات الحوسبة بشكل كبير.

أوائل 2026

زخم المجتمع

نضجت بسرعة سير عمل ComfyUI وأدلة الضبط الدقيق وأدوات التحسين.

يعكس النمط ما حدث مع LTX-2 التي جلبت 4K إلى بطاقات المستهلكين، لكن على نطاق أوسع.

الواقع العملي

دعوني أكون صريحاً حول ما يعنيه "اللحاق بالركب" فعلياً:

الجانبالمصدر المفتوحالتجاري
ذروة الجودة85-90%100%
سرعة التوليد2-5 دقائق10-30 ثانية
سهولة الاستخدامإعداد تقنينقرة واحدة على الويب
التكلفة لكل فيديومجاني (بعد الأجهزة)0.10-2.00 دولار
التخصيصغير محدودمحدود

لا يزال المصدر المفتوح متأخراً في الجودة الخام والسرعة. لكن لكثير من حالات الاستخدام، لم تعد تلك الفجوة مهمة.

💡

لمزيد من السياق حول كيفية مقارنة هذه النماذج بالخيارات التجارية، راجعوا مقارنتنا التفصيلية بين Sora 2 وRunway وVeo 3.

من يجب أن يهتم؟

🎨

المبدعون المستقلون

أنشئوا فيديوهات غير محدودة دون تكاليف اشتراك. درّبوا على أسلوبكم الخاص.

🏢

فرق المؤسسات

انشروا محلياً للمحتوى الحساس. لا بيانات تغادر خوادمكم.

🔬

الباحثون

وصول كامل للأوزان والبنية. عدّلوا، جرّبوا، انشروا.

🎮

مطورو الألعاب

أنشئوا المقاطع السينمائية والأصول محلياً. ادمجوها في خطوط الإنتاج.

توقعات الأشهر الستة القادمة

بناءً على المسارات الحالية، أتوقع:

  • توليد في أقل من 10 ثوانٍ يصبح معياراً بحلول الربع الثاني من 2026
  • ظهور نماذج أولية للتوليد الفوري في منتصف العام
  • التكافؤ في الجودة مع النماذج التجارية (لا يزال يبعد 12-18 شهراً)
  • تسارع تبني ComfyUI على نطاق واسع

تستمر بنية محوّل الانتشار التي تُشغّل هذه النماذج في التحسن. كل شهر يجلب تحسينات جديدة، تقنيات تدريب جديدة، مكاسب كفاءة جديدة.

البدء

إذا أردتم تجربة هذه النماذج بأنفسكم:

  1. Wan 2.2: يتطلب RTX 4090 أو ما يعادلها. متاح على GitHub مع عُقد ComfyUI.
  2. HunyuanVideo 1.5: يعمل على 14 جيجابايت+ من الذاكرة. تكامل Hugging Face متاح.
  3. Open-Sora 2.0: كود التدريب والاستدلال الكامل على GitHub.
⚠️

تتطلب هذه النماذج راحة تقنية مع Python وCUDA وتحميل النماذج. ليست حلولاً بنقرة واحدة بعد.

الصورة الأكبر

ما يُثيرني أكثر ليس أين وصل الفيديو مفتوح المصدر اليوم، بل إلى أين يتجه. كل اختراق في محاكاة الفيزياء وتوليد الصوت الأصلي يتدفق في النهاية إلى النماذج المفتوحة.

الديمقراطية حقيقية. الأدوات في المتناول. الفجوة تضيق.

للمبدعين الذين أُبعدوا بسبب أسعار اشتراكات الفيديو بالذكاء الاصطناعي المميزة، للمؤسسات التي تحتاج حلولاً محلية، للباحثين الذين يدفعون حدود الممكن، هذه هي اللحظة للانتباه.

الدراجة الهوائية تتحول إلى دراجة نارية. وسباق السيارات الخارقة أصبح أكثر إثارة.

هل كان هذا المقال مفيداً؟

Henry

Henry

متخصص تكنولوجيا إبداعية

متخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

نماذج الفيديو بالذكاء الاصطناعي مفتوحة المصدر تلحق بالركب أخيراً