نماذج الفيديو بالذكاء الاصطناعي مفتوحة المصدر تلحق بالركب أخيراً
تُضيّق Wan 2.2 وHunyuanVideo 1.5 وOpen-Sora 2.0 الفجوة مع العمالقة التجاريين. إليكم ما يعنيه ذلك للمبدعين والمؤسسات.

لسنوات طويلة، بدا توليد الفيديو بالذكاء الاصطناعي مفتوح المصدر كمن يحضر سباق سيارات خارقة على دراجة هوائية. هيمنت النماذج التجارية من OpenAI وGoogle وRunway على كل معيار قياسي، بينما عانت البدائل المفتوحة من التماسك الأساسي. لكن شيئاً تغير في أواخر 2025، والفجوة تضيق الآن بشكل حقيقي.
المنافسون الجدد من عالم المصدر المفتوح
دعوني أكون صريحاً: إذا جربتم توليد الفيديو مفتوح المصدر قبل عام واستسلمتم من الإحباط، فقد حان الوقت للمحاولة مجدداً. تحوّل المشهد بالكامل.
Wan 2.2: اختراق MoE
يستحق نموذج Wan 2.2 من Alibaba اهتماماً خاصاً. إنه أول نموذج فيديو مفتوح المصدر يستخدم بنية خليط الخبراء (MoE)، وهي ذات المقاربة التي جعلت GPT-4 بهذه القوة. النتيجة؟ دقة 720p أصلية بمعدل 24 إطاراً في الثانية على بطاقات RTX 4090 الاستهلاكية، مع إمكانية الوصول إلى 1080p عبر الترقية بالذكاء الاصطناعي.
تم تدريب Wan 2.2 على صور أكثر بنسبة 65% وفيديوهات أكثر بنسبة 83% مقارنة بسلفه. القفزة في الجودة واضحة للعيان.
يتعامل النموذج مع الفيزياء بشكل مدهش، محافظاً على ثبات الأجسام واتساق الجاذبية الذي أخفقت فيه النماذج المفتوحة السابقة. ليس مثالياً، لكنه قريب بما يكفي ليُحدث فرقاً.
HunyuanVideo 1.5: تحقيق المزيد بموارد أقل
اتخذت Tencent نهجاً مختلفاً مع HunyuanVideo 1.5. بدلاً من التوسع للأعلى، قلّصوا الحجم من 13 مليار إلى 8.3 مليار معامل، مع تحسين السرعة والجودة في آن واحد بطريقة ما.
يعمل على 14 جيجابايت من الذاكرة مع التفريغ. دمج صوتي أصلي. محاكاة فيزيائية مدمجة. بنية فعّالة.
أبطأ من البدائل السحابية. يتطلب إعداداً تقنياً. أقل صقلاً من الأدوات التجارية.
تهم مكاسب الكفاءة لأنها تجلب توليد الفيديو الجاد إلى الحواسيب المحمولة ومحطات العمل، وليس فقط مراكز البيانات.
Open-Sora 2.0: تجربة الـ 200 ألف دولار
إليكم رقماً مثيراً للتأمل: تم تدريب Open-Sora 2.0 بتكلفة تقارب 200,000 دولار. قارنوا ذلك بمئات الملايين التي أُنفقت على النماذج التجارية. ومع ذلك يُضاهي جودة HunyuanVideo ذي الـ 11 مليار معامل، بل ويتحدى العملاق Step-Video بمعاملاته الثلاثين مليار.
كود التدريب مفتوح بالكامل. الأوزان قابلة للتحميل. البنية موثّقة. هذا ليس عرضاً بحثياً، إنه نموذج جاهز للإنتاج يمكنكم تشغيله اليوم.
لماذا تضيق الفجوة
ثلاث قوى تتقارب:
تقارب البنية
تبنّت النماذج المفتوحة بنيات محوّل الانتشار، لتلحق بالابتكارات التجارية.
كفاءة التدريب
خفّضت التقنيات الجديدة مثل MoE والانتباه المتناثر متطلبات الحوسبة بشكل كبير.
زخم المجتمع
نضجت بسرعة سير عمل ComfyUI وأدلة الضبط الدقيق وأدوات التحسين.
يعكس النمط ما حدث مع LTX-2 التي جلبت 4K إلى بطاقات المستهلكين، لكن على نطاق أوسع.
الواقع العملي
دعوني أكون صريحاً حول ما يعنيه "اللحاق بالركب" فعلياً:
| الجانب | المصدر المفتوح | التجاري |
|---|---|---|
| ذروة الجودة | 85-90% | 100% |
| سرعة التوليد | 2-5 دقائق | 10-30 ثانية |
| سهولة الاستخدام | إعداد تقني | نقرة واحدة على الويب |
| التكلفة لكل فيديو | مجاني (بعد الأجهزة) | 0.10-2.00 دولار |
| التخصيص | غير محدود | محدود |
لا يزال المصدر المفتوح متأخراً في الجودة الخام والسرعة. لكن لكثير من حالات الاستخدام، لم تعد تلك الفجوة مهمة.
لمزيد من السياق حول كيفية مقارنة هذه النماذج بالخيارات التجارية، راجعوا مقارنتنا التفصيلية بين Sora 2 وRunway وVeo 3.
من يجب أن يهتم؟
المبدعون المستقلون
أنشئوا فيديوهات غير محدودة دون تكاليف اشتراك. درّبوا على أسلوبكم الخاص.
فرق المؤسسات
انشروا محلياً للمحتوى الحساس. لا بيانات تغادر خوادمكم.
الباحثون
وصول كامل للأوزان والبنية. عدّلوا، جرّبوا، انشروا.
مطورو الألعاب
أنشئوا المقاطع السينمائية والأصول محلياً. ادمجوها في خطوط الإنتاج.
توقعات الأشهر الستة القادمة
بناءً على المسارات الحالية، أتوقع:
- ✓توليد في أقل من 10 ثوانٍ يصبح معياراً بحلول الربع الثاني من 2026
- ✓ظهور نماذج أولية للتوليد الفوري في منتصف العام
- ○التكافؤ في الجودة مع النماذج التجارية (لا يزال يبعد 12-18 شهراً)
- ✓تسارع تبني ComfyUI على نطاق واسع
تستمر بنية محوّل الانتشار التي تُشغّل هذه النماذج في التحسن. كل شهر يجلب تحسينات جديدة، تقنيات تدريب جديدة، مكاسب كفاءة جديدة.
البدء
إذا أردتم تجربة هذه النماذج بأنفسكم:
- Wan 2.2: يتطلب RTX 4090 أو ما يعادلها. متاح على GitHub مع عُقد ComfyUI.
- HunyuanVideo 1.5: يعمل على 14 جيجابايت+ من الذاكرة. تكامل Hugging Face متاح.
- Open-Sora 2.0: كود التدريب والاستدلال الكامل على GitHub.
تتطلب هذه النماذج راحة تقنية مع Python وCUDA وتحميل النماذج. ليست حلولاً بنقرة واحدة بعد.
الصورة الأكبر
ما يُثيرني أكثر ليس أين وصل الفيديو مفتوح المصدر اليوم، بل إلى أين يتجه. كل اختراق في محاكاة الفيزياء وتوليد الصوت الأصلي يتدفق في النهاية إلى النماذج المفتوحة.
الديمقراطية حقيقية. الأدوات في المتناول. الفجوة تضيق.
للمبدعين الذين أُبعدوا بسبب أسعار اشتراكات الفيديو بالذكاء الاصطناعي المميزة، للمؤسسات التي تحتاج حلولاً محلية، للباحثين الذين يدفعون حدود الممكن، هذه هي اللحظة للانتباه.
الدراجة الهوائية تتحول إلى دراجة نارية. وسباق السيارات الخارقة أصبح أكثر إثارة.
هل كان هذا المقال مفيداً؟

Henry
متخصص تكنولوجيا إبداعيةمتخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

ثورة الفيديو بالذكاء الاصطناعي مفتوح المصدر: هل تستطيع معالجات الرسوميات الاستهلاكية منافسة عمالقة التكنولوجيا؟
أطلقت ByteDance وTencent للتو نماذج فيديو مفتوحة المصدر تعمل على الأجهزة الاستهلاكية. هذا يغير كل شيء للمبدعين المستقلين.

سباق الفيديو الذكي يشتد: OpenAI و Google و Kuaishou تتنافس على الهيمنة في 2026
ثلاث عمالقة تقنية تعيد تشكيل إنتاج الفيديو من خلال صفقات بمليارات الدولارات وميزات ثورية وملايين المستخدمين. إليك كيفية تسارع المنافسة.

Runway Gen-4.5 على NVIDIA Rubin: مستقبل فيديو الذكاء الاصطناعي هنا
تتعاون Runway مع NVIDIA لتشغيل Gen-4.5 على منصة Rubin من الجيل التالي، مما يحدد معايير جديدة لجودة فيديو الذكاء الاصطناعي والسرعة وتوليد الصوت الأصلي.