Meta Pixel
AlexisAlexis
6 min read
1087 كلمات

Kandinsky 5.0: الحل الروسي مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

يوفر Kandinsky 5.0 إمكانية توليد فيديو بطول 10 ثوانٍ على معالجات الرسوميات الاستهلاكية بترخيص Apache 2.0. نستكشف كيف يجعل NABLA attention وتقنية flow matching هذا ممكناً.

Kandinsky 5.0: الحل الروسي مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي
تستمر جغرافية الابتكار في مجال الذكاء الاصطناعي في التحول. بينما تسعى المختبرات الأمريكية وراء نماذج أكبر حجماً، والشركات الصينية تهيمن على قوائم المصادر المفتوحة، أصدر فريق روسي بهدوء ما قد يكون أكثر مولدات الفيديو بالذكاء الاصطناعي سهولة في الوصول حتى الآن: Kandinsky 5.0.

تحول في مشهد الفيديو مفتوح المصدر

عندما أصدرت ByteDance نموذجها لفهم الفيديو مفتوح المصدر وأطلقت Tencent نموذج HunyuanVideo، شهدنا أولى إشارات التحول. الآن أصدر Kandinsky Lab، المدعوم من Sberbank، عائلة كاملة من النماذج يمكن لأي شخص تشغيلها وتعديلها واستخدامها تجارياً بموجب ترخيص Apache 2.0.

10s
مدة الفيديو
12GB
الحد الأدنى لذاكرة VRAM
Apache 2.0
الترخيص

هذا ليس نموذجاً تجريبياً للبحث أو واجهة برمجية محدودة. الأوزان الكاملة وكود التدريب وخط أنابيب الاستدلال متاحة على GitHub وHugging Face.

عائلة النماذج

💡

للتعرف على معماريات الانتشار، راجع تحليلنا المعمق حول محولات الانتشار.

Kandinsky 5.0 ليس نموذجاً واحداً بل عائلة من ثلاثة نماذج:

Video Lite (2 مليار معامل)

الخيار الخفيف للأجهزة الاستهلاكية. يولد مقاطع فيديو من 5 إلى 10 ثوانٍ بدقة 768×512، 24 إطار/ثانية. يعمل على ذاكرة VRAM بسعة 12GB مع تفريغ الذاكرة. ينتج الإصدار المقطر ذو 16 خطوة مقطعاً مدته 5 ثوانٍ في 35 إلى 60 ثانية على H100.

Video Pro (19 مليار معامل)

النموذج الكامل لأقصى جودة. يخرج فيديو عالي الدقة بمقاس 1280×768، 24 إطار/ثانية. يتطلب معالجات رسوميات من فئة مراكز البيانات لكنه يقدم نتائج تنافسية مع البدائل مغلقة المصدر.

نموذج Image Lite بسعة 6 مليارات معامل يكمل العائلة لتوليد الصور الثابتة بدقة 1280×768 أو 1024×1024.

البنية التقنية

تكشف القرارات الهندسية في Kandinsky 5.0 عن فريق يركز على النشر العملي بدلاً من مطاردة المعايير القياسية.

الأساس: Flow Matching بدلاً من الانتشار

تتعلم نماذج الانتشار التقليدية عكس عملية إضافة الضوضاء خطوة بخطوة. يتخذ flow matching نهجاً مختلفاً: يتعلم مساراً مباشراً من الضوضاء إلى الصورة من خلال حقل تدفق مستمر. المزايا كبيرة:

مزايا Flow Matching
استقرار أفضل في التدريب، تقارب أسرع، وجودة توليد أكثر قابلية للتنبؤ في وقت الاستدلال.
المقايضات
يتطلب تصميم مسار دقيق. يستخدم الفريق مسارات النقل الأمثل التي تقلل المسافة بين الضوضاء والتوزيعات المستهدفة.

NABLA: جعل الفيديوهات الطويلة ممكنة

الابتكار الحقيقي هو NABLA، اختصار لـ Neighborhood Adaptive Block-Level Attention. يتوسع الانتباه القياسي للمحول بشكل تربيعي مع طول التسلسل. بالنسبة للفيديو، هذا كارثي. يحتوي مقطع مدته 10 ثوانٍ بمعدل 24 إطار/ثانية على 240 إطاراً، كل منها يحتوي على آلاف الرقع المكانية. الانتباه الكامل عبر كل منها غير قابل للتطبيق حسابياً.

يعالج NABLA هذا من خلال أنماط الانتباه المتفرقة. بدلاً من الانتباه لكل رقعة في كل إطار، يركز الحساب على:

  1. الأحياء المكانية المحلية داخل كل إطار
  2. الجيران الزمنيين عبر الإطارات المتجاورة
  3. المراسي العامة المتعلمة للتماسك بعيد المدى

النتيجة هي توسع شبه خطي مع طول الفيديو بدلاً من التربيعي. هذا ما يجعل توليد 10 ثوانٍ ممكناً على الأجهزة الاستهلاكية.

💡

للمقارنة، معظم النماذج المنافسة تكافح مع مقاطع فيديو أطول من 5 ثوانٍ دون أجهزة متخصصة.

البناء على HunyuanVideo

بدلاً من تدريب كل شيء من الصفر، يتبنى Kandinsky 5.0 نظام VAE ثلاثي الأبعاد من مشروع HunyuanVideo من Tencent. يتعامل هذا المشفر-فك التشفير مع الترجمة بين مساحة البكسل ومساحة الكمون المدمجة حيث تعمل عملية الانتشار.

يأتي فهم النص من Qwen2.5-VL، نموذج الرؤية واللغة، مع تضمينات CLIP للتأصيل الدلالي. يسمح هذا النهج ثنائي المشفر للنموذج بفهم المعنى الحرفي والأسلوب البصري المضمن في المطالبات.

الأداء: موقعه الحالي

يضع الفريق Video Lite كأفضل أداء بين النماذج مفتوحة المصدر في فئة معاملاته. تظهر المعايير:

النموذجالمعاملاتأقصى مدةVRAM (5s)
Kandinsky Video Lite2B10 ثوانٍ12GB
CogVideoX-2B2B6 ثوانٍ16GB
Open-Sora 1.21.1B16 ثانية18GB

متطلبات ذاكرة VRAM البالغة 12GB تفتح الباب للنشر على بطاقات RTX 3090 و 4090 الاستهلاكية، معلم مهم في سهولة الوصول.

مقارنات الجودة أصعب في القياس. تشير تقارير المستخدمين إلى أن Kandinsky ينتج حركة أكثر اتساقاً من CogVideoX لكنه يتخلف عن HunyuanVideo في الواقعية الفوتوغرافية. يضحي النموذج المقطر ذو 16 خطوة ببعض التفاصيل الدقيقة من أجل السرعة، مقايضة تعمل بشكل جيد للنماذج الأولية لكنها قد لا تلبي احتياجات الإنتاج النهائي.

تشغيل Kandinsky محلياً

يوفر المشروع عقد ComfyUI ونصوص برمجية مستقلة. سير عمل أساسي من نص إلى فيديو:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

ينقل تفريغ الذاكرة أوزان النموذج بين CPU و GPU أثناء الاستدلال. يتاجر هذا بالسرعة مقابل سهولة الوصول، مما يسمح للنماذج الأكبر بالعمل على البطاقات الأصغر.

اتصال Sberbank

يعمل Kandinsky Lab تحت Sber AI، قسم الذكاء الاصطناعي في Sberbank، أكبر بنك روسي. يفسر هذا الدعم الموارد الكبيرة وراء المشروع: التدريب متعدد المراحل على بيانات خاصة، التدريب اللاحق بالتعلم التعزيزي، والجهد الهندسي لإصدار خط أنابيب إنتاج كامل مفتوح المصدر.

يضيف السياق الجيوسياسي تعقيداً. قد يواجه المطورون الغربيون ضغوطاً مؤسسية لتجنب النماذج ذات الأصل الروسي. ترخيص Apache 2.0 واضح قانونياً، لكن السياسات التنظيمية تختلف. بالنسبة للمطورين الأفراد والاستوديوهات الأصغر، الحساب أبسط: التكنولوجيا الجيدة هي تكنولوجيا جيدة.

⚠️

تحقق دائماً من الترخيص والامتثال للتصدير لنطاق اختصاصك وحالة استخدامك المحددة.

التطبيقات العملية

مدة 10 ثوانٍ ومتطلبات الأجهزة الاستهلاكية تفتح حالات استخدام محددة:

🎬

المحتوى الاجتماعي

فيديو قصير لـ TikTok و Reels و Shorts. تكرار سريع دون تكاليف API.
🎨

تصور المفاهيم

يمكن للمخرجين والمنتجين عمل نماذج أولية للمشاهد قبل الإنتاج المكلف.
🔧

التدريب المخصص

يسمح ترخيص Apache 2.0 بالضبط الدقيق على مجموعات بيانات خاصة. بناء نماذج متخصصة لمجالك.
📚

البحث

الوصول الكامل للأوزان والبنية يمكّن الدراسة الأكاديمية لتقنيات توليد الفيديو.

النظر إلى المستقبل

يمثل Kandinsky 5.0 اتجاهاً أوسع: الفجوة بين توليد الفيديو مفتوح ومغلق المصدر تضيق. قبل عام، أنتجت النماذج المفتوحة مقاطع قصيرة منخفضة الدقة مع عيوب واضحة. اليوم، نموذج بسعة 2 مليار معامل على أجهزة استهلاكية يولد فيديو عالي الدقة مدته 10 ثوانٍ كان سيبدو مستحيلاً في 2023.

السباق لم ينته. لا يزال القادة مغلقو المصدر مثل Sora 2 و Runway Gen-4.5 يتصدرون في الجودة والمدة والتحكم. لكن الحد الأدنى يرتفع. للكثير من التطبيقات، المصادر المفتوحة الآن جيدة بما فيه الكفاية.

الخلاصة

قد لا يتصدر Kandinsky 5.0 كل معيار، لكنه ينجح حيث يهم أكثر: تشغيل توليد فيديو حقيقي على أجهزة يملكها أشخاص حقيقيون، بموجب ترخيص يسمح بالاستخدام التجاري الحقيقي. في سباق إضفاء الطابع الديمقراطي على فيديو الذكاء الاصطناعي، الفريق الروسي للتو حرك خط النهاية أقرب إليهم.

للمطورين الذين يستكشفون توليد الفيديو مفتوح المصدر، يستحق Kandinsky 5.0 مكاناً في قائمتك المختصرة.

هل كان هذا المقال مفيداً؟

Alexis

Alexis

مهندس ذكاء اصطناعي

مهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

Kandinsky 5.0: الحل الروسي مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي