Kandinsky 5.0: روس کا AI ویڈیو جنریشن کا اوپن سورس جواب
Kandinsky 5.0 صارفین کے GPUs پر Apache 2.0 لائسنسنگ کے ساتھ 10 سیکنڈ کی ویڈیو جنریشن فراہم کرتا ہے۔ ہم دریافت کرتے ہیں کہ NABLA attention اور flow matching اسے کیسے ممکن بناتے ہیں۔

اوپن سورس ویڈیو منظرنامہ تبدیل ہو رہا ہے
جب ByteDance نے اپنا ویڈیو سمجھنے کا ماڈل اوپن سورس کیا اور Tencent نے HunyuanVideo جاری کیا، ہم نے تبدیلی کی پہلی لہریں دیکھیں۔ اب Kandinsky Lab، Sberbank کی حمایت سے، نے ماڈلز کا مکمل خاندان جاری کیا ہے جسے کوئی بھی Apache 2.0 لائسنس کے تحت چلا سکتا ہے، تبدیل کر سکتا ہے اور تجارتی استعمال کر سکتا ہے۔
یہ کوئی تحقیقی پیش نظارہ یا محدود API نہیں ہے۔ مکمل وزن، تربیتی کوڈ اور استنباط پائپ لائن GitHub اور Hugging Face پر دستیاب ہیں۔
ماڈل فیملی
ڈفیوژن آرکیٹیکچرز پر سیاق و سباق کے لیے، diffusion transformers پر ہماری گہرائی میں تجزیہ دیکھیں۔
Kandinsky 5.0 ایک واحد ماڈل نہیں بلکہ تین کا خاندان ہے:
Video Lite (2 بلین پیرامیٹرز)
صارفین کے ہارڈ ویئر کے لیے ہلکا اختیار۔ 768×512 ریزولوشن پر 5 سے 10 سیکنڈ کی ویڈیوز تیار کرتا ہے، 24 fps۔ میموری آف لوڈنگ کے ساتھ 12GB VRAM پر چلتا ہے۔ 16 مرحلہ distilled variant H100 پر 35 سے 60 سیکنڈ میں 5 سیکنڈ کی کلپ تیار کرتا ہے۔
Video Pro (19 بلین پیرامیٹرز)
زیادہ سے زیادہ معیار کے لیے مکمل ماڈل۔ 1280×768 پر HD ویڈیو خارج کرتا ہے، 24 fps۔ ڈیٹا سینٹر کلاس GPUs کی ضرورت ہوتی ہے لیکن بند ذریعہ متبادلات کے ساتھ مسابقتی نتائج فراہم کرتا ہے۔
6 بلین پیرامیٹرز کا ایک Image Lite ماڈل خاندان کو مکمل کرتا ہے 1280×768 یا 1024×1024 ریزولوشن پر اسٹل امیج جنریشن کے لیے۔
تکنیکی فن تعمیر
Kandinsky 5.0 میں انجینئرنگ فیصلے ایک ٹیم کو ظاہر کرتے ہیں جو بینچ مارک کے پیچھے بھاگنے کے بجائے عملی تعیناتی پر مرکوز ہے۔
بنیاد: ڈفیوژن کے بجائے Flow Matching
روایتی ڈفیوژن ماڈل قدم بہ قدم ایک شور شامل کرنے کے عمل کو الٹنا سیکھتے ہیں۔ Flow matching ایک مختلف نقطہ نظر اختیار کرتی ہے: یہ ایک مسلسل بہاؤ کے میدان کے ذریعے شور سے تصویر تک براہ راست راستہ سیکھتی ہے۔ فوائد اہم ہیں:
NABLA: لمبی ویڈیوز کو ممکن بنانا
حقیقی جدت NABLA ہے، جو Neighborhood Adaptive Block-Level Attention کا مخفف ہے۔ معیاری ٹرانسفارمر توجہ ترتیب کی لمبائی کے ساتھ مربع شکل میں پیمانہ کرتی ہے۔ ویڈیو کے لیے، یہ تباہ کن ہے۔ 24 fps پر 10 سیکنڈ کی ایک کلپ میں 240 فریمز ہوتے ہیں، ہر ایک میں ہزاروں مقامی patches۔ سب پر مکمل توجہ حسابی طور پر ناقابل عمل ہے۔
NABLA اسے sparse attention patterns کے ذریعے حل کرتا ہے۔ ہر فریم میں ہر patch پر توجہ دینے کے بجائے، یہ حساب کو مرکوز کرتا ہے:
- ہر فریم کے اندر مقامی مقامی محلے
- ملحقہ فریمز کے اس پار وقتی پڑوسی
- طویل مدتی ہم آہنگی کے لیے سیکھے ہوئے عالمی لنگر
نتیجہ مربع کے بجائے ویڈیو کی لمبائی کے ساتھ تقریباً خطی پیمانہ ہے۔ یہی صارفین کے ہارڈ ویئر پر 10 سیکنڈ کی جنریشن کو قابل عمل بناتا ہے۔
موازنہ کے لیے، زیادہ تر مقابل ماڈل خصوصی ہارڈ ویئر کے بغیر 5 سیکنڈ سے لمبی ویڈیوز کے ساتھ جدوجہد کرتے ہیں۔
HunyuanVideo پر تعمیر
ہر چیز کو صفر سے تربیت دینے کے بجائے، Kandinsky 5.0 Tencent کے HunyuanVideo پروجیکٹ سے 3D VAE اختیار کرتا ہے۔ یہ انکوڈر-ڈیکوڈر پکسل اسپیس اور کمپیکٹ لیٹنٹ اسپیس کے درمیان ترجمہ سنبھالتا ہے جہاں ڈفیوژن عمل کام کرتا ہے۔
ٹیکسٹ کی سمجھ Qwen2.5-VL سے آتی ہے، ایک vision-language ماڈل، معنوی بنیاد کے لیے CLIP embeddings کے ساتھ مشترکہ۔ یہ دوہری انکوڈر نقطہ نظر ماڈل کو لفظی معنی اور بصری انداز دونوں کو سمجھنے کی اجازت دیتا ہے جو prompts تجویز کرتے ہیں۔
کارکردگی: یہ کہاں کھڑا ہے
ٹیم Video Lite کو اس کے پیرامیٹر کلاس میں اوپن سورس ماڈلز میں اعلیٰ کارکردگی کے طور پر رکھتی ہے۔ بینچ مارکس ظاہر کرتے ہیں:
| ماڈل | پیرامیٹرز | زیادہ سے زیادہ مدت | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 سیکنڈ | 12GB |
| CogVideoX-2B | 2B | 6 سیکنڈ | 16GB |
| Open-Sora 1.2 | 1.1B | 16 سیکنڈ | 18GB |
12GB VRAM کی ضرورت صارف RTX 3090 اور 4090 کارڈز پر تعیناتی کے لیے دروازہ کھولتی ہے، ایک اہم رسائی کا سنگ میل۔
معیار کے موازنے مقدار میں لانا مشکل ہیں۔ صارفین کی رپورٹیں تجویز کرتی ہیں کہ Kandinsky CogVideoX سے زیادہ مستقل حرکت پیدا کرتا ہے لیکن فوٹو حقیقت پسندی میں HunyuanVideo سے پیچھے ہے۔ 16 مرحلہ distilled ماڈل رفتار کے لیے کچھ باریک تفصیل قربان کرتا ہے، ایک سمجھوتہ جو پروٹو ٹائپنگ کے لیے اچھا کام کرتا ہے لیکن حتمی پیداوار کی ضروریات کو پورا نہیں کر سکتا۔
Kandinsky کو مقامی طور پر چلانا
پروجیکٹ ComfyUI نوڈس اور اسٹینڈ اکیلے اسکرپٹس فراہم کرتا ہے۔ ایک بنیادی text-to-video ورک فلو:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")میموری آف لوڈنگ استنباط کے دوران CPU اور GPU کے درمیان ماڈل وزن منتقل کرتی ہے۔ یہ رسائی کے لیے رفتار کا تبادلہ کرتی ہے، بڑے ماڈلز کو چھوٹے کارڈز پر چلنے کی اجازت دیتی ہے۔
Sberbank کنکشن
Kandinsky Lab Sber AI کے تحت کام کرتا ہے، روس کے سب سے بڑے بینک Sberbank کا مصنوعی ذہانت ڈویژن۔ یہ حمایت پروجیکٹ کے پیچھے کافی وسائل کی وضاحت کرتی ہے: ملکیتی ڈیٹا پر کثیر مرحلہ تربیت، reinforcement learning کے بعد کی تربیت، اور مکمل پیداوار کی پائپ لائن کو اوپن سورس کرنے کی انجینئرنگ کوشش۔
جیو پولیٹیکل سیاق و سباق پیچیدگی شامل کرتا ہے۔ مغربی ڈویلپرز کو روسی نژاد ماڈلز سے بچنے کے لیے ادارہ جاتی دباؤ کا سامنا کرنا پڑ سکتا ہے۔ Apache 2.0 لائسنس قانونی طور پر واضح ہے، لیکن تنظیمی پالیسیاں مختلف ہوتی ہیں۔ انفرادی ڈویلپرز اور چھوٹے اسٹوڈیوز کے لیے، حساب آسان ہے: اچھی ٹیکنالوجی اچھی ٹیکنالوجی ہے۔
ہمیشہ اپنے مخصوص دائرہ اختیار اور استعمال کے معاملے کے لیے لائسنسنگ اور برآمدی تعمیل کی تصدیق کریں۔
عملی ایپلی کیشنز
10 سیکنڈ کی مدت اور صارف ہارڈ ویئر کی ضروریات مخصوص استعمال کے معاملات کھولتی ہیں:
سماجی مواد
تصور کی تصویر کشی
اپنی مرضی کی تربیت
تحقیق
آگے دیکھتے ہوئے
Kandinsky 5.0 ایک وسیع تر رجحان کی نمائندگی کرتا ہے: اوپن اور بند ذریعہ ویڈیو جنریشن کے درمیان فرق کم ہو رہا ہے۔ ایک سال پہلے، اوپن ماڈلز واضح خامیوں کے ساتھ مختصر، کم ریزولوشن کلپس تیار کرتے تھے۔ آج، صارف ہارڈ ویئر پر 2 بلین پیرامیٹر ماڈل 10 سیکنڈ کی HD ویڈیو تیار کرتا ہے جو 2023 میں ناممکن لگتی تھی۔
دوڑ ختم نہیں ہوئی ہے۔ Sora 2 اور Runway Gen-4.5 جیسے بند ذریعہ رہنما اب بھی معیار، مدت اور قابو میں رکھنے کی صلاحیت میں آگے ہیں۔ لیکن فرش بلند ہو رہا ہے۔ بہت سی ایپلی کیشنز کے لیے، اوپن سورس اب کافی اچھا ہے۔
نتیجہ
Kandinsky 5.0 ہر بینچ مارک میں سب سے اوپر نہیں ہو سکتا، لیکن یہ وہاں کامیاب ہوتا ہے جہاں سب سے زیادہ اہمیت ہے: اس ہارڈویئر پر حقیقی ویڈیو جنریشن چلانا جو حقیقی لوگ رکھتے ہیں، ایک لائسنس کے تحت جو حقیقی تجارتی استعمال کی اجازت دیتا ہے۔ AI ویڈیو کو جمہوری بنانے کی دوڑ میں، روسی ٹیم نے ابھی فنش لائن کو زیادہ قریب منتقل کیا ہے۔
اوپن سورس ویڈیو جنریشن تلاش کرنے والے ڈویلپرز کے لیے، Kandinsky 5.0 آپ کی مختصر فہرست میں ایک جگہ کا مستحق ہے۔
کیا یہ مضمون مددگار تھا؟

Alexis
اے آئی انجینئرلوزان سے تعلق رکھنے والے اے آئی انجینئر جو تحقیقی گہرائی کو عملی جدت کے ساتھ یکجا کرتے ہیں۔ ماڈل آرکیٹیکچرز اور الپائن چوٹیوں کے درمیان وقت تقسیم کرتے ہیں۔
متعلقہ مضامین
ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

MiniMax Hailuo 02: چین کا بجٹ AI ویڈیو ماڈل تکنیکی دیوہیکل کو چیلنج کرتا ہے
MiniMax کا Hailuo 02 مسابقتی ویڈیو معیار فراہم کرتا ہے، ایک Veo 3 کلپ کی قیمت کا دسواں حصہ۔ یہاں جانیں کہ یہ چینی چیلنجر توجہ دینے کے قابل کیوں ہے۔

Runway GWM-1: وہ جنرل ورلڈ ماڈل جو حقیقت کو ریئل ٹائم میں سمیولیٹ کرتا ہے
Runway کا GWM-1 ویڈیوز تیار کرنے سے دنیاؤں کے سمیولیشن تک ایک پیراڈائم شفٹ کو ظاہر کرتا ہے۔ دریافت کریں کہ یہ آٹوریگریسیو ماڈل کس طرح قابل دریافت ماحول، فوٹوریلسٹک اوتار، اور روبوٹ ٹریننگ سمیولیشنز تخلیق کرتا ہے۔

یوٹیوب نے Veo 3 Fast کو Shorts میں شامل کر لیا: 2.5 ارب صارفین کے لیے مفت AI ویڈیو تخلیق
گوگل نے اپنا Veo 3 Fast ماڈل براہ راست YouTube Shorts میں شامل کر دیا ہے، جو دنیا بھر کے تخلیق کاروں کے لیے آڈیو کے ساتھ مفت ٹیکسٹ سے ویڈیو تخلیق پیش کر رہا ہے۔ یہ پلیٹ فارم اور AI ویڈیو کی رسائی کے لیے کیا معنی رکھتا ہے۔