ByteDance Vidi2: مصنوعی ذہانت جو ویڈیو کو ایڈیٹر کی طرح سمجھتی ہے

جبکہ ہر کوئی ویڈیو جنریشن کے بارے میں سوچ رہا ہے، ByteDance نے خاموشی سے ایک مختلف مسئلہ حل کیا: مصنوعی ذہانت کو ایک تجربہ کار ایڈیٹر کی طرح ویڈیو سمجھنا سکھایا۔ Vidi2 گھنٹوں خام فوٹیج دیکھ سکتا ہے اور بالکل وہی نکال سکتا ہے جو اہم ہے۔

وہ مسئلہ جس کے بارے میں کوئی بات نہیں کرتا

اب ہمارے پاس ناقابل یقین AI ویڈیو جنریٹرز ہیں۔ Runway Gen-4.5 کوالٹی چارٹس میں سرفہرست ہے۔ Kling O1 ہم آہنگ آڈیو پیدا کرتا ہے۔ لیکن ویڈیو پروڈکشن کا گندا راز یہ ہے: زیادہ تر وقت ایڈیٹنگ میں جاتا ہے، تخلیق میں نہیں۔

ایک شادی کا ویڈیوگرافر 5 منٹ کی ہائی لائٹ ریل کے لیے 8 گھنٹے کی فوٹیج شوٹ کرتا ہے۔ ایک مواد تخلیق کار 60 سیکنڈ کا TikTok بنانے کے لیے 45 منٹ ریکارڈ کرتا ہے۔ ایک انٹرپرائز ٹیم کے پاس SharePoint میں دفن 200 گھنٹے کی تربیتی فوٹیج ہے۔

💡

ویڈیو جنریشن سرخیاں حاصل کرتا ہے۔ ویڈیو سمجھنا اصل کام کرتا ہے۔

Vidi2 اس خلا کو حل کرتا ہے۔ یہ کوئی اور جنریٹر نہیں ہے۔ یہ ایک AI ہے جو ویڈیو دیکھتا ہے، سمجھتا ہے کہ کیا ہو رہا ہے، اور آپ کو بڑے پیمانے پر اس مواد کے ساتھ کام کرنے میں مدد کرتا ہے۔

Vidi2 اصل میں کیا کرتا ہے

ByteDance Vidi2 کو "ویڈیو سمجھنے اور تخلیق کے لیے بڑا ملٹی موڈل ماڈل" کے طور پر بیان کرتا ہے۔ 12 بلین پیرامیٹر کا ماڈل ان میں بہترین ہے:

🔍

مقامی-وقتی گراؤنڈنگ

ویڈیو میں کسی بھی چیز کو تلاش کریں اور وقت کے ساتھ اس کی ٹریکنگ کریں۔ صرف "0:32 پر ایک بلی ہے" نہیں بلکہ "بلی 0:32 پر داخل ہوتی ہے، 0:45 پر صوفے کی طرف جاتی ہے، اور 1:12 پر فریم چھوڑ دیتی ہے۔"

✂️

ذہین ایڈیٹنگ

فوٹیج کا تجزیہ کریں اور مواد کی بنیاد پر کٹ کی تجاویز دیں۔ بہترین لمحات تلاش کریں، سین کی حدود کی شناخت کریں، رفتار کو سمجھیں۔

📝

مواد کا تجزیہ

ویڈیو میں کیا ہوتا ہے اسے کافی تفصیل کے ساتھ بیان کریں تاکہ مفید ہو۔ "دو لوگ بات کر رہے ہیں" نہیں بلکہ "انٹرویو سیگمنٹ، مہمان پروڈکٹ کی خصوصیات کی وضاحت کر رہا ہے، 3:45 پر زیادہ مشغولیت کا لمحہ۔"

🎯

آبجیکٹ ٹریکنگ

اشیاء کو ویڈیو کے دوران مسلسل "ٹیوبز" کے طور پر ٹریک کریں، یہاں تک کہ جب وہ فریم چھوڑ کر واپس آئیں۔ یہ اثرات، ہٹانے، یا زور کے لیے درست انتخاب کو قابل بناتا ہے۔

تکنیکی جدت: مقامی-وقتی گراؤنڈنگ

پچھلے ویڈیو AI دو جہتوں میں کام کرتے تھے: مقام (اس فریم میں کیا ہے) یا وقت (کچھ کب ہوتا ہے)۔ Vidi2 دونوں کو ملاتا ہے جسے ByteDance "مقامی-وقتی گراؤنڈنگ" (STG) کہتا ہے۔

روایتی طریقہ:

مقامی: "کار پکسل کوآرڈینیٹس (450, 320) پر ہے"
وقتی: "ایک کار ٹائم سٹیمپ 0:15 پر ظاہر ہوتی ہے"
نتیجہ: منقطع معلومات جو دستی ارتباط کی ضرورت ہے

Vidi2 STG:

مشترکہ: "سرخ کار 0:15 پر (450, 320) پر ہے، 0:18 پر (890, 340) پر جاتی ہے، 0:22 پر دائیں سے باہر نکلتی ہے"
نتیجہ: مقام اور وقت کے ذریعے مکمل چیز کی رفتار

یہ اہم ہے کیونکہ حقیقی ایڈیٹنگ کے کاموں کو دونوں جہتوں کی ضرورت ہوتی ہے۔ "بوم مائک ہٹائیں" کو جاننے کی ضرورت ہے کہ یہ کہاں ظاہر ہوتا ہے (مقامی) اور کتنی دیر تک (وقتی)۔ Vidi2 اسے ایک سوال کے طور پر سنبھالتا ہے۔

بینچ مارکس: دیوہیکل کو شکست دینا

12B

پیرامیٹرز

ویڈیو سمجھنا

کھلا

ذریعہ

یہاں دلچسپ ہو جاتا ہے۔ مقامی-وقتی گراؤنڈنگ کے لیے ByteDance کے VUE-STG بینچ مارک پر، Vidi2 Gemini 2.0 Flash اور GPT-4o دونوں سے بہتر کارکردگی دکھاتا ہے، حالانکہ دونوں سے کم پیرامیٹرز ہیں۔

💡

ایک انتباہ: یہ بینچ مارکس ByteDance نے بنائے ہیں۔ تیسرے فریق کے بینچ مارکس پر آزاد تصدیق ان دعووں کو مضبوط کرے گی۔ کہا جا رہا ہے کہ، خصوصی فن تعمیر کا طریقہ درست ہے۔

بینچ مارک کے نتائج بتاتے ہیں کہ ویڈیو سمجھنا خام پیمانے سے زیادہ خصوصی ڈیزائن سے فائدہ اٹھاتا ہے۔ شروع سے ویڈیو کے لیے بنایا گیا ماڈل بڑے عمومی مقصد کے ماڈلز سے بہتر کارکردگی دکھا سکتا ہے جو ویڈیو کو تصویر کی سمجھ کی توسیع سمجھتے ہیں۔

پہلے سے پروڈکشن میں: TikTok Smart Split

یہ کاغذی کام نہیں ہے۔ Vidi2 TikTok کی "Smart Split" خصوصیت کو طاقت دیتا ہے، جو:

✓لمبی ویڈیوز سے خودکار طور پر ہائی لائٹس نکالتا ہے
✓تقریر کے ساتھ ہم آہنگ سب ٹائٹلز پیدا کرتا ہے
✓مختلف تناسب کے لیے ترتیب کو دوبارہ تعمیر کرتا ہے
✓مواد کی بنیاد پر بہترین کٹ پوائنٹس کی شناخت کرتا ہے

لاکھوں تخلیق کار روزانہ Smart Split استعمال کرتے ہیں۔ ماڈل بڑے پیمانے پر ثابت شدہ ہے، نظریاتی نہیں۔

اوپن سورس: خود چلائیں

ByteDance نے Vidi2 کو GitHub پر CC BY-NC 4.0 لائسنس کے تحت جاری کیا۔ اس کا مطلب ہے تحقیق، تعلیم، اور ذاتی منصوبوں کے لیے مفت، لیکن تجارتی استعمال کے لیے الگ لائسنسنگ کی ضرورت ہے۔ مضمرات:

ڈویلپرز کے لیے:

حسب ضرورت ویڈیو تجزیہ پائپ لائنز بنائیں
موجودہ ٹولز میں سمجھ کو مربوط کریں
مخصوص ڈومینز کے لیے ٹھیک ٹیون کریں
بڑے پیمانے پر API لاگت نہیں

انٹرپرائزز کے لیے:

حساس فوٹیج کو مقامی طور پر پروسیس کریں
ملکیتی ایڈیٹنگ ورک فلو بنائیں
وینڈر لاک ان سے بچیں
اندرونی مواد کی اقسام کے لیے حسب ضرورت بنائیں

اوپن سورس ریلیز ایک نمونے کی پیروی کرتا ہے جو ہم نے LTX Video اور دیگر چینی AI لیبز کے ساتھ دیکھا ہے: طاقتور ماڈلز کو کھلے عام جاری کرنا جبکہ مغربی حریف اپنے کو ملکیتی رکھتے ہیں۔

عملی ایپلیکیشنز

مجھے کچھ حقیقی ورک فلوز پر چلنے دیں جو Vidi2 قابل بناتا ہے:

مواد کی دوبارہ تشکیل

ان پٹ: 2 گھنٹے کی پوڈکاسٹ ریکارڈنگ آؤٹ پٹ: بہترین لمحات کے 10 مختصر کلپس، ہر ایک مناسب تعارف/اختتام کٹس کے ساتھ

ماڈل دلچسپ لمحات کی شناخت کرتا ہے، قدرتی کٹ پوائنٹس تلاش کرتا ہے، اور کلپس نکالتا ہے جو آزاد مواد کے طور پر کام کرتے ہیں۔

تربیتی ویڈیو کا انتظام

ان پٹ: 500 گھنٹے کی کارپوریٹ تربیتی فوٹیج سوال: "نئے CRM ورک فلو کی وضاحت کرنے والے تمام حصے تلاش کریں"

دستی اسکرببنگ یا غیر قابل اعتماد میٹا ڈیٹا پر انحصار کرنے کی بجائے، Vidi2 اصل میں دیکھتا ہے اور مواد کو سمجھتا ہے۔

کھیلوں کی ہائی لائٹس

ان پٹ: مکمل میچ کی ریکارڈنگ آؤٹ پٹ: تمام اسکورنگ لمحات، قریبی کالز، اور جشن کے ساتھ ہائی لائٹ ریل

ماڈل کھیلوں کے سیاق و سباق کو کافی اچھی طرح سمجھتا ہے کہ معنی خیز لمحات کی شناخت کرے، نہ صرف حرکت۔

نگرانی کا جائزہ

ان پٹ: 24 گھنٹے کی سیکیورٹی فوٹیج سوال: "شام 6 بجے کے بعد سائیڈ ڈور سے داخل ہونے والے تمام لوگوں کی مثالیں تلاش کریں"

مقامی-وقتی گراؤنڈنگ کا مطلب ہے درست جوابات بالکل ٹائم سٹیمپس اور مقامات کے ساتھ۔

یہ جنریشن ماڈلز سے کیسے موازنہ کرتا ہے

✓ویڈیو سمجھنا (Vidi2)

موجودہ فوٹیج کے ساتھ کام کرتا ہے
جنریشن کا وقت نہیں، ایڈیٹنگ کا وقت بچاتا ہے
بڑے ویڈیو لائبریریوں تک پیمانہ
تخلیقی پرامپٹنگ کی ضرورت نہیں
انٹرپرائز کے لیے فوری طور پر عملی

✓ویڈیو جنریشن (Runway, Sora)

کچھ نہیں سے نیا مواد بناتا ہے
تخلیقی اظہار کا آلہ
مارکیٹنگ اور اشتہار کی ایپلیکیشنز
تیزی سے بڑھتا معیار
دلچسپ لیکن مختلف استعمال کا معاملہ

یہ مقابلہ کرنے والی ٹیکنالوجیز نہیں ہیں۔ یہ مختلف مسائل حل کرتی ہیں۔ مکمل AI ویڈیو ورک فلو کو دونوں کی ضرورت ہے: نیا مواد بنانے کے لیے جنریشن، موجودہ مواد کے ساتھ کام کرنے کے لیے سمجھنا۔

بڑی تصویر

⚠️

ویڈیو سمجھنا وہ جگہ ہے جہاں AI "متاثر کن ڈیمو" سے "روزمرہ کا آلہ" بنتا ہے۔ جنریشن توجہ حاصل کرتا ہے۔ سمجھنا کام کرتا ہے۔

غور کریں کہ یہ کیا قابل بناتا ہے:

ہر انٹرپرائز کے پاس آرکائیوز میں پھنسا ویڈیو مواد ہے
ہر تخلیق کار شوٹنگ سے زیادہ ایڈیٹنگ میں وقت گزارتا ہے
ہر پلیٹ فارم کو بہتر مواد کی نگرانی اور دریافت کی ضرورت ہے
ہر محقق کے پاس فوٹیج ہے جس کا وہ مؤثر طریقے سے تجزیہ نہیں کر سکتے

Vidi2 ان سب کو حل کرتا ہے۔ اوپن سورس ریلیز کا مطلب ہے کہ یہ صلاحیتیں اب کافی کمپیوٹ کے ساتھ کسی کے لیے بھی قابل رسائی ہیں۔

شروع کرنا

ماڈل دستاویزات اور ڈیمو کے ساتھ GitHub پر دستیاب ہے۔ ضروریات:

مکمل ماڈل کے لیے کم از کم 24GB VRAM کے ساتھ NVIDIA GPU
چھوٹے GPUs کے لیے کوانٹائزڈ ورژن دستیاب ہیں
PyTorch 2.0+ کے ساتھ Python 3.10+

فوری شروعات:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

ByteDance چینی کمپنی ہونے کے باوجود دستاویزات بنیادی طور پر انگریزی میں ہے، جو عالمی ہدف کے سامعین کی عکاسی کرتا ہے۔

یہ صنعت کے لیے کیا مطلب ہے

AI ویڈیو کا منظر نامہ اب دو الگ ٹریکس رکھتا ہے:

ٹریک	رہنما	توجہ	قدر
جنریشن	Runway, Sora, Veo, Kling	نئی ویڈیو بنائیں	تخلیقی اظہار
سمجھنا	Vidi2, (دیگر ابھر رہے ہیں)	موجودہ ویڈیو کا تجزیہ کریں	پیداواریت

دونوں پختہ ہوں گے۔ دونوں مربوط ہوں گے۔ 2026 کا مکمل AI ویڈیو اسٹیک بغیر کسی رکاوٹ کے پیدا کرے گا، ایڈٹ کرے گا، اور سمجھے گا۔

فی الوقت، Vidi2 ویڈیو سمجھنے کے لیے سب سے قابل اوپن سورس آپشن کی نمائندگی کرتا ہے۔ اگر آپ کے پاس تجزیہ کرنے کے لیے فوٹیج، خودکار بنانے کے لیے ایڈیٹنگ، یا منظم کرنے کے لیے مواد ہے، تو یہ دریافت کرنے کا ماڈل ہے۔

میری رائے

میں نے ویڈیو پروسیسنگ پائپ لائنز بناتے ہوئے سال گزارے ہیں۔ Vidi2 جیسے ماڈلز کے ساتھ پہلے اور بعد میں واضح فرق ہے۔ کام جن کے لیے حسب ضرورت کمپیوٹر ویژن اسٹیکس، دستی تشریح، اور نازک ہیورسٹکس کی ضرورت تھی اب ایک پرامپٹ کے ساتھ حل ہو سکتے ہیں۔

💡

بہترین AI ٹولز انسانی فیصلے کی جگہ نہیں لیتے۔ وہ اس بورنگ کام کو ہٹاتے ہیں جو انسانوں کو بڑے پیمانے پر فیصلہ لاگو کرنے سے روکتا ہے۔

Vidi2 ایڈیٹرز کی جگہ نہیں لیتا۔ یہ ایڈیٹرز کو وہ صلاحیتیں دیتا ہے جو پہلے بڑے پیمانے پر ناممکن تھیں۔ اور کھلی رسائی کے ساتھ (غیر تجارتی استعمال کے لیے)، یہ صلاحیتیں کسی کے لیے بھی دستیاب ہیں جو بنیادی ڈھانچہ قائم کرنے کے لیے تیار ہو۔

ویڈیو کا مستقبل صرف جنریشن نہیں ہے۔ یہ سمجھنا ہے۔ اور وہ مستقبل اب اوپن سورس ہے۔

ذرائع

ByteDance Vidi2 GitHub ریپوزٹری
Vidi2 ریسرچ پیپر (arXiv)
ByteDance Vidi2 اوپن سورس AI ماڈل جاری کرتا ہے (WinBuzzer)