CraftStory Model 2.0: کس طرح دو طرفہ ڈفیوژن 5 منٹ کی AI ویڈیوز کو ممکن بناتا ہے
جب کہ Sora 2 کی حد 25 سیکنڈ ہے، CraftStory نے ایک ایسا نظام متعارف کرایا ہے جو مربوط 5 منٹ کی ویڈیوز تیار کرتا ہے۔ راز: متعدد ڈفیوژن انجن جو دو طرفہ قیود کے ساتھ متوازی طور پر چلتے ہیں۔

AI ویڈیو کی دنیا میں سب سے بڑا مسئلہ؟ دورانیہ۔ Sora 2 کی حد 25 سیکنڈ ہے۔ Runway اور Pika تقریباً 10 سیکنڈ پر ہیں۔ CraftStory نے آ کر کہا: 5 منٹ کی مربوط ویڈیوز۔ اس کے پیچھے کی تکنیک واقعی ذہین ہے۔
دورانیے کا وہ مسئلہ جو کسی نے حل نہیں کیا
موجودہ AI ویڈیو ماڈلز کے بارے میں حقیقت یہ ہے: یہ میراتھن رنر نہیں، سپرنٹر ہیں۔ آٹھ سیکنڈ کی شاندار فوٹیج بنائیں، پھر اسے بڑھانے کی کوشش کریں، اور آپ کو بصری طور پر ایک الجھا ہوا نتیجہ ملتا ہے۔ خامیاں جمع ہوتی ہیں۔ کردار بدل جاتے ہیں۔ سب کچھ بکھر جاتا ہے۔
روایتی طریقہ کار اس طرح کام کرتا ہے: ایک حصہ بنائیں، آخری چند فریمز کو اگلے حصے کے لیے سیاق و سباق کے طور پر استعمال کریں، انہیں جوڑیں۔ مسئلہ؟ غلطیاں جمع ہوتی ہیں۔ پہلے حصے میں ہاتھ کی قدرے عجیب پوزیشن پانچویں حصے تک ایک عجیب دھبے میں بدل جاتی ہے۔
CraftStory کی بنیاد OpenCV کے پیچھے موجود ٹیم نے رکھی، جو کمپیوٹر ویژن کی وہ لائبریری ہے جو عملی طور پر آپ کے استعمال کردہ ہر ویژن سسٹم میں چلتی ہے۔ ان کے CEO Victor Erukhimov نے Itseez کی بنیاد رکھی، ایک کمپیوٹر ویژن اسٹارٹ اپ جسے Intel نے 2016 میں حاصل کیا۔
دو طرفہ ڈفیوژن: تعمیراتی جدت
CraftStory کا حل روایتی طریقہ کار کو الٹ دیتا ہے۔ ترتیب وار تیار کرنے اور بہترین کی امید کرنے کے بجائے، وہ پوری ویڈیو ٹائم لائن پر بیک وقت متعدد چھوٹے ڈفیوژن انجن چلاتے ہیں۔
دو طرفہ قیود
بنیادی بصیرت: "ویڈیو کا بعد کا حصہ پہلے حصے کو بھی متاثر کر سکتا ہے،" Erukhimov وضاحت کرتے ہیں۔ "اور یہ کافی اہم ہے، کیونکہ اگر آپ اسے ایک ایک کر کے کریں، تو پہلے حصے میں ظاہر ہونے والی خامی دوسرے میں پھیلتی ہے، اور پھر جمع ہوتی ہے۔"
اسے ناول لکھنے بمقابلہ خاکہ بنانے کی طرح سوچیں۔ ترتیب وار تخلیق پہلا صفحہ لکھنے، پھر دوسرا صفحہ، پھر تیسرا صفحہ لکھنے کی طرح ہے، واپس جانے کی صلاحیت کے بغیر۔ CraftStory کا طریقہ ایک ایسا خاکہ رکھنے کی طرح ہے جہاں دسواں باب یہ بتا سکتا ہے کہ دوسرے باب میں کیا ہونا چاہیے۔
روایتی ترتیب وار
- سیگمنٹ A بنائیں
- A کے اختتام کو B شروع کرنے کے لیے استعمال کریں
- B کے اختتام کو C شروع کرنے کے لیے استعمال کریں
- امید کریں کہ کچھ جمع نہ ہو
- جوڑ کے مقامات پر انگلیاں کراس کریں
دو طرفہ متوازی
- تمام سیگمنٹس بیک وقت پروسیس کریں
- ہر سیگمنٹ اپنے پڑوسیوں کو محدود کرتا ہے
- ابتدائی سیگمنٹس بعد والوں سے متاثر ہوتے ہیں
- خامیاں ٹائم لائن پر خود کو درست کرتی ہیں
- فطری ربط، کوئی جوڑ نہیں
Model 2.0 حقیقت میں کیسے کام کرتا ہے
فی الوقت، CraftStory Model 2.0 ایک ویڈیو سے ویڈیو نظام ہے۔ آپ ایک تصویر اور ایک ڈرائیونگ ویڈیو فراہم کرتے ہیں، اور یہ ایک آؤٹ پٹ تیار کرتا ہے جہاں آپ کی تصویر میں موجود شخص ڈرائیونگ ویڈیو سے حرکات انجام دیتا ہے۔
- ✓حوالہ جاتی تصویر اپ لوڈ کریں (آپ کا موضوع)
- ✓ڈرائیونگ ویڈیو فراہم کریں (حرکت کا سانچہ)
- ✓ماڈل کارکردگی ترکیب کرتا ہے
- ○متن سے ویڈیو مستقبل کی تازہ کاری میں آ رہا ہے
ہونٹ مطابقت کا نظام نمایاں ہے۔ اسے ایک اسکرپٹ یا آڈیو ٹریک دیں، اور یہ ملتے جلتے منہ کی حرکات تیار کرتا ہے۔ ایک علیحدہ اشارہ ترتیب الگورتھم جسمانی زبان کو تقریر کی تال اور جذباتی لہجے کے ساتھ ہم آہنگ کرتا ہے۔ نتیجہ؟ ایسی ویڈیوز جہاں شخص واقعی ان الفاظ کو بول رہا ہو، نہ کہ صرف اپنا جبڑا ہلا رہا ہو۔
CraftStory نے ماڈل کے لیے خاص طور پر شوٹ کی گئی ملکیتی ہائی فریم ریٹ فوٹیج پر تربیت حاصل کی۔ معیاری 30fps YouTube کلپس میں انگلیوں جیسی باریک تفصیلات کے لیے بہت زیادہ حرکت کی دھندلاپن ہوتی ہے۔ انہوں نے صاف تربیتی ڈیٹا کے لیے اعلیٰ فریم ریٹ پر اداکاروں کو کیپچر کرنے کے لیے اسٹوڈیوز کو ملازمت دی۔
آؤٹ پٹ: آپ کو حقیقت میں کیا ملتا ہے
- 5 منٹ تک مسلسل ویڈیو
- 480p اور 720p مقامی ریزولوشن
- 720p سے 1080p تک قابل توسیع
- لینڈ سکیپ اور پورٹریٹ فارمیٹس
- ہم آہنگ ہونٹوں کی حرکات
- فطری اشارہ ترتیب
- صرف ویڈیو سے ویڈیو (ابھی متن سے ویڈیو نہیں)
- ڈرائیونگ ویڈیو ان پٹ کی ضرورت ہے
- کم ریزولوشن میں 30 سیکنڈ کے لیے تقریباً 15 منٹ
- فی الوقت ساکن کیمرہ (متحرک کیمرہ آ رہا ہے)
کم ریزولوشن 30 سیکنڈ کی کلپ کے لیے تخلیق تقریباً 15 منٹ لیتی ہے۔ یہ کچھ ماڈلز کی پیش کردہ فوری تخلیق سے سست ہے، لیکن تبادلہ یہ ہے کہ خوبصورت ٹکڑوں کے بجائے جو جڑتے نہیں، مربوط طویل فارم آؤٹ پٹ۔
یہ تخلیق کاروں کے لیے کیوں اہم ہے
5 منٹ کی رکاوٹ من مانی نہیں ہے۔ یہ وہ حد ہے جہاں AI ویڈیو حقیقی مواد کے لیے مفید بن جاتی ہے۔
سوشل کلپس
TikTok کے ٹکڑوں اور اشتہارات کے لیے اچھا، لیکن محدود کہانی سنانا
مختصر وضاحتی
فوری پروڈکٹ ڈیمو یا تصور کی مثال کے لیے کافی
حقیقی مواد
YouTube ٹیوٹوریلز، تربیتی ویڈیوز، پریزنٹیشنز، بیانیہ مواد
طویل فارم
مکمل اقساط، دستاویزی فلمیں، تعلیمی کورسز
زیادہ تر کاروباری ویڈیو مواد 2-5 منٹ کی حد میں ہے۔ پروڈکٹ ڈیموز۔ تربیتی ماڈیولز۔ وضاحتی ویڈیوز۔ اندرونی مواصلات۔ یہ وہ جگہ ہے جہاں CraftStory پیشہ ورانہ استعمال کے معاملات کے لیے متعلقہ بن جاتا ہے۔
کھلنے والے استعمال کے معاملات:
- مستقل پیش کنندہ کے ساتھ پروڈکٹ ٹیوٹوریلز
- تربیتی ویڈیوز جن کے لیے ٹیلنٹ شیڈولنگ کی ضرورت نہیں
- پیمانے پر ذاتی نوعیت کے ویڈیو پیغامات
- ورچوئل انسٹرکٹرز کے ساتھ تعلیمی مواد
- تیار کردہ ترجمانوں کے ساتھ کارپوریٹ مواصلات
مسابقتی منظرنامہ
CraftStory نے Wrike اور Zencoder کے بانی Andrew Filev کی قیادت میں 2 ملین ڈالر کی سیڈ فنڈنگ حاصل کی۔ یہ OpenAI اور Google میں بہنے والے اربوں کے مقابلے میں معمولی ہے، لیکن ٹیکنالوجی کو ثابت کرنے کے لیے کافی ہے۔
OpenCV کنکشن
بانی ٹیم کا پس منظر یہاں اہم ہے۔ OpenCV صنعتوں میں کمپیوٹر ویژن سسٹمز کو طاقت دیتا ہے۔ یہ لوگ بصری پروسیسنگ کی بنیادی باتوں کو اس سطح پر سمجھتے ہیں جو زیادہ تر AI ویڈیو اسٹارٹ اپس نہیں سمجھتے۔
متن سے ویڈیو کی صلاحیت ترقی میں ہے۔ جب یہ شروع ہوتا ہے، تو قدر کی تجویز واضح تر ہو جاتی ہے: متن میں 5 منٹ کی ویڈیو بیان کریں، فریم بہ فریم معیار کی کمی کے بغیر مربوط آؤٹ پٹ حاصل کریں جو دوسرے ٹولز کو تنگ کرتی ہے۔
آگے کیا ہے
روڈ میپ کی خصوصیات▼
CraftStory نے کئی آنے والی صلاحیتوں کا اعلان کیا ہے:
- متن سے ویڈیو: ڈرائیونگ ویڈیو کے بغیر اشارات سے تخلیق
- متحرک کیمرہ: پین، زوم، اور ٹریکنگ شاٹس
- چلیں اور بات کریں: مقامات جو بولتے ہوئے جگہ میں حرکت کرتے ہیں
دو طرفہ ڈفیوژن کا طریقہ صرف CraftStory کی چال نہیں ہے۔ یہ ایک نمونہ ہے جسے دوسری ٹیمیں ممکنہ طور پر اپنائیں گی۔ جب آپ "غلطیاں آگے جمع ہوتی ہیں" کا مسئلہ حل کر لیتے ہیں، تو طویل تخلیق ایک بنیادی رکاوٹ کے بجائے انجینئرنگ کا چیلنج بن جاتی ہے۔
Model 2.0 فی الوقت انسانی مرکز ویڈیو پر مرکوز ہے۔ لوگوں کے بغیر مناظر کے لیے، آپ کو اب بھی ماحولیاتی یا تجریدی تخلیق کے لیے بہتر بنائے گئے ٹولز چاہیے ہوں گے۔ یہ ایک ماہر کا ٹول ہے، عام نہیں۔
بڑی تصویر
ہم AI ویڈیو کو اپنے عجیب نوعمری کے مرحلے سے گزرتے ہوئے دیکھ رہے ہیں۔ ماڈلز شاندار 10 سیکنڈ کی کلپس پیدا کر سکتے ہیں، لیکن انہیں منٹوں میں ربط برقرار رکھنے کو کہیں تو وہ ٹوٹ جاتے ہیں۔ CraftStory کا دو طرفہ طریقہ اس مسئلے کا ایک جواب ہے۔
اصل سوال: یہ تکنیک بڑے کھلاڑیوں کے ذریعے کب تک اپنائی جاتی ہے؟ OpenAI، Google، اور Runway سب کے پاس اسی طرح کے فن تعمیرات کو نافذ کرنے کے لیے وسائل ہیں۔ CraftStory کا فائدہ یہ ہے کہ وہ کام کرنے والی طویل فارم تخلیق کے ساتھ مارکیٹ میں پہلی ہے۔
فی الوقت، اگر آپ کو انسانی مقامات کے ساتھ مستقل کثیر منٹ AI ویڈیو مواد کی ضرورت ہے، تو CraftStory ابھی شہر میں واحد کھیل بن گیا ہے۔ دورانیے کی رکاوٹ ابھی ٹوٹی نہیں ہے، لیکن کسی نے اس میں ایک سنجیدہ شگاف ڈال دیا ہے۔
آزمائیں
CraftStory Model 2.0 اب دستیاب ہے۔ قیمتوں کا ڈھانچہ عوامی طور پر تفصیل سے بیان نہیں کیا گیا ہے، لہذا آپ کو موجودہ پیشکشوں کے لیے ان کی سائٹ چیک کرنی ہوگی۔ متن سے ویڈیو آ رہا ہے، جو موجودہ ڈرائیونگ ویڈیو مواد کے بغیر صارفین کے لیے پلیٹ فارم کو قابل رسائی بنائے گا۔

Henry
تخلیقی ٹیکنالوجسٹلوزان سے تعلق رکھنے والے تخلیقی ٹیکنالوجسٹ جو اے آئی اور فن کے سنگم کو تلاش کرتے ہیں۔ الیکٹرانک موسیقی کے سیشنز کے درمیان جنریٹو ماڈلز کے ساتھ تجربات کرتے ہیں۔