HenryHenry
6 min read
1129 كلمات

نموذج CraftStory 2.0: كيف يفتح الانتشار ثنائي الاتجاه إمكانية إنشاء مقاطع فيديو بالذكاء الاصطناعي لمدة 5 دقائق

بينما يقتصر Sora 2 على 25 ثانية كحد أقصى، قدمت CraftStory نظاماً يولد مقاطع فيديو متماسكة لمدة 5 دقائق. السر؟ تشغيل محركات انتشار متعددة بشكل متوازٍ مع قيود ثنائية الاتجاه.

نموذج CraftStory 2.0: كيف يفتح الانتشار ثنائي الاتجاه إمكانية إنشاء مقاطع فيديو بالذكاء الاصطناعي لمدة 5 دقائق

التحدي الأكبر في مجال فيديو الذكاء الاصطناعي؟ المدة الزمنية. يقتصر Sora 2 على 25 ثانية. بينما تتراوح مدة Runway وPika حول 10 ثوانٍ. جاءت CraftStory وقالت: "احتفظوا بمشروباتكم"، مقاطع فيديو متماسكة لمدة 5 دقائق. التقنية وراء ذلك مبتكرة حقاً.

مشكلة المدة الزمنية التي لم يحلها أحد

إليكم الحقيقة حول نماذج فيديو الذكاء الاصطناعي الحالية: إنها عداءة سريعة، وليست عداءة ماراثون. تولد ثماني ثوانٍ من اللقطات الرائعة، ثم حاول تمديدها، وستحصل على ما يعادل بصرياً لعبة الهاتف. تتراكم التشوهات. تنجرف الشخصيات. ينهار كل شيء.

25s
Sora 2 الحد الأقصى
10s
النماذج النموذجية
5min
CraftStory

يعمل النهج التقليدي على هذا النحو: توليد مقطع، استخدام الإطارات الأخيرة كسياق للمقطع التالي، ثم ربطها معاً. المشكلة؟ تتراكم الأخطاء. وضعية يد غريبة قليلاً في المقطع الأول تصبح كتلة غريبة بحلول المقطع الخامس.

💡

تأسست CraftStory على يد الفريق الذي يقف وراء OpenCV، مكتبة الرؤية الحاسوبية التي تعمل في كل نظام رؤية استخدمته تقريباً. المدير التنفيذي Victor Erukhimov شارك في تأسيس Itseez، شركة ناشئة في مجال الرؤية الحاسوبية استحوذت عليها Intel عام 2016.

الانتشار ثنائي الاتجاه: الابتكار المعماري

يقلب حل CraftStory النهج النموذجي رأساً على عقب. بدلاً من التوليد المتسلسل والأمل في الأفضل، يشغلون محركات انتشار أصغر متعددة في وقت واحد عبر الجدول الزمني الكامل للفيديو.

🔄

القيود ثنائية الاتجاه

الفكرة الأساسية: "الجزء اللاحق من الفيديو يمكن أن يؤثر على الجزء السابق من الفيديو أيضاً"، يشرح Erukhimov. "وهذا مهم جداً، لأنك إذا قمت بذلك واحداً تلو الآخر، فإن التشوه الذي يظهر في الجزء الأول ينتشر إلى الجزء الثاني، ثم يتراكم."

فكر في الأمر كما لو كنت تكتب رواية مقابل وضع مخطط لها. التوليد المتسلسل يشبه كتابة الصفحة الأولى، ثم الصفحة الثانية، ثم الصفحة الثالثة، دون القدرة على العودة. نهج CraftStory يشبه وجود مخطط حيث يمكن للفصل العاشر أن يعلم ما يجب أن يحدث في الفصل الثاني.

التسلسلي التقليدي

  • توليد المقطع A
  • استخدام نهاية A لبدء B
  • استخدام نهاية B لبدء C
  • الأمل في عدم تراكم أي شيء
  • الدعاء عند نقاط الربط

الموازي ثنائي الاتجاه

  • معالجة جميع المقاطع في وقت واحد
  • كل مقطع يقيد جيرانه
  • المقاطع المبكرة تتأثر بالمقاطع اللاحقة
  • التشوهات تصحح نفسها عبر الجدول الزمني
  • تماسك طبيعي، بدون ربط

كيف يعمل النموذج 2.0 فعلياً

حالياً، CraftStory Model 2.0 هو نظام من فيديو إلى فيديو. تقدم صورة وفيديو محرك، ويولد مخرجاً حيث يقوم الشخص في صورتك بأداء الحركات من الفيديو المحرك.

  • تحميل صورة مرجعية (موضوعك)
  • توفير فيديو محرك (قالب الحركة)
  • يقوم النموذج بتوليف الأداء
  • من النص إلى الفيديو قادم في تحديث مستقبلي

يبرز نظام مزامنة الشفاه. قدم له نصاً أو مساراً صوتياً، ويولد حركات فم متطابقة. تقوم خوارزمية محاذاة الإيماءات المنفصلة بمزامنة لغة الجسد مع إيقاع الكلام والنبرة العاطفية. النتيجة؟ مقاطع فيديو يبدو فيها الشخص كأنه ينطق تلك الكلمات فعلاً، وليس مجرد تحريك فكه.

💡

تدربت CraftStory على لقطات عالية معدل الإطارات ملكية تم تصويرها خصيصاً للنموذج. مقاطع YouTube القياسية بمعدل 30 إطاراً في الثانية تحتوي على الكثير من ضبابية الحركة للحصول على تفاصيل دقيقة مثل الأصابع. قاموا بتوظيف استوديوهات لالتقاط الممثلين بمعدلات إطارات أعلى للحصول على بيانات تدريب أنظف.

المخرجات: ما تحصل عليه فعلياً

القدرات
  • حتى 5 دقائق من الفيديو المستمر
  • دقة أصلية 480p و 720p
  • 720p قابل للترقية إلى 1080p
  • تنسيقات أفقية وعمودية
  • حركات شفاه متزامنة
  • محاذاة إيماءات طبيعية
القيود
  • من فيديو إلى فيديو فقط (لا يوجد من نص إلى فيديو بعد)
  • يتطلب إدخال فيديو محرك
  • حوالي 15 دقيقة لـ 30 ثانية بدقة منخفضة
  • كاميرا ثابتة حالياً (كاميرا متحركة قادمة)

يستغرق التوليد حوالي 15 دقيقة لمقطع مدته 30 ثانية بدقة منخفضة. هذا أبطأ من التوليد شبه الفوري الذي تقدمه بعض النماذج، لكن المقايضة هي مخرجات طويلة الشكل متماسكة بدلاً من شظايا جميلة لا تتصل.

لماذا هذا مهم للمبدعين

حاجز الخمس دقائق ليس تعسفياً. إنه العتبة التي يصبح عندها فيديو الذكاء الاصطناعي مفيداً للمحتوى الفعلي.

10 ثانية

مقاطع اجتماعية

جيد لمقاطع TikTok والإعلانات، لكن سرد القصص محدود

30 ثانية

شروحات قصيرة

كافٍ لعرض منتج سريع أو توضيح مفهوم

2-5 دقائق

محتوى حقيقي

دروس YouTube، مقاطع فيديو تدريبية، عروض تقديمية، محتوى سردي

المستقبل

الشكل الطويل

حلقات كاملة، أفلام وثائقية، دورات تعليمية

معظم محتوى الفيديو التجاري يقع في نطاق 2-5 دقائق. عروض المنتجات. وحدات التدريب. مقاطع الفيديو التوضيحية. الاتصالات الداخلية. هنا تصبح CraftStory ذات صلة بحالات الاستخدام المهنية.

حالات الاستخدام التي تفتح:

  • دروس المنتجات مع مقدم متسق طوال الوقت
  • مقاطع فيديو تدريبية لا تتطلب جدولة المواهب
  • رسائل فيديو مخصصة على نطاق واسع
  • محتوى تعليمي مع مدرسين افتراضيين
  • اتصالات الشركات مع متحدثين رسميين مولدين

المشهد التنافسي

جمعت CraftStory مليوني دولار في تمويل أولي بقيادة Andrew Filev، مؤسس Wrike وZencoder. هذا متواضع مقارنة بالمليارات المتدفقة إلى OpenAI وGoogle، لكنه كافٍ لإثبات التقنية.

🎯

اتصال OpenCV

نسب الفريق المؤسس مهم هنا. تشغل OpenCV أنظمة الرؤية الحاسوبية عبر الصناعات. هؤلاء الأشخاص يفهمون أساسيات المعالجة البصرية على مستوى لا تفهمه معظم الشركات الناشئة في مجال فيديو الذكاء الاصطناعي.

قدرة من النص إلى الفيديو قيد التطوير. بمجرد إطلاق ذلك، يصبح عرض القيمة أوضح: صف فيديو مدته 5 دقائق في نص، واحصل على مخرجات متماسكة دون تدهور الجودة إطاراً بإطار الذي يصيب الأدوات الأخرى.

ما التالي

ميزات خارطة الطريق

أعلنت CraftStory عن عدة قدرات قادمة:

  • من النص إلى الفيديو: التوليد من المطالبات بدون فيديو محرك
  • كاميرا متحركة: لقطات بانورامية، تكبير، وتتبع
  • المشي والتحدث: موضوعات تتحرك عبر الفضاء أثناء التحدث

نهج الانتشار ثنائي الاتجاه ليس مجرد حيلة CraftStory. إنه نمط من المرجح أن تعتمده فرق أخرى. بمجرد حل مشكلة "تراكم الأخطاء للأمام"، يصبح التوليد الأطول تحدياً هندسياً بدلاً من عائق أساسي.

⚠️

يركز النموذج 2.0 حالياً على الفيديو المتمحور حول الإنسان. للمشاهد بدون أشخاص، ستظل تريد أدوات محسنة للتوليد البيئي أو المجرد. هذه أداة متخصصة، وليست عامة.

الصورة الأكبر

نشاهد فيديو الذكاء الاصطناعي يمر بمرحلته المراهقة المحرجة. يمكن للنماذج إنتاج مقاطع مذهلة لمدة 10 ثوانٍ، لكن اطلب منها الحفاظ على التماسك عبر دقائق وتنهار. نهج CraftStory ثنائي الاتجاه هو إجابة واحدة لتلك المشكلة.

السؤال الحقيقي: كم من الوقت حتى تعتمد اللاعبين الأكبر هذه التقنية؟ OpenAI وGoogle وRunway لديهم جميعاً الموارد لتنفيذ هياكل مماثلة. ميزة CraftStory هي كونها الأولى في السوق مع توليد طويل الشكل يعمل.

في الوقت الحالي، إذا كنت بحاجة إلى محتوى فيديو متسق متعدد الدقائق بالذكاء الاصطناعي مع مواضيع بشرية، أصبحت CraftStory اللعبة الوحيدة في المدينة. حاجز المدة لم ينكسر بعد، لكن شخصاً ما وضع للتو صدعاً خطيراً فيه.

🚀

جربها

CraftStory Model 2.0 متاح الآن. لم يتم الكشف عن هيكل التسعير علناً، لذا ستحتاج إلى التحقق من موقعهم للعروض الحالية. من النص إلى الفيديو قادم، مما سيجعل المنصة متاحة للمستخدمين بدون محتوى فيديو محرك موجود.

Henry

Henry

متخصص تكنولوجيا إبداعية

متخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

نموذج CraftStory 2.0: كيف يفتح الانتشار ثنائي الاتجاه إمكانية إنشاء مقاطع فيديو بالذكاء الاصطناعي لمدة 5 دقائق