Meta Pixel
HenryHenry
5 min read
915 كلمات

Kling 2.6: استنساخ الصوت والتحكم بالحركة يعيدان تعريف إنتاج الفيديو بالذكاء الاصطناعي

يقدم التحديث الأخير من Kuaishou توليداً متزامناً للصوت والصورة، وتدريباً مخصصاً للصوت، والتقاط حركة دقيق قد يغير طريقة تعامل صناع المحتوى مع إنتاج الفيديو بالذكاء الاصطناعي.

Kling 2.6: استنساخ الصوت والتحكم بالحركة يعيدان تعريف إنتاج الفيديو بالذكاء الاصطناعي
ماذا لو استطاعت شخصياتك المُولَّدة بالذكاء الاصطناعي أن تتحدث بصوتك، وترقص بحركاتك، وتفعل كل ذلك في عملية توليد واحدة؟ Kling 2.6 جعل هذا حقيقة واقعة.

أطلقت Kuaishou نسخة Kling Video 2.6 في الثالث من ديسمبر، وهذا ليس مجرد تحديث تدريجي عادي. هذا الإصدار يغير جذرياً نظرتنا لإنتاج الفيديو بالذكاء الاصطناعي من خلال تقديم ما سعت إليه الصناعة لسنوات: التوليد المتزامن للصوت والصورة.

ثورة المسار الواحد

إليكم سير العمل التقليدي لفيديو الذكاء الاصطناعي: توليد فيديو صامت، ثم الإسراع لإضافة الصوت بشكل منفصل. نأمل ألا يكون تزامن الشفاه محرجاً جداً. نتمنى أن تتطابق المؤثرات الصوتية مع الحركة. إنه عمل مرهق، يستهلك الوقت، وغالباً ما ينتج ذلك الشعور الغريب بعدم التطابق بين الصوت والصورة الذي تعلمنا جميعاً أن نتقبله.

Kling 2.6 يتخلص من سير العمل هذا تماماً.

💡

مع التوليد المتزامن للصوت والصورة، تصف ما تريده في أمر واحد، والنموذج ينتج الفيديو والكلام والمؤثرات الصوتية والأجواء المحيطة معاً. لا حاجة لمسار صوتي منفصل. لا تزامن يدوي. توليد واحد، كل شيء مضمن.

يدعم النموذج مجموعة مثيرة للإعجاب من أنواع الصوت:

7+
أنواع الصوت
10s
الحد الأقصى للمدة
1080p
الدقة

من الكلام والحوار إلى السرد والغناء والراب والمشاهد الصوتية المحيطة، يستطيع Kling 2.6 توليد أنواع صوتية منفردة أو مجمعة. يمكن للشخصية أن تتحدث بينما تغرد العصافير في الخلفية وتتردد أصداء الخطوات على الحجارة، كل ذلك يُنتج في مسار واحد.

استنساخ الصوت: صوتك على شفاههم

التدريب المخصص للصوت يخطف الأضواء. ارفع عينة من صوتك، درّب النموذج، وفجأة تتحدث شخصياتك المُولَّدة بالذكاء الاصطناعي بخصائصك الصوتية.

الإمكانات الإبداعية
مثالي لصناع المحتوى الذين يريدون أصواتاً مميزة لشخصياتهم، ومقدمي البودكاست الذين يجربون مضيفين افتراضيين، أو الموسيقيين الذين يستكشفون الأصوات الاصطناعية.
الاعتبارات الأخلاقية
يثير استنساخ الصوت مخاوف واضحة حول الموافقة وسوء الاستخدام. ستحتاج Kuaishou إلى أنظمة تحقق قوية لمنع نسخ الأصوات غير المصرح به.

التطبيقات العملية مذهلة. تخيل صانع محتوى على يوتيوب ينشئ فيديوهات توضيحية متحركة حيث تتحدث شخصيته الكرتونية بصوته الحقيقي بشكل طبيعي. أو مطور ألعاب يختبر حوارات الشخصيات دون الاستعانة بممثلين صوتيين في المراحل الأولى. الحاجز بين رؤيتك الإبداعية والمحتوى القابل للتنفيذ أصبح أرق.

حالياً، يدعم النظام توليد الصوت بالصينية والإنجليزية. من المرجح أن تتبع لغات أخرى مع نضوج التقنية.

التحكم بالحركة يصبح جدياً

Kling 2.6 لا يحسّن الصوت فقط. إنه يعزز بشكل كبير التقاط الحركة أيضاً. نظام الحركة المحدّث يعالج مشكلتين مستمرتين تعاني منهما فيديوهات الذكاء الاصطناعي:

وضوح اليدين

تقليل الضبابية والتشوهات في حركات اليدين. الأصابع لم تعد تندمج في كتل غير واضحة أثناء الإيماءات المعقدة.

😊

دقة تعابير الوجه

تزامن شفاه أكثر طبيعية وتقديم تعابير أفضل. الشخصيات تبدو فعلاً وكأنها تنطق الكلمات، وليس فقط تحرك أفواهها عشوائياً.

يمكنك رفع مراجع حركية تتراوح بين 3-30 ثانية وإنشاء مقاطع ممتدة مع تعديل تفاصيل المشهد عبر الأوامر النصية. صوّر نفسك وأنت ترقص، ارفع المرجع، وولّد شخصية ذكاء اصطناعي تؤدي نفس الحركات في بيئة مختلفة تماماً.

💡

لمزيد من المعلومات حول كيفية تعامل نماذج الفيديو بالذكاء الاصطناعي مع الحركة والاتساق الزمني، راجع تحليلنا المعمق لمحولات الانتشار.

المشهد التنافسي

يواجه Kling 2.6 منافسة شرسة. Google Veo 3 وOpenAI Sora 2 وRunway Gen-4.5 جميعها تقدم توليد صوت أصلي الآن. لكن Kuaishou تمتلك سلاحاً سرياً: Kwai.

Kwai، المماثل لـ TikTok من حيث الحجم، يوفر لـ Kuaishou مزايا ضخمة في بيانات التدريب. مليارات الفيديوهات القصيرة مع صوت متزامن تمنح النموذج شيئاً لا يستطيع المنافسون تكراره بسهولة: أمثلة واقعية على كيفية دمج البشر للصوت والموسيقى والحركة في المحتوى الإبداعي.

مقارنة أسعار واجهة البرمجة

المزودالتكلفة لكل ثانيةملاحظات
Kling 2.6$0.07-$0.14عبر Fal.ai وArtlist وMedia.io
Runway Gen-4.5~$0.25واجهة برمجة مباشرة
Sora 2~$0.20رصيد مضمن مع ChatGPT Plus

التسعير التنافسي لـ Kling يضعه كخيار اقتصادي لصناع المحتوى ذوي الإنتاج العالي.

ماذا يعني هذا لصناع المحتوى

نهج التوليد المتزامن ليس مثيراً تقنياً فحسب، بل هو ثورة في سير العمل. انظر إلى الوقت الموفر:

تقليدي

سير العمل القديم

توليد فيديو صامت (2-5 دقائق) ← إنشاء الصوت منفصلاً (5-10 دقائق) ← المزامنة والتعديل (10-20 دقيقة) ← إصلاح عدم التطابق (???)

Kling 2.6

سير العمل الجديد

اكتب أمراً مع وصف الصوت ← ولّد ← انتهى

لصناع المحتوى الذين ينتجون كميات كبيرة من المحتوى القصير، هذا التحسن في الكفاءة يتضاعف بشكل كبير. ما كان يستغرق ساعة أصبح يستغرق دقائق.

الجانب الآخر

لا شيء مثالي. المقاطع التي مدتها عشر ثوانٍ تبقى السقف الأقصى. الرقصات المعقدة أحياناً تنتج نتائج غير طبيعية. استنساخ الصوت يتطلب جودة عينة دقيقة لتجنب التشوهات الآلية.

وهناك السؤال الأوسع حول الأصالة الإبداعية. عندما يستطيع الذكاء الاصطناعي استنساخ صوتك وتكرار حركاتك، ماذا يبقى فريداً فيك في العملية الإبداعية؟

⚠️

تقنية استنساخ الصوت تتطلب استخداماً مسؤولاً. تأكد دائماً من الحصول على الموافقة المناسبة قبل استنساخ صوت أي شخص، وكن على دراية بسياسات المنصات المتعلقة بالوسائط الاصطناعية.

نظرة للمستقبل

Kling 2.6 يُظهر إلى أين يتجه فيديو الذكاء الاصطناعي: توليد متعدد الوسائط متكامل حيث يندمج الفيديو والصوت والحركة في وسيط إبداعي موحد. السؤال ليس ما إذا كانت هذه التقنية ستصبح معياراً، بل مدى سرعة مطابقة المنافسين لهذه القدرات.

لصناع المحتوى المستعدين للتجريب، الآن هو الوقت المناسب للاستكشاف. الأدوات متاحة، والتسعير معقول، والإمكانيات الإبداعية جديدة حقاً. فقط تذكر: القوة التوليدية العظيمة تأتي مع مسؤولية عظيمة.

💡

قراءات ذات صلة: تعرف على كيف يُحوّل توليد الصوت الأصلي الصناعة في نهاية عصر الصمت، أو قارن بين الأدوات الرائدة في تحليلنا Sora 2 مقابل Runway مقابل Veo 3.

Kling 2.6 متاح عبر منصة Kuaishou ومزودي خدمات خارجيين بما في ذلك Fal.ai وArtlist وMedia.io. الوصول لواجهة البرمجة يبدأ من حوالي 0.07 دولار لكل ثانية من الفيديو المُولَّد.

هل كان هذا المقال مفيداً؟

Henry

Henry

متخصص تكنولوجيا إبداعية

متخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

Kling 2.6: استنساخ الصوت والتحكم بالحركة يعيدان تعريف إنتاج الفيديو بالذكاء الاصطناعي