Kling 2.6: استنساخ الصوت والتحكم بالحركة يعيدان تعريف إنتاج الفيديو بالذكاء الاصطناعي
يقدم التحديث الأخير من Kuaishou توليداً متزامناً للصوت والصورة، وتدريباً مخصصاً للصوت، والتقاط حركة دقيق قد يغير طريقة تعامل صناع المحتوى مع إنتاج الفيديو بالذكاء الاصطناعي.

أطلقت Kuaishou نسخة Kling Video 2.6 في الثالث من ديسمبر، وهذا ليس مجرد تحديث تدريجي عادي. هذا الإصدار يغير جذرياً نظرتنا لإنتاج الفيديو بالذكاء الاصطناعي من خلال تقديم ما سعت إليه الصناعة لسنوات: التوليد المتزامن للصوت والصورة.
ثورة المسار الواحد
إليكم سير العمل التقليدي لفيديو الذكاء الاصطناعي: توليد فيديو صامت، ثم الإسراع لإضافة الصوت بشكل منفصل. نأمل ألا يكون تزامن الشفاه محرجاً جداً. نتمنى أن تتطابق المؤثرات الصوتية مع الحركة. إنه عمل مرهق، يستهلك الوقت، وغالباً ما ينتج ذلك الشعور الغريب بعدم التطابق بين الصوت والصورة الذي تعلمنا جميعاً أن نتقبله.
Kling 2.6 يتخلص من سير العمل هذا تماماً.
مع التوليد المتزامن للصوت والصورة، تصف ما تريده في أمر واحد، والنموذج ينتج الفيديو والكلام والمؤثرات الصوتية والأجواء المحيطة معاً. لا حاجة لمسار صوتي منفصل. لا تزامن يدوي. توليد واحد، كل شيء مضمن.
يدعم النموذج مجموعة مثيرة للإعجاب من أنواع الصوت:
من الكلام والحوار إلى السرد والغناء والراب والمشاهد الصوتية المحيطة، يستطيع Kling 2.6 توليد أنواع صوتية منفردة أو مجمعة. يمكن للشخصية أن تتحدث بينما تغرد العصافير في الخلفية وتتردد أصداء الخطوات على الحجارة، كل ذلك يُنتج في مسار واحد.
استنساخ الصوت: صوتك على شفاههم
التدريب المخصص للصوت يخطف الأضواء. ارفع عينة من صوتك، درّب النموذج، وفجأة تتحدث شخصياتك المُولَّدة بالذكاء الاصطناعي بخصائصك الصوتية.
التطبيقات العملية مذهلة. تخيل صانع محتوى على يوتيوب ينشئ فيديوهات توضيحية متحركة حيث تتحدث شخصيته الكرتونية بصوته الحقيقي بشكل طبيعي. أو مطور ألعاب يختبر حوارات الشخصيات دون الاستعانة بممثلين صوتيين في المراحل الأولى. الحاجز بين رؤيتك الإبداعية والمحتوى القابل للتنفيذ أصبح أرق.
حالياً، يدعم النظام توليد الصوت بالصينية والإنجليزية. من المرجح أن تتبع لغات أخرى مع نضوج التقنية.
التحكم بالحركة يصبح جدياً
Kling 2.6 لا يحسّن الصوت فقط. إنه يعزز بشكل كبير التقاط الحركة أيضاً. نظام الحركة المحدّث يعالج مشكلتين مستمرتين تعاني منهما فيديوهات الذكاء الاصطناعي:
وضوح اليدين
تقليل الضبابية والتشوهات في حركات اليدين. الأصابع لم تعد تندمج في كتل غير واضحة أثناء الإيماءات المعقدة.
دقة تعابير الوجه
تزامن شفاه أكثر طبيعية وتقديم تعابير أفضل. الشخصيات تبدو فعلاً وكأنها تنطق الكلمات، وليس فقط تحرك أفواهها عشوائياً.
يمكنك رفع مراجع حركية تتراوح بين 3-30 ثانية وإنشاء مقاطع ممتدة مع تعديل تفاصيل المشهد عبر الأوامر النصية. صوّر نفسك وأنت ترقص، ارفع المرجع، وولّد شخصية ذكاء اصطناعي تؤدي نفس الحركات في بيئة مختلفة تماماً.
لمزيد من المعلومات حول كيفية تعامل نماذج الفيديو بالذكاء الاصطناعي مع الحركة والاتساق الزمني، راجع تحليلنا المعمق لمحولات الانتشار.
المشهد التنافسي
يواجه Kling 2.6 منافسة شرسة. Google Veo 3 وOpenAI Sora 2 وRunway Gen-4.5 جميعها تقدم توليد صوت أصلي الآن. لكن Kuaishou تمتلك سلاحاً سرياً: Kwai.
Kwai، المماثل لـ TikTok من حيث الحجم، يوفر لـ Kuaishou مزايا ضخمة في بيانات التدريب. مليارات الفيديوهات القصيرة مع صوت متزامن تمنح النموذج شيئاً لا يستطيع المنافسون تكراره بسهولة: أمثلة واقعية على كيفية دمج البشر للصوت والموسيقى والحركة في المحتوى الإبداعي.
مقارنة أسعار واجهة البرمجة
| المزود | التكلفة لكل ثانية | ملاحظات |
|---|---|---|
| Kling 2.6 | $0.07-$0.14 | عبر Fal.ai وArtlist وMedia.io |
| Runway Gen-4.5 | ~$0.25 | واجهة برمجة مباشرة |
| Sora 2 | ~$0.20 | رصيد مضمن مع ChatGPT Plus |
التسعير التنافسي لـ Kling يضعه كخيار اقتصادي لصناع المحتوى ذوي الإنتاج العالي.
ماذا يعني هذا لصناع المحتوى
نهج التوليد المتزامن ليس مثيراً تقنياً فحسب، بل هو ثورة في سير العمل. انظر إلى الوقت الموفر:
سير العمل القديم
توليد فيديو صامت (2-5 دقائق) ← إنشاء الصوت منفصلاً (5-10 دقائق) ← المزامنة والتعديل (10-20 دقيقة) ← إصلاح عدم التطابق (???)
سير العمل الجديد
اكتب أمراً مع وصف الصوت ← ولّد ← انتهى
لصناع المحتوى الذين ينتجون كميات كبيرة من المحتوى القصير، هذا التحسن في الكفاءة يتضاعف بشكل كبير. ما كان يستغرق ساعة أصبح يستغرق دقائق.
الجانب الآخر
لا شيء مثالي. المقاطع التي مدتها عشر ثوانٍ تبقى السقف الأقصى. الرقصات المعقدة أحياناً تنتج نتائج غير طبيعية. استنساخ الصوت يتطلب جودة عينة دقيقة لتجنب التشوهات الآلية.
وهناك السؤال الأوسع حول الأصالة الإبداعية. عندما يستطيع الذكاء الاصطناعي استنساخ صوتك وتكرار حركاتك، ماذا يبقى فريداً فيك في العملية الإبداعية؟
تقنية استنساخ الصوت تتطلب استخداماً مسؤولاً. تأكد دائماً من الحصول على الموافقة المناسبة قبل استنساخ صوت أي شخص، وكن على دراية بسياسات المنصات المتعلقة بالوسائط الاصطناعية.
نظرة للمستقبل
Kling 2.6 يُظهر إلى أين يتجه فيديو الذكاء الاصطناعي: توليد متعدد الوسائط متكامل حيث يندمج الفيديو والصوت والحركة في وسيط إبداعي موحد. السؤال ليس ما إذا كانت هذه التقنية ستصبح معياراً، بل مدى سرعة مطابقة المنافسين لهذه القدرات.
لصناع المحتوى المستعدين للتجريب، الآن هو الوقت المناسب للاستكشاف. الأدوات متاحة، والتسعير معقول، والإمكانيات الإبداعية جديدة حقاً. فقط تذكر: القوة التوليدية العظيمة تأتي مع مسؤولية عظيمة.
قراءات ذات صلة: تعرف على كيف يُحوّل توليد الصوت الأصلي الصناعة في نهاية عصر الصمت، أو قارن بين الأدوات الرائدة في تحليلنا Sora 2 مقابل Runway مقابل Veo 3.
Kling 2.6 متاح عبر منصة Kuaishou ومزودي خدمات خارجيين بما في ذلك Fal.ai وArtlist وMedia.io. الوصول لواجهة البرمجة يبدأ من حوالي 0.07 دولار لكل ثانية من الفيديو المُولَّد.
هل كان هذا المقال مفيداً؟

Henry
متخصص تكنولوجيا إبداعيةمتخصص تكنولوجيا إبداعية من لوزان يستكشف التقاء الذكاء الاصطناعي بالفن. يجري تجارب على النماذج التوليدية بين جلسات الموسيقى الإلكترونية.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

يوتيوب يدمج Veo 3 Fast في Shorts: توليد فيديوهات بالذكاء الاصطناعي مجاناً لـ 2.5 مليار مستخدم
جوجل تدمج نموذج Veo 3 Fast مباشرة في YouTube Shorts، مقدمة توليد فيديوهات من النص مع الصوت مجاناً للمبدعين حول العالم. إليكم ما يعنيه هذا للمنصة ولإتاحة فيديوهات الذكاء الاصطناعي.

بيكا 2.5: إضفاء الطابع الديمقراطي على الفيديو بالذكاء الاصطناعي من خلال السرعة والسعر والأدوات الإبداعية
تطلق شركة بيكا لابز الإصدار 2.5، الذي يجمع بين التوليد الأسرع والفيزياء المحسّنة والأدوات الإبداعية مثل Pikaframes وPikaffects لجعل الفيديو بالذكاء الاصطناعي في متناول الجميع.

ByteDance Seedance 1.5 Pro: النموذج الذي يولد الصوت والفيديو معاً
تطلق ByteDance نموذج Seedance 1.5 Pro مع توليد صوتي بصري أصلي، وضوابط كاميرا سينمائية، ومزامنة شفاه متعددة اللغات. متاح مجاناً على CapCut.