Meta Pixel
AlexisAlexis
6 min read
1068 শব্দ

Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান

Kandinsky 5.0 Apache 2.0 লাইসেন্সিং সহ কনজিউমার GPUs-এ ১০ সেকেন্ডের ভিডিও জেনারেশন নিয়ে আসে। আমরা অন্বেষণ করি কীভাবে NABLA attention এবং flow matching এটি সম্ভব করে তোলে।

Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান
AI উদ্ভাবনের ভূগোল পরিবর্তন অব্যাহত রয়েছে। আমেরিকান ল্যাবগুলি ক্রমাগত বৃহত্তর মডেল অনুসরণ করে এবং চীনা কোম্পানিগুলি ওপেন-সোর্স লিডারবোর্ডে আধিপত্য বিস্তার করে, একটি রুশ দল নিরবে যা প্রকাশ করেছে তা হতে পারে এখন পর্যন্ত সবচেয়ে সহজলভ্য AI ভিডিও জেনারেটর: Kandinsky 5.0।

ওপেন-সোর্স ভিডিও পরিবেশে পরিবর্তন

ByteDance যখন তাদের ভিডিও বোঝার মডেল ওপেন-সোর্স করে এবং Tencent HunyuanVideo প্রকাশ করে, আমরা পরিবর্তনের প্রথম ঢেউ দেখেছি। এখন Kandinsky Lab, Sberbank দ্বারা সমর্থিত, মডেলগুলির একটি সম্পূর্ণ পরিবার প্রকাশ করেছে যা যে কেউ চালাতে, পরিবর্তন করতে এবং Apache 2.0 লাইসেন্সের অধীনে বাণিজ্যিকীকরণ করতে পারে।

10s
ভিডিও সময়কাল
12GB
ন্যূনতম VRAM
Apache 2.0
লাইসেন্স

এটি কোনো গবেষণা পূর্বরূপ বা সীমাবদ্ধ API নয়। সম্পূর্ণ ওয়েট, প্রশিক্ষণ কোড এবং ইনফারেন্স পাইপলাইন GitHub এবং Hugging Face-এ উপলব্ধ।

মডেল পরিবার

💡

ডিফিউশন আর্কিটেকচারের প্রসঙ্গের জন্য, diffusion transformers-এ আমাদের গভীর বিশ্লেষণ দেখুন।

Kandinsky 5.0 একটি একক মডেল নয় বরং তিনটির একটি পরিবার:

Video Lite (2B প্যারামিটার)

কনজিউমার হার্ডওয়্যারের জন্য লাইটওয়েট বিকল্প। 768×512 রেজোলিউশনে, 24 fps-এ 5 থেকে 10 সেকেন্ডের ভিডিও তৈরি করে। মেমরি অফলোডিং সহ 12GB VRAM-এ চলে। 16-স্টেপ ডিস্টিল করা ভেরিয়েন্ট H100-এ 35 থেকে 60 সেকেন্ডে একটি 5-সেকেন্ডের ক্লিপ তৈরি করে।

Video Pro (19B প্যারামিটার)

সর্বোচ্চ গুণমানের জন্য সম্পূর্ণ মডেল। 1280×768-এ, 24 fps-এ HD ভিডিও আউটপুট দেয়। ডেটাসেন্টার-শ্রেণীর GPU প্রয়োজন তবে ক্লোজড-সোর্স বিকল্পগুলির সাথে প্রতিযোগিতামূলক ফলাফল প্রদান করে।

একটি 6B প্যারামিটার Image Lite মডেল 1280×768 বা 1024×1024 রেজোলিউশনে স্থির চিত্র তৈরির জন্য পরিবারটি সম্পূর্ণ করে।

প্রযুক্তিগত স্থাপত্য

Kandinsky 5.0-এর ইঞ্জিনিয়ারিং সিদ্ধান্তগুলি বেঞ্চমার্ক তাড়া করার চেয়ে ব্যবহারিক স্থাপনায় ফোকাসকৃত একটি দল প্রকাশ করে।

ভিত্তি: ডিফিউশনের পরিবর্তে Flow Matching

ঐতিহ্যবাহী ডিফিউশন মডেলগুলি ধাপে ধাপে একটি শব্দ-যোগ প্রক্রিয়া উল্টানো শিখে। Flow matching একটি ভিন্ন পদ্ধতি গ্রহণ করে: এটি একটি ক্রমাগত ফ্লো ফিল্ডের মাধ্যমে শব্দ থেকে ছবিতে সরাসরি পথ শিখে। সুবিধাগুলি উল্লেখযোগ্য:

Flow Matching সুবিধা
উন্নত প্রশিক্ষণ স্থিতিশীলতা, দ্রুত কনভার্জেন্স এবং ইনফারেন্স সময়ে আরও পূর্বাভাসযোগ্য জেনারেশন গুণমান।
ট্রেড-অফ
সাবধানে পথ ডিজাইন প্রয়োজন। দলটি সর্বোত্তম পরিবহন পথ ব্যবহার করে যা শব্দ এবং লক্ষ্য বিতরণের মধ্যে দূরত্ব হ্রাস করে।

NABLA: দীর্ঘ ভিডিও সম্ভব করা

প্রকৃত উদ্ভাবন হল NABLA, Neighborhood Adaptive Block-Level Attention-এর সংক্ষিপ্ত রূপ। মানক ট্রান্সফরমার অ্যাটেনশন ক্রম দৈর্ঘ্যের সাথে দ্বিঘাত স্কেল করে। ভিডিওর জন্য, এটি বিপর্যয়কর। 24 fps-এ একটি 10-সেকেন্ডের ক্লিপে 240টি ফ্রেম রয়েছে, প্রতিটিতে হাজার হাজার স্থানিক প্যাচ রয়েছে। সেগুলির সবগুলিতে সম্পূর্ণ অ্যাটেনশন কম্পিউটেশনালভাবে অসাধ্য।

NABLA বিরল অ্যাটেনশন প্যাটার্নের মাধ্যমে এটি সমাধান করে। প্রতিটি ফ্রেমের প্রতিটি প্যাচে মনোযোগ দেওয়ার পরিবর্তে, এটি গণনা ফোকাস করে:

  1. প্রতিটি ফ্রেমের মধ্যে স্থানীয় স্থানিক পাড়া
  2. সংলগ্ন ফ্রেম জুড়ে সাময়িক প্রতিবেশী
  3. দীর্ঘ-পরিসরের সংগতির জন্য শেখা গ্লোবাল অ্যাঙ্কর

ফলাফল হল দ্বিঘাতের পরিবর্তে ভিডিও দৈর্ঘ্যের সাথে প্রায় রৈখিক স্কেলিং। এটিই কনজিউমার হার্ডওয়্যারে 10-সেকেন্ডের জেনারেশনকে সম্ভব করে তোলে।

💡

তুলনার জন্য, বেশিরভাগ প্রতিযোগী মডেল বিশেষায়িত হার্ডওয়্যার ছাড়া 5 সেকেন্ডের চেয়ে দীর্ঘ ভিডিও নিয়ে সংগ্রাম করে।

HunyuanVideo-এর উপর নির্মিত

শুরু থেকে সবকিছু প্রশিক্ষণ দেওয়ার পরিবর্তে, Kandinsky 5.0 Tencent-এর HunyuanVideo প্রকল্প থেকে 3D VAE গ্রহণ করে। এই এনকোডার-ডিকোডার পিক্সেল স্পেস এবং কমপ্যাক্ট লেটেন্ট স্পেসের মধ্যে অনুবাদ পরিচালনা করে যেখানে ডিফিউশন প্রক্রিয়া পরিচালনা করে।

টেক্সট বোঝা আসে Qwen2.5-VL থেকে, একটি ভিশন-ল্যাঙ্গুয়েজ মডেল, CLIP এম্বেডিংগুলির সাথে সিমান্টিক গ্রাউন্ডিংয়ের জন্য মিলিত। এই দ্বৈত-এনকোডার পদ্ধতি মডেলটিকে আক্ষরিক অর্থ এবং প্রম্পট দ্বারা নিহিত ভিজ্যুয়াল স্টাইল উভয়ই বুঝতে দেয়।

পারফরম্যান্স: এটি কোথায় দাঁড়িয়েছে

দলটি Video Lite-কে তার প্যারামিটার শ্রেণীতে ওপেন-সোর্স মডেলগুলির মধ্যে শীর্ষ পারফরমার হিসেবে অবস্থান করে। বেঞ্চমার্কগুলি দেখায়:

মডেলপ্যারামিটারসর্বোচ্চ সময়কালVRAM (5s)
Kandinsky Video Lite2B10 সেকেন্ড12GB
CogVideoX-2B2B6 সেকেন্ড16GB
Open-Sora 1.21.1B16 সেকেন্ড18GB

12GB VRAM প্রয়োজনীয়তা কনজিউমার RTX 3090 এবং 4090 কার্ডে স্থাপনের দরজা খুলে দেয়, একটি উল্লেখযোগ্য সহজলভ্যতার মাইলফলক।

গুণমান তুলনা পরিমাপ করা আরও কঠিন। ব্যবহারকারী প্রতিবেদনগুলি পরামর্শ দেয় যে Kandinsky CogVideoX-এর চেয়ে আরও সামঞ্জস্যপূর্ণ গতি তৈরি করে তবে ফটোরিয়ালিজমে HunyuanVideo থেকে পিছিয়ে আছে। 16-স্টেপ ডিস্টিল মডেল গতির জন্য কিছু সূক্ষ্ম বিবরণ ত্যাগ করে, এমন একটি ট্রেড-অফ যা প্রোটোটাইপিংয়ের জন্য ভালভাবে কাজ করে তবে চূড়ান্ত উৎপাদনের প্রয়োজন পূরণ নাও করতে পারে।

স্থানীয়ভাবে Kandinsky চালানো

প্রকল্পটি ComfyUI নোড এবং স্ট্যান্ডঅ্যালোন স্ক্রিপ্ট সরবরাহ করে। একটি প্রাথমিক টেক্সট-টু-ভিডিও ওয়ার্কফ্লো:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GB কার্ডের জন্য
 
video = model.generate(
    prompt="ভোরে পাহাড়ি হ্রদ, স্থির জল থেকে কুয়াশা উঠছে",
    num_frames=120,  # 24fps-এ 5 সেকেন্ড
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

মেমরি অফলোডিং ইনফারেন্সের সময় CPU এবং GPU-এর মধ্যে মডেল ওয়েট সরিয়ে দেয়। এটি সহজলভ্যতার জন্য গতি বিনিময় করে, ছোট কার্ডে বৃহত্তর মডেল চালানোর অনুমতি দেয়।

Sberbank সংযোগ

Kandinsky Lab Sber AI-এর অধীনে পরিচালনা করে, Sberbank-এর কৃত্রিম বুদ্ধিমত্তা বিভাগ, রাশিয়ার বৃহত্তম ব্যাংক। এই সমর্থন প্রকল্পের পিছনে উল্লেখযোগ্য সম্পদ ব্যাখ্যা করে: মালিকানা ডেটাতে বহু-পর্যায় প্রশিক্ষণ, রিইনফোর্সমেন্ট লার্নিং পোস্ট-ট্রেনিং, এবং একটি সম্পূর্ণ উৎপাদন পাইপলাইন ওপেন-সোর্স করার ইঞ্জিনিয়ারিং প্রচেষ্টা।

ভূরাজনৈতিক প্রসঙ্গ জটিলতা যোগ করে। পশ্চিমা ডেভেলপাররা রুশ-উৎপত্তি মডেল এড়ানোর জন্য প্রাতিষ্ঠানিক চাপের সম্মুখীন হতে পারে। Apache 2.0 লাইসেন্স আইনগতভাবে স্পষ্ট, কিন্তু সাংগঠনিক নীতিগুলি ভিন্ন। স্বতন্ত্র ডেভেলপার এবং ছোট স্টুডিওগুলির জন্য, গণনা সহজ: ভাল প্রযুক্তি হল ভাল প্রযুক্তি।

⚠️

আপনার নির্দিষ্ট এখতিয়ার এবং ব্যবহারের ক্ষেত্রে সর্বদা লাইসেন্সিং এবং রপ্তানি সম্মতি যাচাই করুন।

ব্যবহারিক প্রয়োগ

10-সেকেন্ডের সময়কাল এবং কনজিউমার হার্ডওয়্যার প্রয়োজনীয়তা নির্দিষ্ট ব্যবহারের ক্ষেত্রগুলি খুলে দেয়:

🎬

সামাজিক কন্টেন্ট

TikTok, Reels এবং Shorts-এর জন্য সংক্ষিপ্ত-ফর্ম ভিডিও। API খরচ ছাড়াই দ্রুত পুনরাবৃত্তি।
🎨

ধারণা ভিজ্যুয়ালাইজেশন

পরিচালক এবং প্রযোজকরা ব্যয়বহুল উৎপাদনের আগে দৃশ্যের প্রোটোটাইপ তৈরি করতে পারেন।
🔧

কাস্টম প্রশিক্ষণ

Apache 2.0 লাইসেন্সিং মালিকানা ডেটাসেটে ফাইন-টিউনিং অনুমোদন করে। আপনার ডোমেনের জন্য বিশেষায়িত মডেল তৈরি করুন।
📚

গবেষণা

ওয়েট এবং আর্কিটেকচারে সম্পূর্ণ অ্যাক্সেস ভিডিও জেনারেশন কৌশলগুলির একাডেমিক অধ্যয়ন সক্ষম করে।

এগিয়ে তাকিয়ে

Kandinsky 5.0 একটি বৃহত্তর প্রবণতা প্রতিনিধিত্ব করে: ওপেন এবং ক্লোজড-সোর্স ভিডিও জেনারেশনের মধ্যে ব্যবধান সংকুচিত হচ্ছে। এক বছর আগে, ওপেন মডেলগুলি স্পষ্ট আর্টিফ্যাক্ট সহ সংক্ষিপ্ত, নিম্ন-রেজোলিউশন ক্লিপ তৈরি করত। আজ, কনজিউমার হার্ডওয়্যারে একটি 2B প্যারামিটার মডেল 10-সেকেন্ডের HD ভিডিও তৈরি করে যা 2023 সালে অসম্ভব মনে হত।

প্রতিযোগিতা শেষ হয়নি। Sora 2 এবং Runway Gen-4.5-এর মতো ক্লোজড-সোর্স নেতারা এখনও গুণমান, সময়কাল এবং নিয়ন্ত্রণযোগ্যতায় নেতৃত্ব দিচ্ছে। কিন্তু ভিত্তি বৃদ্ধি পাচ্ছে। অনেক অ্যাপ্লিকেশনের জন্য, ওপেন-সোর্স এখন যথেষ্ট ভাল।

উপসংহার

Kandinsky 5.0 প্রতিটি বেঞ্চমার্কে শীর্ষে নাও থাকতে পারে, তবে এটি যেখানে সবচেয়ে গুরুত্বপূর্ণ সেখানে সফল: বাস্তব মানুষের মালিকানাধীন হার্ডওয়্যারে প্রকৃত ভিডিও জেনারেশন চালানো, এমন একটি লাইসেন্সের অধীনে যা প্রকৃত বাণিজ্যিক ব্যবহারের অনুমতি দেয়। AI ভিডিওকে গণতান্ত্রিক করার প্রতিযোগিতায়, রুশ দল এইমাত্র সমাপ্তি রেখা আরও কাছে নিয়ে এসেছে।

ওপেন-সোর্স ভিডিও জেনারেশন অন্বেষণকারী ডেভেলপারদের জন্য, Kandinsky 5.0 আপনার সংক্ষিপ্ত তালিকায় একটি স্থান প্রাপ্য।

এই নিবন্ধটি কি সহায়ক ছিল?

Alexis

Alexis

এআই ইঞ্জিনিয়ার

লোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।

সম্পর্কিত নিবন্ধসমূহ

এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

ByteDance Vidi2: এআই যা ভিডিও বোঝে একজন সম্পাদকের মতো
এআই ভিডিওভিডিও সম্পাদনা

ByteDance Vidi2: এআই যা ভিডিও বোঝে একজন সম্পাদকের মতো

ByteDance এইমাত্র Vidi2 ওপেন-সোর্স করেছে, একটি 12B প্যারামিটার মডেল যা ভিডিও কন্টেন্ট এতটাই ভালোভাবে বোঝে যে ঘন্টার পর ঘন্টার ফুটেজকে স্বয়ংক্রিয়ভাবে পালিশ করা ক্লিপে রূপান্তরিত করে। এটি ইতিমধ্যে TikTok Smart Split চালিত করছে।

Read
ওপেন-সোর্স AI ভিডিও বিপ্লব: ভোক্তা GPU কি প্রযুক্তি দৈত্যদের সাথে প্রতিযোগিতা করতে পারে?
AI ভিডিওওপেন সোর্স

ওপেন-সোর্স AI ভিডিও বিপ্লব: ভোক্তা GPU কি প্রযুক্তি দৈত্যদের সাথে প্রতিযোগিতা করতে পারে?

ByteDance এবং Tencent সবেমাত্র ওপেন-সোর্স ভিডিও মডেল প্রকাশ করেছে যা ভোক্তা হার্ডওয়্যারে চলে। এটি স্বাধীন সৃষ্টিকারীদের জন্য সবকিছু পরিবর্তন করে।

Read
Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
RunwayWorld Models

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে

Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।

Read

এই নিবন্ধটি কি আপনার ভালো লেগেছে?

আরও অন্তর্দৃষ্টি আবিষ্কার করুন এবং আমাদের সর্বশেষ কন্টেন্ট দিয়ে আপডেট থাকুন।

Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান