Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান
Kandinsky 5.0 Apache 2.0 লাইসেন্সিং সহ কনজিউমার GPUs-এ ১০ সেকেন্ডের ভিডিও জেনারেশন নিয়ে আসে। আমরা অন্বেষণ করি কীভাবে NABLA attention এবং flow matching এটি সম্ভব করে তোলে।

ওপেন-সোর্স ভিডিও পরিবেশে পরিবর্তন
ByteDance যখন তাদের ভিডিও বোঝার মডেল ওপেন-সোর্স করে এবং Tencent HunyuanVideo প্রকাশ করে, আমরা পরিবর্তনের প্রথম ঢেউ দেখেছি। এখন Kandinsky Lab, Sberbank দ্বারা সমর্থিত, মডেলগুলির একটি সম্পূর্ণ পরিবার প্রকাশ করেছে যা যে কেউ চালাতে, পরিবর্তন করতে এবং Apache 2.0 লাইসেন্সের অধীনে বাণিজ্যিকীকরণ করতে পারে।
এটি কোনো গবেষণা পূর্বরূপ বা সীমাবদ্ধ API নয়। সম্পূর্ণ ওয়েট, প্রশিক্ষণ কোড এবং ইনফারেন্স পাইপলাইন GitHub এবং Hugging Face-এ উপলব্ধ।
মডেল পরিবার
ডিফিউশন আর্কিটেকচারের প্রসঙ্গের জন্য, diffusion transformers-এ আমাদের গভীর বিশ্লেষণ দেখুন।
Kandinsky 5.0 একটি একক মডেল নয় বরং তিনটির একটি পরিবার:
Video Lite (2B প্যারামিটার)
কনজিউমার হার্ডওয়্যারের জন্য লাইটওয়েট বিকল্প। 768×512 রেজোলিউশনে, 24 fps-এ 5 থেকে 10 সেকেন্ডের ভিডিও তৈরি করে। মেমরি অফলোডিং সহ 12GB VRAM-এ চলে। 16-স্টেপ ডিস্টিল করা ভেরিয়েন্ট H100-এ 35 থেকে 60 সেকেন্ডে একটি 5-সেকেন্ডের ক্লিপ তৈরি করে।
Video Pro (19B প্যারামিটার)
সর্বোচ্চ গুণমানের জন্য সম্পূর্ণ মডেল। 1280×768-এ, 24 fps-এ HD ভিডিও আউটপুট দেয়। ডেটাসেন্টার-শ্রেণীর GPU প্রয়োজন তবে ক্লোজড-সোর্স বিকল্পগুলির সাথে প্রতিযোগিতামূলক ফলাফল প্রদান করে।
একটি 6B প্যারামিটার Image Lite মডেল 1280×768 বা 1024×1024 রেজোলিউশনে স্থির চিত্র তৈরির জন্য পরিবারটি সম্পূর্ণ করে।
প্রযুক্তিগত স্থাপত্য
Kandinsky 5.0-এর ইঞ্জিনিয়ারিং সিদ্ধান্তগুলি বেঞ্চমার্ক তাড়া করার চেয়ে ব্যবহারিক স্থাপনায় ফোকাসকৃত একটি দল প্রকাশ করে।
ভিত্তি: ডিফিউশনের পরিবর্তে Flow Matching
ঐতিহ্যবাহী ডিফিউশন মডেলগুলি ধাপে ধাপে একটি শব্দ-যোগ প্রক্রিয়া উল্টানো শিখে। Flow matching একটি ভিন্ন পদ্ধতি গ্রহণ করে: এটি একটি ক্রমাগত ফ্লো ফিল্ডের মাধ্যমে শব্দ থেকে ছবিতে সরাসরি পথ শিখে। সুবিধাগুলি উল্লেখযোগ্য:
NABLA: দীর্ঘ ভিডিও সম্ভব করা
প্রকৃত উদ্ভাবন হল NABLA, Neighborhood Adaptive Block-Level Attention-এর সংক্ষিপ্ত রূপ। মানক ট্রান্সফরমার অ্যাটেনশন ক্রম দৈর্ঘ্যের সাথে দ্বিঘাত স্কেল করে। ভিডিওর জন্য, এটি বিপর্যয়কর। 24 fps-এ একটি 10-সেকেন্ডের ক্লিপে 240টি ফ্রেম রয়েছে, প্রতিটিতে হাজার হাজার স্থানিক প্যাচ রয়েছে। সেগুলির সবগুলিতে সম্পূর্ণ অ্যাটেনশন কম্পিউটেশনালভাবে অসাধ্য।
NABLA বিরল অ্যাটেনশন প্যাটার্নের মাধ্যমে এটি সমাধান করে। প্রতিটি ফ্রেমের প্রতিটি প্যাচে মনোযোগ দেওয়ার পরিবর্তে, এটি গণনা ফোকাস করে:
- প্রতিটি ফ্রেমের মধ্যে স্থানীয় স্থানিক পাড়া
- সংলগ্ন ফ্রেম জুড়ে সাময়িক প্রতিবেশী
- দীর্ঘ-পরিসরের সংগতির জন্য শেখা গ্লোবাল অ্যাঙ্কর
ফলাফল হল দ্বিঘাতের পরিবর্তে ভিডিও দৈর্ঘ্যের সাথে প্রায় রৈখিক স্কেলিং। এটিই কনজিউমার হার্ডওয়্যারে 10-সেকেন্ডের জেনারেশনকে সম্ভব করে তোলে।
তুলনার জন্য, বেশিরভাগ প্রতিযোগী মডেল বিশেষায়িত হার্ডওয়্যার ছাড়া 5 সেকেন্ডের চেয়ে দীর্ঘ ভিডিও নিয়ে সংগ্রাম করে।
HunyuanVideo-এর উপর নির্মিত
শুরু থেকে সবকিছু প্রশিক্ষণ দেওয়ার পরিবর্তে, Kandinsky 5.0 Tencent-এর HunyuanVideo প্রকল্প থেকে 3D VAE গ্রহণ করে। এই এনকোডার-ডিকোডার পিক্সেল স্পেস এবং কমপ্যাক্ট লেটেন্ট স্পেসের মধ্যে অনুবাদ পরিচালনা করে যেখানে ডিফিউশন প্রক্রিয়া পরিচালনা করে।
টেক্সট বোঝা আসে Qwen2.5-VL থেকে, একটি ভিশন-ল্যাঙ্গুয়েজ মডেল, CLIP এম্বেডিংগুলির সাথে সিমান্টিক গ্রাউন্ডিংয়ের জন্য মিলিত। এই দ্বৈত-এনকোডার পদ্ধতি মডেলটিকে আক্ষরিক অর্থ এবং প্রম্পট দ্বারা নিহিত ভিজ্যুয়াল স্টাইল উভয়ই বুঝতে দেয়।
পারফরম্যান্স: এটি কোথায় দাঁড়িয়েছে
দলটি Video Lite-কে তার প্যারামিটার শ্রেণীতে ওপেন-সোর্স মডেলগুলির মধ্যে শীর্ষ পারফরমার হিসেবে অবস্থান করে। বেঞ্চমার্কগুলি দেখায়:
| মডেল | প্যারামিটার | সর্বোচ্চ সময়কাল | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 সেকেন্ড | 12GB |
| CogVideoX-2B | 2B | 6 সেকেন্ড | 16GB |
| Open-Sora 1.2 | 1.1B | 16 সেকেন্ড | 18GB |
12GB VRAM প্রয়োজনীয়তা কনজিউমার RTX 3090 এবং 4090 কার্ডে স্থাপনের দরজা খুলে দেয়, একটি উল্লেখযোগ্য সহজলভ্যতার মাইলফলক।
গুণমান তুলনা পরিমাপ করা আরও কঠিন। ব্যবহারকারী প্রতিবেদনগুলি পরামর্শ দেয় যে Kandinsky CogVideoX-এর চেয়ে আরও সামঞ্জস্যপূর্ণ গতি তৈরি করে তবে ফটোরিয়ালিজমে HunyuanVideo থেকে পিছিয়ে আছে। 16-স্টেপ ডিস্টিল মডেল গতির জন্য কিছু সূক্ষ্ম বিবরণ ত্যাগ করে, এমন একটি ট্রেড-অফ যা প্রোটোটাইপিংয়ের জন্য ভালভাবে কাজ করে তবে চূড়ান্ত উৎপাদনের প্রয়োজন পূরণ নাও করতে পারে।
স্থানীয়ভাবে Kandinsky চালানো
প্রকল্পটি ComfyUI নোড এবং স্ট্যান্ডঅ্যালোন স্ক্রিপ্ট সরবরাহ করে। একটি প্রাথমিক টেক্সট-টু-ভিডিও ওয়ার্কফ্লো:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # 12GB কার্ডের জন্য
video = model.generate(
prompt="ভোরে পাহাড়ি হ্রদ, স্থির জল থেকে কুয়াশা উঠছে",
num_frames=120, # 24fps-এ 5 সেকেন্ড
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")মেমরি অফলোডিং ইনফারেন্সের সময় CPU এবং GPU-এর মধ্যে মডেল ওয়েট সরিয়ে দেয়। এটি সহজলভ্যতার জন্য গতি বিনিময় করে, ছোট কার্ডে বৃহত্তর মডেল চালানোর অনুমতি দেয়।
Sberbank সংযোগ
Kandinsky Lab Sber AI-এর অধীনে পরিচালনা করে, Sberbank-এর কৃত্রিম বুদ্ধিমত্তা বিভাগ, রাশিয়ার বৃহত্তম ব্যাংক। এই সমর্থন প্রকল্পের পিছনে উল্লেখযোগ্য সম্পদ ব্যাখ্যা করে: মালিকানা ডেটাতে বহু-পর্যায় প্রশিক্ষণ, রিইনফোর্সমেন্ট লার্নিং পোস্ট-ট্রেনিং, এবং একটি সম্পূর্ণ উৎপাদন পাইপলাইন ওপেন-সোর্স করার ইঞ্জিনিয়ারিং প্রচেষ্টা।
ভূরাজনৈতিক প্রসঙ্গ জটিলতা যোগ করে। পশ্চিমা ডেভেলপাররা রুশ-উৎপত্তি মডেল এড়ানোর জন্য প্রাতিষ্ঠানিক চাপের সম্মুখীন হতে পারে। Apache 2.0 লাইসেন্স আইনগতভাবে স্পষ্ট, কিন্তু সাংগঠনিক নীতিগুলি ভিন্ন। স্বতন্ত্র ডেভেলপার এবং ছোট স্টুডিওগুলির জন্য, গণনা সহজ: ভাল প্রযুক্তি হল ভাল প্রযুক্তি।
আপনার নির্দিষ্ট এখতিয়ার এবং ব্যবহারের ক্ষেত্রে সর্বদা লাইসেন্সিং এবং রপ্তানি সম্মতি যাচাই করুন।
ব্যবহারিক প্রয়োগ
10-সেকেন্ডের সময়কাল এবং কনজিউমার হার্ডওয়্যার প্রয়োজনীয়তা নির্দিষ্ট ব্যবহারের ক্ষেত্রগুলি খুলে দেয়:
সামাজিক কন্টেন্ট
ধারণা ভিজ্যুয়ালাইজেশন
কাস্টম প্রশিক্ষণ
গবেষণা
এগিয়ে তাকিয়ে
Kandinsky 5.0 একটি বৃহত্তর প্রবণতা প্রতিনিধিত্ব করে: ওপেন এবং ক্লোজড-সোর্স ভিডিও জেনারেশনের মধ্যে ব্যবধান সংকুচিত হচ্ছে। এক বছর আগে, ওপেন মডেলগুলি স্পষ্ট আর্টিফ্যাক্ট সহ সংক্ষিপ্ত, নিম্ন-রেজোলিউশন ক্লিপ তৈরি করত। আজ, কনজিউমার হার্ডওয়্যারে একটি 2B প্যারামিটার মডেল 10-সেকেন্ডের HD ভিডিও তৈরি করে যা 2023 সালে অসম্ভব মনে হত।
প্রতিযোগিতা শেষ হয়নি। Sora 2 এবং Runway Gen-4.5-এর মতো ক্লোজড-সোর্স নেতারা এখনও গুণমান, সময়কাল এবং নিয়ন্ত্রণযোগ্যতায় নেতৃত্ব দিচ্ছে। কিন্তু ভিত্তি বৃদ্ধি পাচ্ছে। অনেক অ্যাপ্লিকেশনের জন্য, ওপেন-সোর্স এখন যথেষ্ট ভাল।
উপসংহার
Kandinsky 5.0 প্রতিটি বেঞ্চমার্কে শীর্ষে নাও থাকতে পারে, তবে এটি যেখানে সবচেয়ে গুরুত্বপূর্ণ সেখানে সফল: বাস্তব মানুষের মালিকানাধীন হার্ডওয়্যারে প্রকৃত ভিডিও জেনারেশন চালানো, এমন একটি লাইসেন্সের অধীনে যা প্রকৃত বাণিজ্যিক ব্যবহারের অনুমতি দেয়। AI ভিডিওকে গণতান্ত্রিক করার প্রতিযোগিতায়, রুশ দল এইমাত্র সমাপ্তি রেখা আরও কাছে নিয়ে এসেছে।
ওপেন-সোর্স ভিডিও জেনারেশন অন্বেষণকারী ডেভেলপারদের জন্য, Kandinsky 5.0 আপনার সংক্ষিপ্ত তালিকায় একটি স্থান প্রাপ্য।
এই নিবন্ধটি কি সহায়ক ছিল?

Alexis
এআই ইঞ্জিনিয়ারলোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।
সম্পর্কিত নিবন্ধসমূহ
এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

ByteDance Vidi2: এআই যা ভিডিও বোঝে একজন সম্পাদকের মতো
ByteDance এইমাত্র Vidi2 ওপেন-সোর্স করেছে, একটি 12B প্যারামিটার মডেল যা ভিডিও কন্টেন্ট এতটাই ভালোভাবে বোঝে যে ঘন্টার পর ঘন্টার ফুটেজকে স্বয়ংক্রিয়ভাবে পালিশ করা ক্লিপে রূপান্তরিত করে। এটি ইতিমধ্যে TikTok Smart Split চালিত করছে।

ওপেন-সোর্স AI ভিডিও বিপ্লব: ভোক্তা GPU কি প্রযুক্তি দৈত্যদের সাথে প্রতিযোগিতা করতে পারে?
ByteDance এবং Tencent সবেমাত্র ওপেন-সোর্স ভিডিও মডেল প্রকাশ করেছে যা ভোক্তা হার্ডওয়্যারে চলে। এটি স্বাধীন সৃষ্টিকারীদের জন্য সবকিছু পরিবর্তন করে।

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।