Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান

AI উদ্ভাবনের ভূগোল পরিবর্তন অব্যাহত রয়েছে। আমেরিকান ল্যাবগুলি ক্রমাগত বৃহত্তর মডেল অনুসরণ করে এবং চীনা কোম্পানিগুলি ওপেন-সোর্স লিডারবোর্ডে আধিপত্য বিস্তার করে, একটি রুশ দল নিরবে যা প্রকাশ করেছে তা হতে পারে এখন পর্যন্ত সবচেয়ে সহজলভ্য AI ভিডিও জেনারেটর: Kandinsky 5.0।

ওপেন-সোর্স ভিডিও পরিবেশে পরিবর্তন

ByteDance যখন তাদের ভিডিও বোঝার মডেল ওপেন-সোর্স করে এবং Tencent HunyuanVideo প্রকাশ করে, আমরা পরিবর্তনের প্রথম ঢেউ দেখেছি। এখন Kandinsky Lab, Sberbank দ্বারা সমর্থিত, মডেলগুলির একটি সম্পূর্ণ পরিবার প্রকাশ করেছে যা যে কেউ চালাতে, পরিবর্তন করতে এবং Apache 2.0 লাইসেন্সের অধীনে বাণিজ্যিকীকরণ করতে পারে।

10s

ভিডিও সময়কাল

12GB

ন্যূনতম VRAM

Apache 2.0

লাইসেন্স

এটি কোনো গবেষণা পূর্বরূপ বা সীমাবদ্ধ API নয়। সম্পূর্ণ ওয়েট, প্রশিক্ষণ কোড এবং ইনফারেন্স পাইপলাইন GitHub এবং Hugging Face-এ উপলব্ধ।

মডেল পরিবার

💡

ডিফিউশন আর্কিটেকচারের প্রসঙ্গের জন্য, diffusion transformers-এ আমাদের গভীর বিশ্লেষণ দেখুন।

Kandinsky 5.0 একটি একক মডেল নয় বরং তিনটির একটি পরিবার:

Video Lite (2B প্যারামিটার)

কনজিউমার হার্ডওয়্যারের জন্য লাইটওয়েট বিকল্প। 768×512 রেজোলিউশনে, 24 fps-এ 5 থেকে 10 সেকেন্ডের ভিডিও তৈরি করে। মেমরি অফলোডিং সহ 12GB VRAM-এ চলে। 16-স্টেপ ডিস্টিল করা ভেরিয়েন্ট H100-এ 35 থেকে 60 সেকেন্ডে একটি 5-সেকেন্ডের ক্লিপ তৈরি করে।

Video Pro (19B প্যারামিটার)

সর্বোচ্চ গুণমানের জন্য সম্পূর্ণ মডেল। 1280×768-এ, 24 fps-এ HD ভিডিও আউটপুট দেয়। ডেটাসেন্টার-শ্রেণীর GPU প্রয়োজন তবে ক্লোজড-সোর্স বিকল্পগুলির সাথে প্রতিযোগিতামূলক ফলাফল প্রদান করে।

একটি 6B প্যারামিটার Image Lite মডেল 1280×768 বা 1024×1024 রেজোলিউশনে স্থির চিত্র তৈরির জন্য পরিবারটি সম্পূর্ণ করে।

প্রযুক্তিগত স্থাপত্য

Kandinsky 5.0-এর ইঞ্জিনিয়ারিং সিদ্ধান্তগুলি বেঞ্চমার্ক তাড়া করার চেয়ে ব্যবহারিক স্থাপনায় ফোকাসকৃত একটি দল প্রকাশ করে।

ভিত্তি: ডিফিউশনের পরিবর্তে Flow Matching

ঐতিহ্যবাহী ডিফিউশন মডেলগুলি ধাপে ধাপে একটি শব্দ-যোগ প্রক্রিয়া উল্টানো শিখে। Flow matching একটি ভিন্ন পদ্ধতি গ্রহণ করে: এটি একটি ক্রমাগত ফ্লো ফিল্ডের মাধ্যমে শব্দ থেকে ছবিতে সরাসরি পথ শিখে। সুবিধাগুলি উল্লেখযোগ্য:

✓Flow Matching সুবিধা

উন্নত প্রশিক্ষণ স্থিতিশীলতা, দ্রুত কনভার্জেন্স এবং ইনফারেন্স সময়ে আরও পূর্বাভাসযোগ্য জেনারেশন গুণমান।

✗ট্রেড-অফ

সাবধানে পথ ডিজাইন প্রয়োজন। দলটি সর্বোত্তম পরিবহন পথ ব্যবহার করে যা শব্দ এবং লক্ষ্য বিতরণের মধ্যে দূরত্ব হ্রাস করে।

NABLA: দীর্ঘ ভিডিও সম্ভব করা

প্রকৃত উদ্ভাবন হল NABLA, Neighborhood Adaptive Block-Level Attention-এর সংক্ষিপ্ত রূপ। মানক ট্রান্সফরমার অ্যাটেনশন ক্রম দৈর্ঘ্যের সাথে দ্বিঘাত স্কেল করে। ভিডিওর জন্য, এটি বিপর্যয়কর। 24 fps-এ একটি 10-সেকেন্ডের ক্লিপে 240টি ফ্রেম রয়েছে, প্রতিটিতে হাজার হাজার স্থানিক প্যাচ রয়েছে। সেগুলির সবগুলিতে সম্পূর্ণ অ্যাটেনশন কম্পিউটেশনালভাবে অসাধ্য।

NABLA বিরল অ্যাটেনশন প্যাটার্নের মাধ্যমে এটি সমাধান করে। প্রতিটি ফ্রেমের প্রতিটি প্যাচে মনোযোগ দেওয়ার পরিবর্তে, এটি গণনা ফোকাস করে:

প্রতিটি ফ্রেমের মধ্যে স্থানীয় স্থানিক পাড়া
সংলগ্ন ফ্রেম জুড়ে সাময়িক প্রতিবেশী
দীর্ঘ-পরিসরের সংগতির জন্য শেখা গ্লোবাল অ্যাঙ্কর

ফলাফল হল দ্বিঘাতের পরিবর্তে ভিডিও দৈর্ঘ্যের সাথে প্রায় রৈখিক স্কেলিং। এটিই কনজিউমার হার্ডওয়্যারে 10-সেকেন্ডের জেনারেশনকে সম্ভব করে তোলে।

💡

তুলনার জন্য, বেশিরভাগ প্রতিযোগী মডেল বিশেষায়িত হার্ডওয়্যার ছাড়া 5 সেকেন্ডের চেয়ে দীর্ঘ ভিডিও নিয়ে সংগ্রাম করে।

HunyuanVideo-এর উপর নির্মিত

শুরু থেকে সবকিছু প্রশিক্ষণ দেওয়ার পরিবর্তে, Kandinsky 5.0 Tencent-এর HunyuanVideo প্রকল্প থেকে 3D VAE গ্রহণ করে। এই এনকোডার-ডিকোডার পিক্সেল স্পেস এবং কমপ্যাক্ট লেটেন্ট স্পেসের মধ্যে অনুবাদ পরিচালনা করে যেখানে ডিফিউশন প্রক্রিয়া পরিচালনা করে।

টেক্সট বোঝা আসে Qwen2.5-VL থেকে, একটি ভিশন-ল্যাঙ্গুয়েজ মডেল, CLIP এম্বেডিংগুলির সাথে সিমান্টিক গ্রাউন্ডিংয়ের জন্য মিলিত। এই দ্বৈত-এনকোডার পদ্ধতি মডেলটিকে আক্ষরিক অর্থ এবং প্রম্পট দ্বারা নিহিত ভিজ্যুয়াল স্টাইল উভয়ই বুঝতে দেয়।

পারফরম্যান্স: এটি কোথায় দাঁড়িয়েছে

দলটি Video Lite-কে তার প্যারামিটার শ্রেণীতে ওপেন-সোর্স মডেলগুলির মধ্যে শীর্ষ পারফরমার হিসেবে অবস্থান করে। বেঞ্চমার্কগুলি দেখায়:

মডেল	প্যারামিটার	সর্বোচ্চ সময়কাল	VRAM (5s)
Kandinsky Video Lite	2B	10 সেকেন্ড	12GB
CogVideoX-2B	2B	6 সেকেন্ড	16GB
Open-Sora 1.2	1.1B	16 সেকেন্ড	18GB

12GB VRAM প্রয়োজনীয়তা কনজিউমার RTX 3090 এবং 4090 কার্ডে স্থাপনের দরজা খুলে দেয়, একটি উল্লেখযোগ্য সহজলভ্যতার মাইলফলক।

গুণমান তুলনা পরিমাপ করা আরও কঠিন। ব্যবহারকারী প্রতিবেদনগুলি পরামর্শ দেয় যে Kandinsky CogVideoX-এর চেয়ে আরও সামঞ্জস্যপূর্ণ গতি তৈরি করে তবে ফটোরিয়ালিজমে HunyuanVideo থেকে পিছিয়ে আছে। 16-স্টেপ ডিস্টিল মডেল গতির জন্য কিছু সূক্ষ্ম বিবরণ ত্যাগ করে, এমন একটি ট্রেড-অফ যা প্রোটোটাইপিংয়ের জন্য ভালভাবে কাজ করে তবে চূড়ান্ত উৎপাদনের প্রয়োজন পূরণ নাও করতে পারে।

স্থানীয়ভাবে Kandinsky চালানো

প্রকল্পটি ComfyUI নোড এবং স্ট্যান্ডঅ্যালোন স্ক্রিপ্ট সরবরাহ করে। একটি প্রাথমিক টেক্সট-টু-ভিডিও ওয়ার্কফ্লো:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GB কার্ডের জন্য
 
video = model.generate(
    prompt="ভোরে পাহাড়ি হ্রদ, স্থির জল থেকে কুয়াশা উঠছে",
    num_frames=120,  # 24fps-এ 5 সেকেন্ড
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

মেমরি অফলোডিং ইনফারেন্সের সময় CPU এবং GPU-এর মধ্যে মডেল ওয়েট সরিয়ে দেয়। এটি সহজলভ্যতার জন্য গতি বিনিময় করে, ছোট কার্ডে বৃহত্তর মডেল চালানোর অনুমতি দেয়।

Sberbank সংযোগ

Kandinsky Lab Sber AI-এর অধীনে পরিচালনা করে, Sberbank-এর কৃত্রিম বুদ্ধিমত্তা বিভাগ, রাশিয়ার বৃহত্তম ব্যাংক। এই সমর্থন প্রকল্পের পিছনে উল্লেখযোগ্য সম্পদ ব্যাখ্যা করে: মালিকানা ডেটাতে বহু-পর্যায় প্রশিক্ষণ, রিইনফোর্সমেন্ট লার্নিং পোস্ট-ট্রেনিং, এবং একটি সম্পূর্ণ উৎপাদন পাইপলাইন ওপেন-সোর্স করার ইঞ্জিনিয়ারিং প্রচেষ্টা।

ভূরাজনৈতিক প্রসঙ্গ জটিলতা যোগ করে। পশ্চিমা ডেভেলপাররা রুশ-উৎপত্তি মডেল এড়ানোর জন্য প্রাতিষ্ঠানিক চাপের সম্মুখীন হতে পারে। Apache 2.0 লাইসেন্স আইনগতভাবে স্পষ্ট, কিন্তু সাংগঠনিক নীতিগুলি ভিন্ন। স্বতন্ত্র ডেভেলপার এবং ছোট স্টুডিওগুলির জন্য, গণনা সহজ: ভাল প্রযুক্তি হল ভাল প্রযুক্তি।

⚠️

আপনার নির্দিষ্ট এখতিয়ার এবং ব্যবহারের ক্ষেত্রে সর্বদা লাইসেন্সিং এবং রপ্তানি সম্মতি যাচাই করুন।

ব্যবহারিক প্রয়োগ

10-সেকেন্ডের সময়কাল এবং কনজিউমার হার্ডওয়্যার প্রয়োজনীয়তা নির্দিষ্ট ব্যবহারের ক্ষেত্রগুলি খুলে দেয়:

🎬

সামাজিক কন্টেন্ট

TikTok, Reels এবং Shorts-এর জন্য সংক্ষিপ্ত-ফর্ম ভিডিও। API খরচ ছাড়াই দ্রুত পুনরাবৃত্তি।

🎨

ধারণা ভিজ্যুয়ালাইজেশন

পরিচালক এবং প্রযোজকরা ব্যয়বহুল উৎপাদনের আগে দৃশ্যের প্রোটোটাইপ তৈরি করতে পারেন।

🔧

কাস্টম প্রশিক্ষণ

Apache 2.0 লাইসেন্সিং মালিকানা ডেটাসেটে ফাইন-টিউনিং অনুমোদন করে। আপনার ডোমেনের জন্য বিশেষায়িত মডেল তৈরি করুন।

📚

গবেষণা

ওয়েট এবং আর্কিটেকচারে সম্পূর্ণ অ্যাক্সেস ভিডিও জেনারেশন কৌশলগুলির একাডেমিক অধ্যয়ন সক্ষম করে।

এগিয়ে তাকিয়ে

Kandinsky 5.0 একটি বৃহত্তর প্রবণতা প্রতিনিধিত্ব করে: ওপেন এবং ক্লোজড-সোর্স ভিডিও জেনারেশনের মধ্যে ব্যবধান সংকুচিত হচ্ছে। এক বছর আগে, ওপেন মডেলগুলি স্পষ্ট আর্টিফ্যাক্ট সহ সংক্ষিপ্ত, নিম্ন-রেজোলিউশন ক্লিপ তৈরি করত। আজ, কনজিউমার হার্ডওয়্যারে একটি 2B প্যারামিটার মডেল 10-সেকেন্ডের HD ভিডিও তৈরি করে যা 2023 সালে অসম্ভব মনে হত।

প্রতিযোগিতা শেষ হয়নি। Sora 2 এবং Runway Gen-4.5-এর মতো ক্লোজড-সোর্স নেতারা এখনও গুণমান, সময়কাল এবং নিয়ন্ত্রণযোগ্যতায় নেতৃত্ব দিচ্ছে। কিন্তু ভিত্তি বৃদ্ধি পাচ্ছে। অনেক অ্যাপ্লিকেশনের জন্য, ওপেন-সোর্স এখন যথেষ্ট ভাল।

সম্পদ

উপসংহার

Kandinsky 5.0 প্রতিটি বেঞ্চমার্কে শীর্ষে নাও থাকতে পারে, তবে এটি যেখানে সবচেয়ে গুরুত্বপূর্ণ সেখানে সফল: বাস্তব মানুষের মালিকানাধীন হার্ডওয়্যারে প্রকৃত ভিডিও জেনারেশন চালানো, এমন একটি লাইসেন্সের অধীনে যা প্রকৃত বাণিজ্যিক ব্যবহারের অনুমতি দেয়। AI ভিডিওকে গণতান্ত্রিক করার প্রতিযোগিতায়, রুশ দল এইমাত্র সমাপ্তি রেখা আরও কাছে নিয়ে এসেছে।

ওপেন-সোর্স ভিডিও জেনারেশন অন্বেষণকারী ডেভেলপারদের জন্য, Kandinsky 5.0 আপনার সংক্ষিপ্ত তালিকায় একটি স্থান প্রাপ্য।