ByteDance Vidi2: এআই যা ভিডিও বোঝে একজন সম্পাদকের মতো
ByteDance এইমাত্র Vidi2 ওপেন-সোর্স করেছে, একটি 12B প্যারামিটার মডেল যা ভিডিও কন্টেন্ট এতটাই ভালোভাবে বোঝে যে ঘন্টার পর ঘন্টার ফুটেজকে স্বয়ংক্রিয়ভাবে পালিশ করা ক্লিপে রূপান্তরিত করে। এটি ইতিমধ্যে TikTok Smart Split চালিত করছে।

সবাই যখন ভিডিও জেনারেশন নিয়ে পাগলপ্রায়, ByteDance নীরবে একটি ভিন্ন সমস্যা সমাধান করেছে: এআইকে একজন অভিজ্ঞ সম্পাদকের মতো ভিডিও বুঝতে শেখানো। Vidi2 ঘন্টার পর ঘন্টার কাঁচা ফুটেজ দেখতে পারে এবং ঠিক যা গুরুত্বপূর্ণ তা বের করতে পারে।
যে সমস্যা নিয়ে কেউ কথা বলে না
এখন আমাদের কাছে অবিশ্বাস্য এআই ভিডিও জেনারেটর আছে। Runway Gen-4.5 মানের চার্টে শীর্ষে। Kling O1 সিঙ্ক্রোনাইজড অডিও তৈরি করে। কিন্তু ভিডিও প্রোডাকশনের গোপন রহস্য হল: বেশিরভাগ সময় যায় সম্পাদনায়, সৃষ্টিতে নয়।
একজন বিবাহ ভিডিওগ্রাফার 5 মিনিটের হাইলাইট রিলের জন্য 8 ঘন্টা শুট করেন। একজন কন্টেন্ট ক্রিয়েটর 60 সেকেন্ডের TikTok তৈরি করতে 45 মিনিট রেকর্ড করেন। একটি এন্টারপ্রাইজ টিমের কাছে SharePoint-এ 200 ঘন্টার প্রশিক্ষণ ফুটেজ চাপা পড়ে আছে।
ভিডিও জেনারেশন শিরোনাম পায়। ভিডিও আন্ডারস্ট্যান্ডিং প্রকৃত কাজ করে।
Vidi2 এই ফাঁকা জায়গা পূরণ করে। এটি আরেকটি জেনারেটর নয়। এটি একটি এআই যা ভিডিও দেখে, কী ঘটছে তা বোঝে এবং সেই কন্টেন্টের সাথে স্কেলে কাজ করতে আপনাকে সাহায্য করে।
Vidi2 প্রকৃতপক্ষে কী করে
ByteDance Vidi2 কে "ভিডিও বোঝা এবং তৈরির জন্য একটি বৃহৎ মাল্টিমোডাল মডেল" হিসেবে বর্ণনা করে। 12 বিলিয়ন প্যারামিটারের এই মডেলটি এতে দক্ষ:
স্থানিক-কালিক গ্রাউন্ডিং
ভিডিওতে যেকোনো বস্তু খুঁজুন এবং সময়ের মধ্য দিয়ে তা ট্র্যাক করুন। শুধু "0:32 এ একটি বিড়াল আছে" নয় বরং "বিড়ালটি 0:32 এ প্রবেश করে, 0:45 এ সোফায় চলে যায় এবং 1:12 এ ফ্রেম ছেড়ে যায়।"
বুদ্ধিমান সম্পাদনা
ফুটেজ বিশ্লেষণ করুন এবং কন্টেন্টের উপর ভিত্তি করে কাট সাজেস্ট করুন। সেরা মুহূর্তগুলো খুঁজুন, দৃশ্যের সীমানা চিহ্নিত করুন, পেসিং বুঝুন।
কন্টেন্ট বিশ্লেষণ
ভিডিওতে কী ঘটছে তা উপযোগী হওয়ার মতো যথেষ্ট বিস্তারিতভাবে বর্ণনা করুন। "দুজন মানুষ কথা বলছে" নয় বরং "ইন্টারভিউ সেগমেন্ট, অতিথি পণ্যের বৈশিষ্ট্য ব্যাখ্যা করছে, 3:45 এ উচ্চ এনগেজমেন্ট মোমেন্ট।"
অবজেক্ট ট্র্যাকিং
ভিডিওর মধ্য দিয়ে অবজেক্টগুলিকে ক্রমাগত "টিউব" হিসেবে ট্র্যাক করুন, এমনকি যখন তারা ফ্রেম ছেড়ে চলে যায় এবং আবার প্রবেশ করে। এটি ইফেক্ট, অপসারণ বা জোর দেওয়ার জন্য সুনির্দিষ্ট নির্বাচন সক্ষম করে।
প্রযুক্তিগত উদ্ভাবন: স্থানিক-কালিক গ্রাউন্ডিং
আগের ভিডিও এআই দুটি মাত্রায় কাজ করত: স্থান (এই ফ্রেমে কী আছে) বা কাল (কখন কিছু ঘটে)। Vidi2 উভয়কে একত্রিত করে যাকে ByteDance "স্থানিক-কালিক গ্রাউন্ডিং" (STG) বলে।
ঐতিহ্যবাহী পদ্ধতি:
- স্থানিক: "গাড়িটি পিক্সেল স্থানাঙ্ক (450, 320) এ আছে"
- কালিক: "একটি গাড়ি টাইমস্ট্যাম্প 0:15 এ দেখা যাচ্ছে"
- ফলাফল: ম্যানুয়াল সম্পর্ক প্রয়োজন এমন বিচ্ছিন্ন তথ্য
Vidi2 STG:
- সম্মিলিত: "লাল গাড়িটি 0:15 এ (450, 320) এ আছে, 0:18 এ (890, 340) এ চলে যায়, 0:22 এ ডানদিকে বের হয়ে যায়"
- ফলাফল: স্থান এবং কালের মধ্য দিয়ে সম্পূর্ণ অবজেক্ট ট্র্যাজেক্টরি
এটি গুরুত্বপূর্ণ কারণ প্রকৃত এডিটিং কাজের জন্য উভয় মাত্রা প্রয়োজন। "বুম মাইক সরান" জানা দরকার কোথায় এটি দেখা যায় (স্থানিক) এবং কত দীর্ঘ (কালিক)। Vidi2 এটিকে একটি একক কোয়েরি হিসেবে সামলায়।
বেঞ্চমার্ক: দৈত্যদের হারানো
এখানে বিষয়টি আকর্ষণীয় হয়ে ওঠে। স্থানিক-কালিক গ্রাউন্ডিংয়ের জন্য ByteDance-এর VUE-STG বেঞ্চমার্কে, Vidi2 Gemini 2.0 Flash এবং GPT-4o উভয়কে ছাড়িয়ে যায়, যদিও উভয়ের চেয়ে কম প্যারামিটার আছে।
সতর্কতা: এই বেঞ্চমার্কগুলি ByteDance তৈরি করেছে। তৃতীয় পক্ষের বেঞ্চমার্কে স্বাধীন যাচাইকরণ এই দাবিগুলিকে শক্তিশালী করবে। তবে, বিশেষায়িত আর্কিটেকচার পদ্ধতিটি যুক্তিসঙ্গত।
বেঞ্চমার্ক ফলাফলগুলি সুপারিশ করে যে ভিডিও বোঝা কাঁচা স্কেলের চেয়ে বিশেষায়িত ডিজাইন থেকে বেশি উপকৃত হয়। ভিডিওর জন্য গোড়া থেকে তৈরি একটি মডেল বৃহত্তর জেনারেল-পারপাস মডেলগুলিকে ছাড়িয়ে যেতে পারে যারা ভিডিওকে ইমেজ বোঝার সম্প্রসারণ হিসেবে ট্রিট করে।
ইতিমধ্যে প্রোডাকশনে: TikTok Smart Split
এটি ফাঁকা কথা নয়। Vidi2 TikTok-এর "Smart Split" ফিচার চালায়, যা:
- ✓লম্বা ভিডিও থেকে স্বয়ংক্রিয়ভাবে হাইলাইট বের করে
- ✓বক্তৃতার সাথে সিঙ্ক্রোনাইজড সাবটাইটেল তৈরি করে
- ✓বিভিন্ন আস্পেক্ট রেশিওর জন্য লেআউট পুনর্গঠন করে
- ✓কন্টেন্টের উপর ভিত্তি করে সর্বোত্তম কাট পয়েন্ট চিহ্নিত করে
লক্ষ লক্ষ ক্রিয়েটর প্রতিদিন Smart Split ব্যবহার করেন। মডেলটি স্কেলে প্রমাণিত, তাত্ত্বিক নয়।
ওপেন সোর্স: নিজে চালান
ByteDance CC BY-NC 4.0 লাইসেন্সের অধীনে GitHub-এ Vidi2 রিলিজ করেছে। এর মানে গবেষণা, শিক্ষা এবং ব্যক্তিগত প্রকল্পের জন্য বিনামূল্যে, তবে বাণিজ্যিক ব্যবহারের জন্য আলাদা লাইসেন্সিং প্রয়োজন। প্রভাব:
ডেভেলপারদের জন্য:
- কাস্টম ভিডিও বিশ্লেষণ পাইপলাইন তৈরি করুন
- বিদ্যমান টুলে বোঝা একীভূত করুন
- নির্দিষ্ট ডোমেনের জন্য ফাইন-টিউন করুন
- স্কেলে কোনো API খরচ নেই
এন্টারপ্রাইজের জন্য:
- সংবেদনশীল ফুটেজ স্থানীয়ভাবে প্রসেস করুন
- মালিকানাধীন এডিটিং ওয়ার্কফ্লো তৈরি করুন
- ভেন্ডর লক-ইন এড়িয়ে চলুন
- অভ্যন্তরীণ কন্টেন্ট টাইপের জন্য কাস্টমাইজ করুন
ওপেন-সোর্স রিলিজটি একটি প্যাটার্ন অনুসরণ করে যা আমরা LTX Video এবং অন্যান্য চীনা এআই ল্যাবের সাথে দেখেছি: পশ্চিমা প্রতিযোগীরা তাদের মালিকানাধীন রাখলেও শক্তিশালী মডেলগুলি খোলামেলাভাবে রিলিজ করা।
ব্যবহারিক প্রয়োগ
আসুন কিছু প্রকৃত ওয়ার্কফ্লোর মধ্য দিয়ে যাই যা Vidi2 সক্ষম করে:
কন্টেন্ট রিপারপোজিং
ইনপুট: 2 ঘন্টার পডকাস্ট রেকর্ডিং আউটপুট: সেরা মুহূর্তগুলির 10টি ছোট ক্লিপ, প্রতিটিতে সঠিক ইন্ট্রো/আউট্রো কাট
মডেলটি আকর্ষক মুহূর্তগুলি চিহ্নিত করে, প্রাকৃতিক কাট পয়েন্ট খুঁজে পায় এবং ক্লিপ বের করে যা স্বতন্ত্র কন্টেন্ট হিসেবে কাজ করে।
প্রশিক্ষণ ভিডিও ম্যানেজমেন্ট
ইনপুট: 500 ঘন্টার কর্পোরেট প্রশিক্ষণ ফুটেজ কোয়েরি: "নতুন CRM ওয়ার্কফ্লো ব্যাখ্যা করে এমন সমস্ত সেগমেন্ট খুঁজুন"
ম্যানুয়াল স্ক্রাবিং বা অবিশ্বস্ত মেটাডেটার উপর নির্ভর করার পরিবর্তে, Vidi2 প্রকৃতপক্ষে দেখে এবং কন্টেন্ট বোঝে।
ক্রীড়া হাইলাইট
ইনপুট: সম্পূর্ণ ম্যাচ রেকর্ডিং আউটপুট: সমস্ত স্কোরিং মুহূর্ত, কাছাকাছি কল এবং উদযাপন সহ হাইলাইট রিল
মডেলটি অর্থপূর্ণ মুহূর্ত চিহ্নিত করতে ক্রীড়া প্রসঙ্গ যথেষ্ট ভালভাবে বোঝে, শুধু নড়াচড়া নয়।
নজরদারি পর্যালোচনা
ইনপুট: 24 ঘন্টার নিরাপত্তা ফুটেজ কোয়েরি: "সন্ধ্যা 6টার পর পাশের দরজা দিয়ে প্রবেশ করা মানুষের সমস্ত উদাহরণ খুঁজুন"
স্থানিক-কালিক গ্রাউন্ডিং মানে সঠিক টাইমস্ট্যাম্প এবং অবস্থান সহ সুনির্দিষ্ট উত্তর।
জেনারেশন মডেলগুলির সাথে কীভাবে তুলনা করে
- বিদ্যমান ফুটেজ সহ কাজ করে
- সম্পাদনার সময় বাঁচায়, জেনারেশনের সময় নয়
- বিশাল ভিডিও লাইব্রেরিতে স্কেল করে
- সৃজনশীল প্রম্পটিং প্রয়োজন নেই
- অবিলম্বে এন্টারপ্রাইজের জন্য ব্যবহারিক
- শূন্য থেকে নতুন কন্টেন্ট তৈরি করে
- সৃজনশীল প্রকাশের টুল
- মার্কেটিং এবং বিজ্ঞাপন প্রয়োগ
- মান দ্রুত বৃদ্ধি পাচ্ছে
- উত্তেজনাপূর্ণ কিন্তু ভিন্ন ব্যবহারের ক্ষেত্র
এগুলি প্রতিযোগী প্রযুক্তি নয়। তারা বিভিন্ন সমস্যা সমাধান করে। একটি সম্পূর্ণ এআই ভিডিও ওয়ার্কফ্লোর উভয় প্রয়োজন: নতুন কন্টেন্ট তৈরির জন্য জেনারেশন, বিদ্যমান কন্টেন্টের সাথে কাজ করার জন্য বোঝা।
বড় চিত্র
ভিডিও বোঝা হল যেখানে এআই "চিত্তাকর্ষক ডেমো" থেকে "দৈনিক টুল" এ চলে যায়। জেনারেশন মনোযোগ পায়। বোঝা কাজ সম্পন্ন করে।
বিবেচনা করুন এটি কী সক্ষম করে:
- প্রতিটি এন্টারপ্রাইজের আর্কাইভে আটকে থাকা ভিডিও কন্টেন্ট আছে
- প্রতিটি ক্রিয়েটর শুটিংয়ের চেয়ে সম্পাদনায় বেশি সময় ব্যয় করেন
- প্রতিটি প্ল্যাটফর্মের উন্নত কন্টেন্ট মডারেশন এবং আবিষ্কার প্রয়োজন
- প্রতিটি গবেষকের কাছে ফুটেজ আছে যা তারা দক্ষতার সাথে বিশ্লেষণ করতে পারে না
Vidi2 এই সমস্ত সমাধান করে। ওপেন-সোর্স রিলিজের মানে এই ক্ষমতাগুলি এখন পর্যাপ্ত কম্পিউট সহ যে কারও কাছে অ্যাক্সেসযোগ্য।
শুরু করা
মডেলটি ডকুমেন্টেশন এবং ডেমো সহ GitHub-এ উপলব্ধ। প্রয়োজনীয়তা:
- সম্পূর্ণ মডেলের জন্য কমপক্ষে 24GB VRAM সহ NVIDIA GPU
- ছোট GPU-এর জন্য কোয়ান্টাইজড সংস্করণ উপলব্ধ
- PyTorch 2.0+ সহ Python 3.10+
দ্রুত শুরু:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"ডকুমেন্টেশন প্রাথমিকভাবে ইংরেজিতে, ByteDance চীনা কোম্পানি হওয়া সত্ত্বেও, যা বৈশ্বিক লক্ষ্য দর্শকদের প্রতিফলিত করে।
ইন্ডাস্ট্রির জন্য এটি কী বোঝায়
এআই ভিডিও ল্যান্ডস্কেপ এখন দুটি স্বতন্ত্র ট্র্যাক আছে:
| ট্র্যাক | নেতারা | ফোকাস | মূল্য |
|---|---|---|---|
| জেনারেশন | Runway, Sora, Veo, Kling | নতুন ভিডিও তৈরি | সৃজনশীল প্রকাশ |
| বোঝা | Vidi2, (অন্যান্য উদীয়মান) | বিদ্যমান ভিডিও বিশ্লেষণ | উৎপাদনশীলতা |
উভয়ই পরিপক্ক হবে। উভয়ই একীভূত হবে। 2026 সালের সম্পূর্ণ এআই ভিডিও স্ট্যাক নির্বিঘ্নে জেনারেট, এডিট এবং বুঝবে।
আপাতত, Vidi2 ভিডিও বোঝার জন্য সবচেয়ে সক্ষম ওপেন-সোর্স অপশন প্রতিনিধিত্ব করে। যদি আপনার বিশ্লেষণ করার জন্য ফুটেজ, স্বয়ংক্রিয় করার জন্য এডিটিং বা সংগঠিত করার জন্য কন্টেন্ট থাকে, এটি অন্বেষণ করার মডেল।
আমার মতামত
আমি ভিডিও প্রসেসিং পাইপলাইন তৈরিতে বছরের পর বছর কাটিয়েছি। Vidi2-এর মতো মডেলের সাথে আগে এবং পরে স্পষ্ট পার্থক্য। কাস্টম কম্পিউটার ভিশন স্ট্যাক, ম্যানুয়াল অ্যানোটেশন এবং ভঙ্গুর হিউরিস্টিক্স প্রয়োজন এমন কাজগুলি এখন একটি প্রম্পট দিয়ে সমাধান করা যায়।
সেরা এআই টুলগুলি মানুষের বিচার প্রতিস্থাপন করে না। তারা ক্লান্তিকর কাজ সরিয়ে দেয় যা মানুষদের স্কেলে বিচার প্রয়োগ করতে বাধা দেয়।
Vidi2 এডিটরদের প্রতিস্থাপন করে না। এটি এডিটরদের এমন ক্ষমতা দেয় যা আগে স্কেলে অসম্ভব ছিল। এবং ওপেন অ্যাক্সেসের সাথে (অ-বাণিজ্যিক ব্যবহারের জন্য), এই ক্ষমতাগুলি অবকাঠামো সেটআপ করতে ইচ্ছুক যে কারও কাছে উপলব্ধ।
ভিডিওর ভবিষ্যৎ শুধু জেনারেশন নয়। এটি বোঝা। এবং সেই ভবিষ্যৎ এখন ওপেন সোর্স।
সূত্র
এই নিবন্ধটি কি সহায়ক ছিল?

Damien
এআই ডেভেলপারলিয়ন থেকে আসা এআই ডেভেলপার যিনি জটিল এমএল ধারণাগুলোকে সহজ রেসিপিতে পরিণত করতে ভালোবাসেন। মডেল ডিবাগিং না করার সময়, তাকে রোন উপত্যকা দিয়ে সাইক্লিং করতে দেখা যায়।
সম্পর্কিত নিবন্ধসমূহ
এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

Kandinsky 5.0: AI ভিডিও জেনারেশনের জন্য রাশিয়ার ওপেন-সোর্স সমাধান
Kandinsky 5.0 Apache 2.0 লাইসেন্সিং সহ কনজিউমার GPUs-এ ১০ সেকেন্ডের ভিডিও জেনারেশন নিয়ে আসে। আমরা অন্বেষণ করি কীভাবে NABLA attention এবং flow matching এটি সম্ভব করে তোলে।

ByteDance Seedance 1.5 Pro: যে মডেল অডিও এবং ভিডিও একসাথে তৈরি করে
ByteDance নেটিভ অডিও-ভিজ্যুয়াল জেনারেশন, সিনেমা-গ্রেড ক্যামেরা কন্ট্রোল এবং বহুভাষিক লিপ-সিঙ্ক সহ Seedance 1.5 Pro প্রকাশ করেছে। CapCut-এ বিনামূল্যে উপলব্ধ।

এআই ভিডিও ২০২৫, সবকিছু পরিবর্তনের বছর
Sora 2 থেকে নেটিভ অডিও পর্যন্ত, বিলিয়ন ডলারের ডিজনি ডিল থেকে ১০০ জনের টিম ট্রিলিয়ন ডলার কোম্পানিকে পরাজিত করা পর্যন্ত, ২০২৫ ছিল সেই বছর যখন এআই ভিডিও বাস্তব হয়ে উঠল। এটি যা ঘটেছে এবং এর অর্থ কী তা এখানে।