CraftStory মডেল 2.0: কীভাবে দ্বিমুখী ডিফিউশন 5-মিনিটের AI ভিডিও আনলক করে
Sora 2 যখন 25 সেকেন্ডে সীমাবদ্ধ, CraftStory এমন একটি সিস্টেম চালু করেছে যা সুসংগত 5-মিনিটের ভিডিও তৈরি করে। রহস্য? দ্বিমুখী সীমাবদ্ধতা সহ একাধিক ডিফিউশন ইঞ্জিন সমান্তরালভাবে চালানো।

AI ভিডিওতে বড় সমস্যা? সময়কাল। Sora 2 25 সেকেন্ডে সীমাবদ্ধ। Runway এবং Pika প্রায় 10 সেকেন্ডের কাছাকাছি ঘোরাফেরা করে। CraftStory এসে বলল "আমার বিয়ার ধরুন": 5-মিনিটের সুসংগত ভিডিও। এর পেছনের কৌশলটি সত্যিই চতুর।
সময়কালের সমস্যা যা কেউ সমাধান করেনি
বর্তমান AI ভিডিও মডেলগুলির সাথে এটাই: তারা স্প্রিন্টার, ম্যারাথন দৌড়বিদ নয়। আট সেকেন্ডের চমৎকার ফুটেজ তৈরি করুন, তারপর এটি বাড়ানোর চেষ্টা করুন, এবং আপনি টেলিফোন খেলার ভিজ্যুয়াল সমতুল্য পাবেন। ত্রুটিগুলি জমা হয়। চরিত্রগুলি সরে যায়। পুরো জিনিসটি ভেঙে পড়ে।
ঐতিহ্যগত পদ্ধতি এভাবে কাজ করে: একটি অংশ তৈরি করুন, পরবর্তী অংশের জন্য শেষ কয়েকটি ফ্রেম প্রসঙ্গ হিসাবে ব্যবহার করুন, তাদের একসাথে সেলাই করুন। সমস্যা? ত্রুটিগুলি জমা হয়। প্রথম অংশে সামান্য অদ্ভুত হাতের অবস্থান পঞ্চম অংশে একটি অদ্ভুত দাগ হয়ে যায়।
CraftStory OpenCV এর পেছনের দল দ্বারা প্রতিষ্ঠিত হয়েছিল, কম্পিউটার ভিশন লাইব্রেরি যা আপনি কার্যত প্রতিটি ভিশন সিস্টেমে ব্যবহার করেছেন। তাদের CEO Victor Erukhimov Itseez এর সহ-প্রতিষ্ঠাতা ছিলেন, একটি কম্পিউটার ভিশন স্টার্টআপ যা Intel 2016 সালে অধিগ্রহণ করেছিল।
দ্বিমুখী ডিফিউশন: স্থাপত্য উদ্ভাবন
CraftStory এর সমাধান সাধারণ পদ্ধতিকে উল্টে দেয়। ক্রমাগত তৈরি করা এবং সেরার আশা করার পরিবর্তে, তারা সম্পূর্ণ ভিডিও টাইমলাইন জুড়ে একই সাথে একাধিক ছোট ডিফিউশন ইঞ্জিন চালায়।
দ্বিমুখী সীমাবদ্ধতা
মূল অন্তর্দৃষ্টি: "ভিডিওর পরবর্তী অংশ ভিডিওর পূর্ববর্তী অংশকেও প্রভাবিত করতে পারে," Erukhimov ব্যাখ্যা করেন। "এবং এটি বেশ গুরুত্বপূর্ণ, কারণ আপনি যদি এটি একের পর এক করেন, তাহলে প্রথম অংশে যে ত্রুটি দেখা দেয় তা দ্বিতীয় অংশে প্রচারিত হয়, এবং তারপর এটি জমা হয়।"
এটিকে একটি উপন্যাস লেখার বনাম এর রূপরেখা তৈরি করার মতো মনে করুন। ক্রমিক তৈরি করা হল পৃষ্ঠা এক লেখা, তারপর পৃষ্ঠা দুই, তারপর পৃষ্ঠা তিন, ফিরে যাওয়ার কোন ক্ষমতা ছাড়াই। CraftStory এর পদ্ধতি হল একটি রূপরেখা থাকার মতো যেখানে অধ্যায় দশ অধ্যায় দুইতে কী ঘটতে হবে তা জানাতে পারে।
ঐতিহ্যগত ক্রমিক
- সেগমেন্ট A তৈরি করুন
- B শুরু করতে A এর শেষ ব্যবহার করুন
- C শুরু করতে B এর শেষ ব্যবহার করুন
- আশা করুন কিছু জমা হবে না
- সেলাই পয়েন্টে আঙ্গুল ক্রস করুন
দ্বিমুখী সমান্তরাল
- সব সেগমেন্ট একই সাথে প্রক্রিয়া করুন
- প্রতিটি সেগমেন্ট তার প্রতিবেশীদের সীমাবদ্ধ করে
- প্রাথমিক সেগমেন্ট পরবর্তীগুলি দ্বারা প্রভাবিত
- ত্রুটিগুলি টাইমলাইন জুড়ে স্ব-সংশোধন করে
- স্থানীয় সুসংগতি, কোন সেলাই নেই
মডেল 2.0 আসলে কীভাবে কাজ করে
বর্তমানে, CraftStory Model 2.0 একটি ভিডিও-টু-ভিডিও সিস্টেম। আপনি একটি চিত্র এবং একটি ড্রাইভিং ভিডিও প্রদান করেন, এবং এটি একটি আউটপুট তৈরি করে যেখানে আপনার চিত্রের ব্যক্তি ড্রাইভিং ভিডিও থেকে গতি সম্পাদন করে।
- ✓একটি রেফারেন্স চিত্র আপলোড করুন (আপনার বিষয়)
- ✓একটি ড্রাইভিং ভিডিও প্রদান করুন (গতি টেমপ্লেট)
- ✓মডেল পারফরম্যান্স সংশ্লেষণ করে
- ○টেক্সট-টু-ভিডিও ভবিষ্যত আপডেটে আসছে
লিপ-সিঙ্ক সিস্টেম আলাদা। এটিকে একটি স্ক্রিপ্ট বা অডিও ট্র্যাক দিন, এবং এটি মিলের মুখের নড়াচড়া তৈরি করে। একটি পৃথক অঙ্গভঙ্গি সারিবদ্ধকরণ অ্যালগরিদম বক্তৃতার ছন্দ এবং আবেগজনক স্বর সহ শরীরের ভাষা সিঙ্ক্রোনাইজ করে। ফলাফল? ভিডিও যেখানে ব্যক্তি আসলে সেই শব্দগুলি বলছে বলে মনে হয়, শুধু তাদের চোয়াল নাড়ানো নয়।
CraftStory মডেলের জন্য বিশেষভাবে শ্যুট করা মালিকানাধীন উচ্চ-ফ্রেম-রেট ফুটেজে প্রশিক্ষিত হয়েছিল। স্ট্যান্ডার্ড 30fps YouTube ক্লিপগুলিতে আঙ্গুলের মতো সূক্ষ্ম বিবরণের জন্য খুব বেশি মোশন ব্লার রয়েছে। তারা পরিষ্কার প্রশিক্ষণ ডেটার জন্য উচ্চতর ফ্রেম রেটে অভিনেতাদের ক্যাপচার করতে স্টুডিও ভাড়া করেছে।
আউটপুট: আপনি আসলে কী পান
- 5 মিনিট পর্যন্ত অবিচ্ছিন্ন ভিডিও
- 480p এবং 720p নেটিভ রেজোলিউশন
- 720p 1080p পর্যন্ত আপস্কেলযোগ্য
- ল্যান্ডস্কেপ এবং পোর্ট্রেট ফর্ম্যাট
- সিঙ্ক্রোনাইজড লিপ মুভমেন্ট
- প্রাকৃতিক অঙ্গভঙ্গি সারিবদ্ধকরণ
- শুধুমাত্র ভিডিও-টু-ভিডিও (এখনও কোন টেক্সট-টু-ভিডিও নেই)
- ড্রাইভিং ভিডিও ইনপুট প্রয়োজন
- কম রেজোলিউশনে 30 সেকেন্ডের জন্য প্রায় 15 মিনিট
- বর্তমানে স্ট্যাটিক ক্যামেরা (মুভিং ক্যামেরা আসছে)
একটি কম-রেজোলিউশন 30-সেকেন্ড ক্লিপের জন্য তৈরি করতে প্রায় 15 মিনিট সময় লাগে। এটি কিছু মডেল যে প্রায় তাত্ক্ষণিক তৈরির অফার করে তার চেয়ে ধীর, কিন্তু ট্রেড-অফ হল সুসংগত দীর্ঘ-ফর্ম আউটপুট বরং সুন্দর খণ্ডগুলি যা সংযুক্ত হয় না।
এটি কেন সৃষ্টিকর্তাদের জন্য গুরুত্বপূর্ণ
5-মিনিটের বাধা নির্বিচারে নয়। এটি সেই সীমা যেখানে AI ভিডিও প্রকৃত বিষয়বস্তুর জন্য দরকারী হয়ে ওঠে।
সোশ্যাল ক্লিপ
TikTok স্নিপেট এবং বিজ্ঞাপনের জন্য ভাল, কিন্তু সীমিত গল্প বলা
সংক্ষিপ্ত ব্যাখ্যাকারী
একটি দ্রুত পণ্য ডেমো বা ধারণা চিত্রণের জন্য যথেষ্ট
প্রকৃত বিষয়বস্তু
YouTube টিউটোরিয়াল, প্রশিক্ষণ ভিডিও, উপস্থাপনা, বর্ণনামূলক বিষয়বস্তু
দীর্ঘ ফর্ম
সম্পূর্ণ পর্ব, তথ্যচিত্র, শিক্ষামূলক কোর্স
বেশিরভাগ ব্যবসায়িক ভিডিও সামগ্রী 2-5 মিনিট পরিসরে থাকে। পণ্য ডেমো। প্রশিক্ষণ মডিউল। ব্যাখ্যাকারী ভিডিও। অভ্যন্তরীণ যোগাযোগ। এখানেই CraftStory পেশাদার ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক হয়ে ওঠে।
যে ব্যবহারের ক্ষেত্রগুলি খোলে:
- সর্বত্র সামঞ্জস্যপূর্ণ উপস্থাপক সহ পণ্য টিউটোরিয়াল
- প্রশিক্ষণ ভিডিও যা প্রতিভা সময়সূচী প্রয়োজন হয় না
- স্কেলে ব্যক্তিগতকৃত ভিডিও বার্তা
- ভার্চুয়াল প্রশিক্ষক সহ শিক্ষামূলক বিষয়বস্তু
- তৈরি মুখপাত্র সহ কর্পোরেট যোগাযোগ
প্রতিযোগিতামূলক ল্যান্ডস্কেপ
CraftStory Andrew Filev এর নেতৃত্বে $2 মিলিয়ন সিড ফান্ডিং সংগ্রহ করেছে, Wrike এবং Zencoder এর প্রতিষ্ঠাতা। এটি OpenAI এবং Google এ প্রবাহিত বিলিয়নের তুলনায় শালীন, কিন্তু প্রযুক্তি প্রমাণ করার জন্য যথেষ্ট।
OpenCV সংযোগ
প্রতিষ্ঠাতা দলের পরিচয় এখানে গুরুত্বপূর্ণ। OpenCV শিল্প জুড়ে কম্পিউটার ভিশন সিস্টেম পাওয়ার করে। এই লোকেরা ভিজ্যুয়াল প্রসেসিংর মৌলিক বিষয়গুলি এমন স্তরে বোঝে যা বেশিরভাগ AI ভিডিও স্টার্টআপ বোঝে না।
টেক্সট-টু-ভিডিও ক্ষমতা উন্নয়নে রয়েছে। একবার এটি চালু হলে, মূল্য প্রস্তাব আরও স্পষ্ট হয়ে ওঠে: টেক্সটে একটি 5-মিনিটের ভিডিও বর্ণনা করুন, ফ্রেম-বাই-ফ্রেম গুণমান অবনতি ছাড়াই সুসংগত আউটপুট পান যা অন্যান্য সরঞ্জামগুলিকে জর্জরিত করে।
পরবর্তী কী
রোডম্যাপ বৈশিষ্ট্য▼
CraftStory বেশ কয়েকটি আসন্ন ক্ষমতা ঘোষণা করেছে:
- টেক্সট-টু-ভিডিও: ড্রাইভিং ভিডিও ছাড়াই প্রম্পট থেকে তৈরি করুন
- মুভিং ক্যামেরা: প্যান, জুম এবং ট্র্যাকিং শট
- ওয়াক-এন্ড-টক: বিষয়গুলি যা কথা বলার সময় স্থান দিয়ে চলে
দ্বিমুখী ডিফিউশন পদ্ধতি শুধু একটি CraftStory কৌশল নয়। এটি একটি প্যাটার্ন যা অন্যান্য দল সম্ভবত গ্রহণ করবে। একবার আপনি "ত্রুটিগুলি এগিয়ে জমা হয়" সমস্যা সমাধান করলে, দীর্ঘ তৈরি করা একটি মৌলিক বাধার পরিবর্তে একটি প্রকৌশল চ্যালেঞ্জ হয়ে ওঠে।
মডেল 2.0 বর্তমানে মানব-কেন্দ্রিক ভিডিওতে মনোনিবেশ করছে। মানুষ ছাড়া দৃশ্যের জন্য, আপনি এখনও পরিবেশগত বা বিমূর্ত তৈরির জন্য অপ্টিমাইজ করা সরঞ্জাম চাইবেন। এটি একটি বিশেষজ্ঞ সরঞ্জাম, সাধারণবাদী নয়।
বড় ছবি
আমরা AI ভিডিওকে তার বিব্রতকর কিশোর পর্যায়ের মধ্য দিয়ে যেতে দেখছি। মডেলগুলি অত্যাশ্চর্য 10-সেকেন্ডের ক্লিপ তৈরি করতে পারে, কিন্তু তাদের মিনিট জুড়ে সুসংগতি বজায় রাখতে বলুন এবং তারা ভেঙে পড়ে। CraftStory এর দ্বিমুখী পদ্ধতি সেই সমস্যার একটি উত্তর।
আসল প্রশ্ন: কতক্ষণ পর্যন্ত এই কৌশল বড় খেলোয়াড়রা গ্রহণ করবে? OpenAI, Google এবং Runway সবার কাছে অনুরূপ আর্কিটেকচার বাস্তবায়নের সংস্থান রয়েছে। CraftStory এর সুবিধা হল কর্মরত দীর্ঘ-ফর্ম তৈরির সাথে বাজারে প্রথম।
এখনই, যদি আপনার মানব বিষয় সহ সামঞ্জস্যপূর্ণ বহু-মিনিট AI ভিডিও সামগ্রীর প্রয়োজন হয়, CraftStory শহরে একমাত্র খেলা হয়ে উঠেছে। সময়কালের বাধা এখনও ভাঙেনি, কিন্তু কেউ এতে একটি গুরুতর ফাটল ফেলেছে।
চেষ্টা করুন
CraftStory Model 2.0 এখন উপলব্ধ। মূল্যের কাঠামো প্রকাশ্যে বিস্তারিত করা হয়নি, তাই আপনাকে বর্তমান অফারগুলির জন্য তাদের সাইট পরীক্ষা করতে হবে। টেক্সট-টু-ভিডিও আসছে, যা বিদ্যমান ড্রাইভিং ভিডিও সামগ্রী ছাড়া ব্যবহারকারীদের জন্য প্ল্যাটফর্মকে অ্যাক্সেসযোগ্য করে তুলবে।

Henry
ক্রিয়েটিভ টেকনোলজিস্টলোজান থেকে আসা ক্রিয়েটিভ টেকনোলজিস্ট যিনি এআই এবং শিল্পের সংযোগস্থল অন্বেষণ করেন। ইলেকট্রনিক মিউজিক সেশনের মধ্যে জেনারেটিভ মডেল নিয়ে পরীক্ষা করেন।