ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র
DeepMind Genie থেকে AMI Labs পর্যন্ত, বিশ্ব মডেল এমন AI এর ভিত্তি হয়ে উঠছে যা সত্যিকারের পদার্থবিজ্ঞানকে বোঝে। $500B গেমিং বাজার সেই জায়গা হতে পারে যেখানে তারা প্রথম নিজেদের প্রমাণ করে।

যখন Yann LeCun Meta থেকে চলে যাওয়ার ঘোষণা দিলেন এবং €500 মিলিয়ন অর্থায়নে AMI Labs চালু করলেন, তখন তিনি এমন কিছু প্রকাশ করলেন যা অনেক গবেষকরা বছরের পর বছর ধরে চুপচাপ বিশ্বাস করে আসছেন। বড় ভাষা মডেল, তাদের সব চিত্তাকর্ষক ক্ষমতা সত্ত্বেও, কৃত্রিম সাধারণ বুদ্ধিমত্তার পথে একটি মৃত প্রান্ত প্রতিনিধিত্ব করে। তারা বাস্তবতা বোঝা ছাড়াই টোকেন পূর্বাভাস দেয়।
বিকল্প কি? বিশ্ব মডেল। এমন সিস্টেম যা শিখে যে ভৌত বিশ্ব কীভাবে কাজ করে।
ভাষা মডেলের মৌলিক সীমাবদ্ধতা
বিশ্ব মডেল ভিজ্যুয়াল পরিবেশে পরবর্তী কী হবে তা পূর্বাভাস দেয়, শুধুমাত্র পাঠ্যে পরবর্তী শব্দ নয়। এটির জন্য পদার্থবিজ্ঞান, বস্তু স্থায়িত্ব এবং কার্যকারণতা বোঝা প্রয়োজন।
ভাষা মডেল পাঠ্য জুড়ে প্যাটার্ন ম্যাচিংয়ে দক্ষ। তারা কবিতা লিখতে, কোড ডিবাগ করতে এবং এমন কথোপকথন রাখতে পারে যা অত্যন্ত মানবিক অনুভব করে। কিন্তু GPT-4 কে জিজ্ঞাসা করুন একটি বল গড়িয়ে পড়লে কি হয়, এবং এটি স্মৃতিশীল বর্ণনার উপর নির্ভর করে, প্রকৃত ভৌত স্বজ্ঞা নয়।
এটি গুরুত্বপূর্ণ কারণ বুদ্ধিমত্তা, যেমনটি আমরা জৈব বিশ্বে অনুভব করি, তা মূলত ভৌত বাস্তবতায় নিহিত। একটি ছোট শিশু ব্লক স্ট্যাক করা শিখার সময় ভাষা শেখার অনেক আগেই গুরুত্ব, ভারসাম্য এবং উপকরণ বৈশিষ্ট্যের স্বজ্ঞাত বোঝাপড়া বিকাশ করে। এই শারীরিক জ্ঞান, বিশ্ব কীভাবে কাজ করে তার এই অনুভূতি, ঠিক যা বর্তমান AI সিস্টেমে অনুপস্থিত।
বিশ্ব মডেল এই ফাঁক পূরণের লক্ষ্য রাখে। পরবর্তী টোকেন পূর্বাভাসের পরিবর্তে, তারা পরবর্তী ফ্রেম, পরবর্তী ভৌত অবস্থা, একটি কর্মের পরবর্তী পরিণতি পূর্বাভাস দেয়।
বিশ্ব বোঝার জন্য তিনটি পদ্ধতি
বিশ্ব-বোঝার AI তৈরির প্রতিযোগিতা তিনটি স্বতন্ত্র প্যারাডাইমে বিভক্ত হয়েছে, প্রতিটির নিজস্ব শক্তি রয়েছে।
নিহিত পদার্থবিজ্ঞান শিখতে বিশাল ভিডিও ডেটাসেটে প্রশিক্ষণ দিন। উদাহরণগুলি Sora এবং Veo অন্তর্ভুক্ত করে। প্রশংসনীয় ধারাবাহিকতা তৈরিতে ভাল কিন্তু ইন্টারেক্টিভ পরিস্থিতিতে সংগ্রাম করে।
স্পষ্ট পদার্থবিজ্ঞান ইঞ্জিন তৈরি করুন এবং AI-কে সেগুলি নেভিগেট করতে প্রশিক্ষণ দিন। পরিবেশের ব্যয়বহুল ম্যানুয়াল নির্মাণ প্রয়োজন কিন্তু সঠিক ভৌত নির্ভুলতা প্রদান করে।
তৃতীয় পদ্ধতি, এবং সম্ভবত সবচেয়ে প্রতিশ্রুতিশীল, উভয়কে একত্রিত করে: ভিডিও থেকে বিশ্বের গতিশীলতা শিখা যখন পরিবেশের সাথে ইন্টারেক্ট করা এবং হেরফের করার ক্ষমতা বজায় রাখা। এখানেই গেমিং অপরিহার্য হয়ে ওঠে।
গেমিং: নিখুঁত প্রমাণ ক্ষেত্র
ভিডিও গেম কিছু অনন্য প্রদান করে: সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান নিয়ম সহ ইন্টারেক্টিভ পরিবেশ, অসীম বৈচিত্র্য এবং স্পষ্ট সাফল্যের মেট্রিক্স। বাস্তব-বিশ্বের রোবোটিক্সের বিপরীতে, যা ব্যয়বহুল হার্ডওয়্যার প্রয়োজন এবং সুরক্ষা উদ্বেগ উপস্থাপন করে, গেম অসীম ব্যর্থতা প্রদান করে পরিণতি ছাড়াই।
DeepMind এই সম্ভাবনা তাড়াতাড়ি স্বীকার করেছিল। তাদের Genie সিস্টেম একটি একক ছবি থেকে সম্পূর্ণ নতুন খেলযোগ্য পরিবেশ তৈরি করতে পারে। এটি একটি প্ল্যাটফর্মার স্তরের একটি স্কেচ দিন, এবং এটি সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান সহ একটি বিশ্ব তৈরি করে যেখানে চরিত্ররা লাফাতে, পড়তে এবং বস্তুর সাথে উপযুক্তভাবে ইন্টারেক্ট করতে পারে।
Genie কে অসাধারণ করে তোলে তা কেবল প্রজন্ম নয় বরং বোঝাপড়া। সিস্টেম সাধারণীকরণযোগ্য পদার্থবিজ্ঞান ধারণা শিখে যা বিভিন্ন ভিজ্যুয়াল শৈলী এবং গেম ধরনের মধ্যে স্থানান্তরিত হয়। Mario-স্টাইলের প্ল্যাটফর্মারে প্রশিক্ষিত একটি মডেল গুরুত্ব এবং সংঘর্ষ সম্পর্কে স্বজ্ঞা বিকাশ করে যা হাতে আঁকা ইন্ডি গেম এবং বাস্তবসম্মত 3D পরিবেশ উভয়ের ক্ষেত্রে সমানভাবে প্রয়োগ হয়।
গেম থেকে রোবট পর্যন্ত
গেমিং-থেকে-রোবোটিক্স পাইপলাইন তাত্ত্বিক নয়। কোম্পানিগুলি ইতিমধ্যে এটি ব্যবহার করছে।
অনুকরণ ফাঁক সনাক্ত করা
গবেষণা দেখায় যে বিশুদ্ধ অনুকরণে প্রশিক্ষিত মডেল বাস্তব-বিশ্বের বিশৃঙ্খলার সাথে সংগ্রাম করে: পরিবর্তনশীল আলো, অপূর্ণ সেন্সর, অপ্রত্যাশিত বস্তু।
হাইব্রিড পদ্ধতি উদ্ভূত হয়
দলগুলি গেম-প্রশিক্ষিত বিশ্ব মডেলগুলিকে সীমিত বাস্তব-বিশ্বের সূক্ষ্ম-টিউনিংয়ের সাথে একত্রিত করে, রোবোট প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটা নাটকীয়ভাবে হ্রাস করে।
বাণিজ্যিক স্থাপনা শুরু হয়
প্রথম গুদাম রোবোট যা বিশ্ব মডেল ব্যাকবোন ব্যবহার করে উৎপাদনে প্রবেশ করে, স্পষ্ট প্রোগ্রামিং ছাড়াই উপন্যাস বস্তু পরিচালনা করে।
এই রূপান্তর চালিত অন্তর্দৃষ্টি সরল: পদার্থবিজ্ঞান পদার্থবিজ্ঞান। একটি মডেল যা সত্যিই বোঝে কিভাবে বস্তু একটি ভিডিও গেমে পড়ে, স্লাইড এবং সংঘর্ষ করে, উপযুক্ত অভিযোজনের সাথে, বাস্তব বিশ্বে একই নীতি বুঝতে হবে। ভিজ্যুয়াল চেহারা পরিবর্তিত হয়, কিন্তু অন্তর্নিহিত গতিশীলতা স্থির থাকে।
Tesla তাদের Optimus রোবটগুলির সাথে এই কৌশলের একটি সংস্করণ অনুসরণ করেছে, অনুকরণে প্রথম প্রশিক্ষণ দিয়ে নিয়ন্ত্রিত কারখানার পরিবেশে স্থাপনার আগে। সীমাবদ্ধ কারণ সর্বদা অনুকৃত এবং বাস্তব পদার্থবিজ্ঞানের মধ্যে ফাঁক রেখে গেছে। বৈচিত্র্যময় ভিডিও ডেটায় প্রশিক্ষিত বিশ্ব মডেলগুলি অবশেষে সেই ফাঁক পূরণ করতে পারে।
AMI Labs বাজি
Yann LeCun এর নতুন উদ্যোগ, AMI Labs, বিশ্ব মডেল গবেষণায় এখন পর্যন্ত সবচেয়ে বড় একক বিনিয়োগ প্রতিনিধিত্ব করে। €500 মিলিয়ন ইউরোপীয় তহবিল এবং Meta, DeepMind এবং শিক্ষাবৃত্তিক ল্যাব থেকে নিয়োগকৃত একটি দল সহ, তারা যা অনুসরণ করছে তা LeCun "উদ্দেশ্য-চালিত AI" বলে আখ্যায়িত করেন।
LLM এর বিপরীতে যা টোকেন পূর্বাভাস দেয়, AMI এর পদ্ধতি বিশ্বের প্রতিনিধিত্ব শিখার উপর দৃষ্টি নিবদ্ধ করে যা ভৌত পরিণতি সম্পর্কে পরিকল্পনা এবং যুক্তিবাদ সক্ষম করে।
প্রযুক্তিগত ভিত্তি Joint Embedding Predictive Architecture (JEPA) এ নির্মিত, একটি কাঠামো যা LeCun বছরের পর বছর ধরে সমর্থন করে এসেছেন। পিক্সেল-স্তরের পূর্বাভাস তৈরি করার পরিবর্তে, যা বিশাল গণনাগত সম্পদ প্রয়োজন, JEPA বিমূর্ত প্রতিনিধিত্ব শিখে যা ভৌত সিস্টেমের অপরিহার্য কাঠামো ক্যাপচার করে।
এটি এভাবে চিন্তা করুন: একটি মানুষ যে একটি বল একটি পাড়ের দিকে গড়িয়ে যাওয়া দেখছে বল এর প্রক্ষেপপথের প্রতিটি পিক্সেল অনুকরণ করে না। পরিবর্তে, আমরা বিমূর্ত পরিস্থিতি চিনতে পারি (বল, প্রান্ত, গুরুত্ব) এবং ফলাফল পূর্বাভাস দিই (পতন)। JEPA এই দক্ষ, বিমূর্ত যুক্তিবাদ ক্যাপচার করার লক্ষ্য রাখে।
AI ভিডিও প্রজন্মের জন্য অন্তর্নিহিত
এই গবেষণা প্রক্ষেপপথ সৃজনশীল প্রয়োগের জন্য গভীর গুরুত্ব রাখে। বর্তমান AI ভিডিও জেনারেটর চিত্তাকর্ষক ফলাফল তৈরি করে কিন্তু সময়গত অসঙ্গতিতে ভোগে। চরিত্ররা রূপান্তরিত হয়, পদার্থবিজ্ঞান ভেঙে যায় এবং বস্তু প্রদর্শিত এবং অদৃশ্য হয়।
বিশ্ব মডেলগুলি একটি সম্ভাব্য সমাধান প্রদান করে। একটি জেনারেটর যা সত্যিই পদার্থবিজ্ঞানকে বোঝে ভিডিও উৎপাদন করা উচিত যেখানে বস্তু সামঞ্জস্যপূর্ণ নিয়ম মেনে চলে, যেখানে পড়ন্ত বস্তু অনুমানযোগ্যভাবে পড়ে, যেখানে প্রতিফলন সঠিকভাবে আচরণ করে।
মডেলগুলি ভৌত সামঞ্জস্য প্রয়োগ না করে দৃশ্যত প্রশংসনীয় ফ্রেম উত্পন্ন করে। ছোট ক্লিপের জন্য কাজ করে কিন্তু দীর্ঘ সময়ে ভেঙে পড়ে।
শেখা বিশ্ব গতিশীলতা থেকে ভৌত সামঞ্জস্য উদ্ভূত হয়। দীর্ঘতর, আরও সামঞ্জস্যপূর্ণ ভিডিও সম্ভব হয়ে ওঠে কারণ মডেল বিশ্বের একটি অভ্যন্তরীণ অবস্থা বজায় রাখে।
আমরা ইতিমধ্যে এই রূপান্তরের প্রাথমিক লক্ষণ দেখছি। Runway এর GWM-1 বিশ্ব মডেলগুলির উপর তাদের বাজি প্রতিনিধিত্ব করে, এবং Veo 3.1 এর উন্নত পদার্থবিজ্ঞান অনুকরণ পরামর্শ দেয় যে Google অনুরূপ নীতি অন্তর্ভুক্ত করছে।
AGI সংযোগ
এটি সবকিছু কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য কেন গুরুত্বপূর্ণ? কারণ প্রকৃত বুদ্ধিমত্তার জন্য ভাষা ম্যানিপুলেশনের চেয়ে বেশি প্রয়োজন। এটি কারণ এবং প্রভাব বোঝা, পরিণতি পূর্বাভাস এবং একটি ভৌত বিশ্বে কর্ম পরিকল্পনা প্রয়োজন।
মূর্ত জ্ঞান
প্রকৃত বুদ্ধিমত্তার জন্য শুধুমাত্র পাঠ্যে পদ্ধতিগত নিদর্শন নয় বরং ভৌত বাস্তবতায় ভিত্তি প্রয়োজন হতে পারে।
ইন্টারেক্টিভ শিক্ষা
গেম পরীক্ষার জন্য নিখুঁত প্রদান করে: সমৃদ্ধ পদার্থবিজ্ঞান, স্পষ্ট প্রতিক্রিয়া, অসীম পুনরাবৃত্তি।
রোবোটিক্স প্রয়োগ
গেমে প্রশিক্ষিত বিশ্ব মডেলগুলি ন্যূনতম অভিযোজনের সাথে বাস্তব-বিশ্বের রোবোটিক্সে স্থানান্তরিত হতে পারে।
এই কাজ চালনাকারী গবেষকরা সাবধানে দাবি করেন না যে তারা AGI তৈরি করছেন। কিন্তু তারা দৃঢ়তার সাথে যুক্তি দেন যে বিশ্ব বোঝা ছাড়া, আমরা এমন সিস্টেম তৈরি করতে পারি না যা সত্যিই চিন্তা করে বরং শুধুমাত্র স্বয়ংপূর্ণ সম্পূর্ণ করে।
পরবর্তীতে কী আসে
পরবর্তী দুই বছর সমালোচনামূলক প্রমাণিত হবে। দেখার জন্য বেশ কয়েকটি উন্নয়ন:
- ○AMI Labs প্রথম জনসাধারণ প্রদর্শন (2026 সালের মধ্য-প্রত্যাশিত)
- ○প্রধান ভিডিও জেনারেটরগুলিতে বিশ্ব মডেলগুলির একীকরণ
- ○গেম ইঞ্জিন কোম্পানিগুলি (Unity, Unreal) বিশ্ব মডেল API যোগ করা
- ○গেম-প্রশিক্ষিত বিশ্ব মডেল ব্যবহার করে প্রথম ভোক্তা রোবট
2030 সালের মধ্যে $500 বিলিয়ন অতিক্রম করার জন্য প্রক্ষিপ্ত গেমিং বাজার বিশ্ব মডেল স্থাপনার জন্য উর্বর ভূমি প্রতিনিধিত্ব করে। বিনিয়োগকারীরা বিশ্ব মডেলগুলিকে শুধুমাত্র গবেষণা কৌতূহল হিসাবে নয় বরং ইন্টারেক্টিভ বিনোদন, অনুকরণ এবং রোবোটিক্সের জন্য মৌলিক প্রযুক্তি হিসাবে দেখে।
নীরব বিপ্লব
ChatGPT এর চারপাশে বিস্ফোরক হাইপের বিপরীতে, বিশ্ব মডেল বিপ্লব গবেষণা প্রয়োগশালা এবং গেম স্টুডিওতে চুপচাপ সামনে আসে। কোনো ভাইরাল ডেমো নেই, সর্বশেষ অগ্রগতি সম্পর্কে কোনো দৈনিক সংবাদ চক্র নেই।
তবে অন্তর্নিহিত হতে পারে গভীর। ভাষা মডেলগুলি কিভাবে আমরা পাঠ্যের সাথে ইন্টারঅ্যাক্ট করি তা পরিবর্তন করেছে। বিশ্ব মডেলগুলি AI বাস্তবতার সাথে কিভাবে ইন্টারঅ্যাক্ট করে তা পরিবর্তন করতে পারে।
যারা AI ভিডিও প্রজন্মে কাজ করছেন তাদের জন্য এই গবেষণা উভয় হুমকি এবং সুযোগ প্রতিনিধিত্ব করে। আমাদের বর্তমান সরঞ্জামগুলি পূর্বাবাস থেকে আদিম দেখাতে পারে, আধুনিক ভিজ্যুয়াল প্রভাবের তুলনায় প্রাথমিক CGI এর মত। তবে অন্তর্নিহিত নীতি, শেখা মডেলের মাধ্যমে ভিজ্যুয়াল সামগ্রী উত্পন্ন করা, শুধুমাত্র আরও শক্তিশালী হয়ে উঠবে যখন সেই মডেলগুলি সত্যিই যে বিশ্বগুলি তৈরি করে তা বুঝতে শুরু করে।
আরও পড়ুন: কীভাবে diffusion transformers অনেক বিশ্ব মডেলের জন্য স্থাপত্য ভিত্তি প্রদান করে তা অন্বেষণ করুন, অথবা real-time interactive generation সম্পর্কে জানুন যা বিশ্ব মডেল নীতির উপর নির্মিত।
ভিডিও গেম পদার্থবিজ্ঞান থেকে কৃত্রিম সাধারণ বুদ্ধিমত্তা পর্যন্ত পথ পরিক্রমা করে মনে হতে পারে। তবে বুদ্ধিমত্তা, যেখানেই আমরা এটি পাই, এমন সিস্টেম থেকে উদ্ভূত হয় যা তাদের পরিবেশ বোঝে এবং তাদের কর্মের পরিণতি পূর্বাভাস দিতে পারে। গেম আমাদের এমন সিস্টেম তৈরি এবং পরীক্ষা করার জন্য একটি নিরাপদ স্থান দেয়। রোবট, সৃজনশীল সরঞ্জাম এবং সম্ভবত প্রকৃত যন্ত্র বোঝাপড়া অনুসরণ করবে।
এই নিবন্ধটি কি সহায়ক ছিল?

Alexis
এআই ইঞ্জিনিয়ারলোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।
সম্পর্কিত নিবন্ধসমূহ
এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

ইয়ান লেকুন মেটা ছেড়ে ওয়ার্ল্ড মডেলে $3.5 বিলিয়নের বাজি ধরলেন
টুরিং পুরস্কার বিজয়ী AMI Labs চালু করলেন, একটি নতুন স্টার্টআপ যা LLM-এর পরিবর্তে ওয়ার্ল্ড মডেলে ফোকাস করছে, রোবোটিক্স, হেলথকেয়ার এবং ভিডিও বোঝার ক্ষেত্রে লক্ষ্য স্থির করেছে।

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।

Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত
World models AI কে ভৌত বাস্তবতা বুঝতে শেখাচ্ছে, রোবটদের একটিও actuator না নাড়িয়ে actions পরিকল্পনা করতে এবং outcomes সিমুলেট করতে সক্ষম করছে।