ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র

কৃত্রিম বুদ্ধিমত্তার পরবর্তী বিপ্লব ভাষা মডেল থেকে আসবে না। এটি এমন সিস্টেম থেকে আসবে যা ভৌত বিশ্বকে বোঝে, এবং প্রথম যুদ্ধক্ষেত্র গবেষণা ল্যাবরেটরি নয় বরং ভিডিও গেম।

যখন Yann LeCun Meta থেকে চলে যাওয়ার ঘোষণা দিলেন এবং €500 মিলিয়ন অর্থায়নে AMI Labs চালু করলেন, তখন তিনি এমন কিছু প্রকাশ করলেন যা অনেক গবেষকরা বছরের পর বছর ধরে চুপচাপ বিশ্বাস করে আসছেন। বড় ভাষা মডেল, তাদের সব চিত্তাকর্ষক ক্ষমতা সত্ত্বেও, কৃত্রিম সাধারণ বুদ্ধিমত্তার পথে একটি মৃত প্রান্ত প্রতিনিধিত্ব করে। তারা বাস্তবতা বোঝা ছাড়াই টোকেন পূর্বাভাস দেয়।

বিকল্প কি? বিশ্ব মডেল। এমন সিস্টেম যা শিখে যে ভৌত বিশ্ব কীভাবে কাজ করে।

ভাষা মডেলের মৌলিক সীমাবদ্ধতা

💡

বিশ্ব মডেল ভিজ্যুয়াল পরিবেশে পরবর্তী কী হবে তা পূর্বাভাস দেয়, শুধুমাত্র পাঠ্যে পরবর্তী শব্দ নয়। এটির জন্য পদার্থবিজ্ঞান, বস্তু স্থায়িত্ব এবং কার্যকারণতা বোঝা প্রয়োজন।

ভাষা মডেল পাঠ্য জুড়ে প্যাটার্ন ম্যাচিংয়ে দক্ষ। তারা কবিতা লিখতে, কোড ডিবাগ করতে এবং এমন কথোপকথন রাখতে পারে যা অত্যন্ত মানবিক অনুভব করে। কিন্তু GPT-4 কে জিজ্ঞাসা করুন একটি বল গড়িয়ে পড়লে কি হয়, এবং এটি স্মৃতিশীল বর্ণনার উপর নির্ভর করে, প্রকৃত ভৌত স্বজ্ঞা নয়।

এটি গুরুত্বপূর্ণ কারণ বুদ্ধিমত্তা, যেমনটি আমরা জৈব বিশ্বে অনুভব করি, তা মূলত ভৌত বাস্তবতায় নিহিত। একটি ছোট শিশু ব্লক স্ট্যাক করা শিখার সময় ভাষা শেখার অনেক আগেই গুরুত্ব, ভারসাম্য এবং উপকরণ বৈশিষ্ট্যের স্বজ্ঞাত বোঝাপড়া বিকাশ করে। এই শারীরিক জ্ঞান, বিশ্ব কীভাবে কাজ করে তার এই অনুভূতি, ঠিক যা বর্তমান AI সিস্টেমে অনুপস্থিত।

বিশ্ব মডেল এই ফাঁক পূরণের লক্ষ্য রাখে। পরবর্তী টোকেন পূর্বাভাসের পরিবর্তে, তারা পরবর্তী ফ্রেম, পরবর্তী ভৌত অবস্থা, একটি কর্মের পরবর্তী পরিণতি পূর্বাভাস দেয়।

বিশ্ব বোঝার জন্য তিনটি পদ্ধতি

বিশ্ব-বোঝার AI তৈরির প্রতিযোগিতা তিনটি স্বতন্ত্র প্যারাডাইমে বিভক্ত হয়েছে, প্রতিটির নিজস্ব শক্তি রয়েছে।

✓ভিডিও পূর্বাভাস মডেল

নিহিত পদার্থবিজ্ঞান শিখতে বিশাল ভিডিও ডেটাসেটে প্রশিক্ষণ দিন। উদাহরণগুলি Sora এবং Veo অন্তর্ভুক্ত করে। প্রশংসনীয় ধারাবাহিকতা তৈরিতে ভাল কিন্তু ইন্টারেক্টিভ পরিস্থিতিতে সংগ্রাম করে।

✗অনুকরণ-ভিত্তিক মডেল

স্পষ্ট পদার্থবিজ্ঞান ইঞ্জিন তৈরি করুন এবং AI-কে সেগুলি নেভিগেট করতে প্রশিক্ষণ দিন। পরিবেশের ব্যয়বহুল ম্যানুয়াল নির্মাণ প্রয়োজন কিন্তু সঠিক ভৌত নির্ভুলতা প্রদান করে।

তৃতীয় পদ্ধতি, এবং সম্ভবত সবচেয়ে প্রতিশ্রুতিশীল, উভয়কে একত্রিত করে: ভিডিও থেকে বিশ্বের গতিশীলতা শিখা যখন পরিবেশের সাথে ইন্টারেক্ট করা এবং হেরফের করার ক্ষমতা বজায় রাখা। এখানেই গেমিং অপরিহার্য হয়ে ওঠে।

গেমিং: নিখুঁত প্রমাণ ক্ষেত্র

ভিডিও গেম কিছু অনন্য প্রদান করে: সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান নিয়ম সহ ইন্টারেক্টিভ পরিবেশ, অসীম বৈচিত্র্য এবং স্পষ্ট সাফল্যের মেট্রিক্স। বাস্তব-বিশ্বের রোবোটিক্সের বিপরীতে, যা ব্যয়বহুল হার্ডওয়্যার প্রয়োজন এবং সুরক্ষা উদ্বেগ উপস্থাপন করে, গেম অসীম ব্যর্থতা প্রদান করে পরিণতি ছাড়াই।

$500B+

2030 সালের মধ্যে গেমিং বাজার

€500M

AMI Labs তহবিল

12%

বার্ষিক বৃদ্ধির হার

DeepMind এই সম্ভাবনা তাড়াতাড়ি স্বীকার করেছিল। তাদের Genie সিস্টেম একটি একক ছবি থেকে সম্পূর্ণ নতুন খেলযোগ্য পরিবেশ তৈরি করতে পারে। এটি একটি প্ল্যাটফর্মার স্তরের একটি স্কেচ দিন, এবং এটি সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান সহ একটি বিশ্ব তৈরি করে যেখানে চরিত্ররা লাফাতে, পড়তে এবং বস্তুর সাথে উপযুক্তভাবে ইন্টারেক্ট করতে পারে।

Genie কে অসাধারণ করে তোলে তা কেবল প্রজন্ম নয় বরং বোঝাপড়া। সিস্টেম সাধারণীকরণযোগ্য পদার্থবিজ্ঞান ধারণা শিখে যা বিভিন্ন ভিজ্যুয়াল শৈলী এবং গেম ধরনের মধ্যে স্থানান্তরিত হয়। Mario-স্টাইলের প্ল্যাটফর্মারে প্রশিক্ষিত একটি মডেল গুরুত্ব এবং সংঘর্ষ সম্পর্কে স্বজ্ঞা বিকাশ করে যা হাতে আঁকা ইন্ডি গেম এবং বাস্তবসম্মত 3D পরিবেশ উভয়ের ক্ষেত্রে সমানভাবে প্রয়োগ হয়।

গেম থেকে রোবট পর্যন্ত

গেমিং-থেকে-রোবোটিক্স পাইপলাইন তাত্ত্বিক নয়। কোম্পানিগুলি ইতিমধ্যে এটি ব্যবহার করছে।

2024

অনুকরণ ফাঁক সনাক্ত করা

গবেষণা দেখায় যে বিশুদ্ধ অনুকরণে প্রশিক্ষিত মডেল বাস্তব-বিশ্বের বিশৃঙ্খলার সাথে সংগ্রাম করে: পরিবর্তনশীল আলো, অপূর্ণ সেন্সর, অপ্রত্যাশিত বস্তু।

2025

হাইব্রিড পদ্ধতি উদ্ভূত হয়

দলগুলি গেম-প্রশিক্ষিত বিশ্ব মডেলগুলিকে সীমিত বাস্তব-বিশ্বের সূক্ষ্ম-টিউনিংয়ের সাথে একত্রিত করে, রোবোট প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটা নাটকীয়ভাবে হ্রাস করে।

2026

বাণিজ্যিক স্থাপনা শুরু হয়

প্রথম গুদাম রোবোট যা বিশ্ব মডেল ব্যাকবোন ব্যবহার করে উৎপাদনে প্রবেশ করে, স্পষ্ট প্রোগ্রামিং ছাড়াই উপন্যাস বস্তু পরিচালনা করে।

এই রূপান্তর চালিত অন্তর্দৃষ্টি সরল: পদার্থবিজ্ঞান পদার্থবিজ্ঞান। একটি মডেল যা সত্যিই বোঝে কিভাবে বস্তু একটি ভিডিও গেমে পড়ে, স্লাইড এবং সংঘর্ষ করে, উপযুক্ত অভিযোজনের সাথে, বাস্তব বিশ্বে একই নীতি বুঝতে হবে। ভিজ্যুয়াল চেহারা পরিবর্তিত হয়, কিন্তু অন্তর্নিহিত গতিশীলতা স্থির থাকে।

Tesla তাদের Optimus রোবটগুলির সাথে এই কৌশলের একটি সংস্করণ অনুসরণ করেছে, অনুকরণে প্রথম প্রশিক্ষণ দিয়ে নিয়ন্ত্রিত কারখানার পরিবেশে স্থাপনার আগে। সীমাবদ্ধ কারণ সর্বদা অনুকৃত এবং বাস্তব পদার্থবিজ্ঞানের মধ্যে ফাঁক রেখে গেছে। বৈচিত্র্যময় ভিডিও ডেটায় প্রশিক্ষিত বিশ্ব মডেলগুলি অবশেষে সেই ফাঁক পূরণ করতে পারে।

AMI Labs বাজি

Yann LeCun এর নতুন উদ্যোগ, AMI Labs, বিশ্ব মডেল গবেষণায় এখন পর্যন্ত সবচেয়ে বড় একক বিনিয়োগ প্রতিনিধিত্ব করে। €500 মিলিয়ন ইউরোপীয় তহবিল এবং Meta, DeepMind এবং শিক্ষাবৃত্তিক ল্যাব থেকে নিয়োগকৃত একটি দল সহ, তারা যা অনুসরণ করছে তা LeCun "উদ্দেশ্য-চালিত AI" বলে আখ্যায়িত করেন।

💡

LLM এর বিপরীতে যা টোকেন পূর্বাভাস দেয়, AMI এর পদ্ধতি বিশ্বের প্রতিনিধিত্ব শিখার উপর দৃষ্টি নিবদ্ধ করে যা ভৌত পরিণতি সম্পর্কে পরিকল্পনা এবং যুক্তিবাদ সক্ষম করে।

প্রযুক্তিগত ভিত্তি Joint Embedding Predictive Architecture (JEPA) এ নির্মিত, একটি কাঠামো যা LeCun বছরের পর বছর ধরে সমর্থন করে এসেছেন। পিক্সেল-স্তরের পূর্বাভাস তৈরি করার পরিবর্তে, যা বিশাল গণনাগত সম্পদ প্রয়োজন, JEPA বিমূর্ত প্রতিনিধিত্ব শিখে যা ভৌত সিস্টেমের অপরিহার্য কাঠামো ক্যাপচার করে।

এটি এভাবে চিন্তা করুন: একটি মানুষ যে একটি বল একটি পাড়ের দিকে গড়িয়ে যাওয়া দেখছে বল এর প্রক্ষেপপথের প্রতিটি পিক্সেল অনুকরণ করে না। পরিবর্তে, আমরা বিমূর্ত পরিস্থিতি চিনতে পারি (বল, প্রান্ত, গুরুত্ব) এবং ফলাফল পূর্বাভাস দিই (পতন)। JEPA এই দক্ষ, বিমূর্ত যুক্তিবাদ ক্যাপচার করার লক্ষ্য রাখে।

AI ভিডিও প্রজন্মের জন্য অন্তর্নিহিত

এই গবেষণা প্রক্ষেপপথ সৃজনশীল প্রয়োগের জন্য গভীর গুরুত্ব রাখে। বর্তমান AI ভিডিও জেনারেটর চিত্তাকর্ষক ফলাফল তৈরি করে কিন্তু সময়গত অসঙ্গতিতে ভোগে। চরিত্ররা রূপান্তরিত হয়, পদার্থবিজ্ঞান ভেঙে যায় এবং বস্তু প্রদর্শিত এবং অদৃশ্য হয়।

বিশ্ব মডেলগুলি একটি সম্ভাব্য সমাধান প্রদান করে। একটি জেনারেটর যা সত্যিই পদার্থবিজ্ঞানকে বোঝে ভিডিও উৎপাদন করা উচিত যেখানে বস্তু সামঞ্জস্যপূর্ণ নিয়ম মেনে চলে, যেখানে পড়ন্ত বস্তু অনুমানযোগ্যভাবে পড়ে, যেখানে প্রতিফলন সঠিকভাবে আচরণ করে।

✗বর্তমান স্থিতি

মডেলগুলি ভৌত সামঞ্জস্য প্রয়োগ না করে দৃশ্যত প্রশংসনীয় ফ্রেম উত্পন্ন করে। ছোট ক্লিপের জন্য কাজ করে কিন্তু দীর্ঘ সময়ে ভেঙে পড়ে।

✓বিশ্ব মডেল ভবিষ্যত

শেখা বিশ্ব গতিশীলতা থেকে ভৌত সামঞ্জস্য উদ্ভূত হয়। দীর্ঘতর, আরও সামঞ্জস্যপূর্ণ ভিডিও সম্ভব হয়ে ওঠে কারণ মডেল বিশ্বের একটি অভ্যন্তরীণ অবস্থা বজায় রাখে।

আমরা ইতিমধ্যে এই রূপান্তরের প্রাথমিক লক্ষণ দেখছি। Runway এর GWM-1 বিশ্ব মডেলগুলির উপর তাদের বাজি প্রতিনিধিত্ব করে, এবং Veo 3.1 এর উন্নত পদার্থবিজ্ঞান অনুকরণ পরামর্শ দেয় যে Google অনুরূপ নীতি অন্তর্ভুক্ত করছে।

AGI সংযোগ

এটি সবকিছু কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য কেন গুরুত্বপূর্ণ? কারণ প্রকৃত বুদ্ধিমত্তার জন্য ভাষা ম্যানিপুলেশনের চেয়ে বেশি প্রয়োজন। এটি কারণ এবং প্রভাব বোঝা, পরিণতি পূর্বাভাস এবং একটি ভৌত বিশ্বে কর্ম পরিকল্পনা প্রয়োজন।

🧠

মূর্ত জ্ঞান

প্রকৃত বুদ্ধিমত্তার জন্য শুধুমাত্র পাঠ্যে পদ্ধতিগত নিদর্শন নয় বরং ভৌত বাস্তবতায় ভিত্তি প্রয়োজন হতে পারে।

🎮

ইন্টারেক্টিভ শিক্ষা

গেম পরীক্ষার জন্য নিখুঁত প্রদান করে: সমৃদ্ধ পদার্থবিজ্ঞান, স্পষ্ট প্রতিক্রিয়া, অসীম পুনরাবৃত্তি।

🤖

রোবোটিক্স প্রয়োগ

গেমে প্রশিক্ষিত বিশ্ব মডেলগুলি ন্যূনতম অভিযোজনের সাথে বাস্তব-বিশ্বের রোবোটিক্সে স্থানান্তরিত হতে পারে।

এই কাজ চালনাকারী গবেষকরা সাবধানে দাবি করেন না যে তারা AGI তৈরি করছেন। কিন্তু তারা দৃঢ়তার সাথে যুক্তি দেন যে বিশ্ব বোঝা ছাড়া, আমরা এমন সিস্টেম তৈরি করতে পারি না যা সত্যিই চিন্তা করে বরং শুধুমাত্র স্বয়ংপূর্ণ সম্পূর্ণ করে।

পরবর্তীতে কী আসে

পরবর্তী দুই বছর সমালোচনামূলক প্রমাণিত হবে। দেখার জন্য বেশ কয়েকটি উন্নয়ন:

○AMI Labs প্রথম জনসাধারণ প্রদর্শন (2026 সালের মধ্য-প্রত্যাশিত)
○প্রধান ভিডিও জেনারেটরগুলিতে বিশ্ব মডেলগুলির একীকরণ
○গেম ইঞ্জিন কোম্পানিগুলি (Unity, Unreal) বিশ্ব মডেল API যোগ করা
○গেম-প্রশিক্ষিত বিশ্ব মডেল ব্যবহার করে প্রথম ভোক্তা রোবট

2030 সালের মধ্যে $500 বিলিয়ন অতিক্রম করার জন্য প্রক্ষিপ্ত গেমিং বাজার বিশ্ব মডেল স্থাপনার জন্য উর্বর ভূমি প্রতিনিধিত্ব করে। বিনিয়োগকারীরা বিশ্ব মডেলগুলিকে শুধুমাত্র গবেষণা কৌতূহল হিসাবে নয় বরং ইন্টারেক্টিভ বিনোদন, অনুকরণ এবং রোবোটিক্সের জন্য মৌলিক প্রযুক্তি হিসাবে দেখে।

নীরব বিপ্লব

ChatGPT এর চারপাশে বিস্ফোরক হাইপের বিপরীতে, বিশ্ব মডেল বিপ্লব গবেষণা প্রয়োগশালা এবং গেম স্টুডিওতে চুপচাপ সামনে আসে। কোনো ভাইরাল ডেমো নেই, সর্বশেষ অগ্রগতি সম্পর্কে কোনো দৈনিক সংবাদ চক্র নেই।

তবে অন্তর্নিহিত হতে পারে গভীর। ভাষা মডেলগুলি কিভাবে আমরা পাঠ্যের সাথে ইন্টারঅ্যাক্ট করি তা পরিবর্তন করেছে। বিশ্ব মডেলগুলি AI বাস্তবতার সাথে কিভাবে ইন্টারঅ্যাক্ট করে তা পরিবর্তন করতে পারে।

যারা AI ভিডিও প্রজন্মে কাজ করছেন তাদের জন্য এই গবেষণা উভয় হুমকি এবং সুযোগ প্রতিনিধিত্ব করে। আমাদের বর্তমান সরঞ্জামগুলি পূর্বাবাস থেকে আদিম দেখাতে পারে, আধুনিক ভিজ্যুয়াল প্রভাবের তুলনায় প্রাথমিক CGI এর মত। তবে অন্তর্নিহিত নীতি, শেখা মডেলের মাধ্যমে ভিজ্যুয়াল সামগ্রী উত্পন্ন করা, শুধুমাত্র আরও শক্তিশালী হয়ে উঠবে যখন সেই মডেলগুলি সত্যিই যে বিশ্বগুলি তৈরি করে তা বুঝতে শুরু করে।

💡

আরও পড়ুন: কীভাবে diffusion transformers অনেক বিশ্ব মডেলের জন্য স্থাপত্য ভিত্তি প্রদান করে তা অন্বেষণ করুন, অথবা real-time interactive generation সম্পর্কে জানুন যা বিশ্ব মডেল নীতির উপর নির্মিত।

ভিডিও গেম পদার্থবিজ্ঞান থেকে কৃত্রিম সাধারণ বুদ্ধিমত্তা পর্যন্ত পথ পরিক্রমা করে মনে হতে পারে। তবে বুদ্ধিমত্তা, যেখানেই আমরা এটি পাই, এমন সিস্টেম থেকে উদ্ভূত হয় যা তাদের পরিবেশ বোঝে এবং তাদের কর্মের পরিণতি পূর্বাভাস দিতে পারে। গেম আমাদের এমন সিস্টেম তৈরি এবং পরীক্ষা করার জন্য একটি নিরাপদ স্থান দেয়। রোবট, সৃজনশীল সরঞ্জাম এবং সম্ভবত প্রকৃত যন্ত্র বোঝাপড়া অনুসরণ করবে।

ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র

ভাষা মডেলের মৌলিক সীমাবদ্ধতা

বিশ্ব বোঝার জন্য তিনটি পদ্ধতি

গেমিং: নিখুঁত প্রমাণ ক্ষেত্র

গেম থেকে রোবট পর্যন্ত

অনুকরণ ফাঁক সনাক্ত করা

হাইব্রিড পদ্ধতি উদ্ভূত হয়

বাণিজ্যিক স্থাপনা শুরু হয়

AMI Labs বাজি

AI ভিডিও প্রজন্মের জন্য অন্তর্নিহিত

AGI সংযোগ

মূর্ত জ্ঞান

ইন্টারেক্টিভ শিক্ষা

রোবোটিক্স প্রয়োগ

পরবর্তীতে কী আসে

নীরব বিপ্লব

Alexis

Like what you read?

সম্পর্কিত নিবন্ধসমূহ

ইয়ান লেকুন মেটা ছেড়ে ওয়ার্ল্ড মডেলে $3.5 বিলিয়নের বাজি ধরলেন

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে

Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত

এই নিবন্ধটি কি আপনার ভালো লেগেছে?