Meta Pixel
AlexisAlexis
8 min read
1445 শব্দ

ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র

DeepMind Genie থেকে AMI Labs পর্যন্ত, বিশ্ব মডেল এমন AI এর ভিত্তি হয়ে উঠছে যা সত্যিকারের পদার্থবিজ্ঞানকে বোঝে। $500B গেমিং বাজার সেই জায়গা হতে পারে যেখানে তারা প্রথম নিজেদের প্রমাণ করে।

ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

কৃত্রিম বুদ্ধিমত্তার পরবর্তী বিপ্লব ভাষা মডেল থেকে আসবে না। এটি এমন সিস্টেম থেকে আসবে যা ভৌত বিশ্বকে বোঝে, এবং প্রথম যুদ্ধক্ষেত্র গবেষণা ল্যাবরেটরি নয় বরং ভিডিও গেম।

যখন Yann LeCun Meta থেকে চলে যাওয়ার ঘোষণা দিলেন এবং €500 মিলিয়ন অর্থায়নে AMI Labs চালু করলেন, তখন তিনি এমন কিছু প্রকাশ করলেন যা অনেক গবেষকরা বছরের পর বছর ধরে চুপচাপ বিশ্বাস করে আসছেন। বড় ভাষা মডেল, তাদের সব চিত্তাকর্ষক ক্ষমতা সত্ত্বেও, কৃত্রিম সাধারণ বুদ্ধিমত্তার পথে একটি মৃত প্রান্ত প্রতিনিধিত্ব করে। তারা বাস্তবতা বোঝা ছাড়াই টোকেন পূর্বাভাস দেয়।

বিকল্প কি? বিশ্ব মডেল। এমন সিস্টেম যা শিখে যে ভৌত বিশ্ব কীভাবে কাজ করে।

ভাষা মডেলের মৌলিক সীমাবদ্ধতা

💡

বিশ্ব মডেল ভিজ্যুয়াল পরিবেশে পরবর্তী কী হবে তা পূর্বাভাস দেয়, শুধুমাত্র পাঠ্যে পরবর্তী শব্দ নয়। এটির জন্য পদার্থবিজ্ঞান, বস্তু স্থায়িত্ব এবং কার্যকারণতা বোঝা প্রয়োজন।

ভাষা মডেল পাঠ্য জুড়ে প্যাটার্ন ম্যাচিংয়ে দক্ষ। তারা কবিতা লিখতে, কোড ডিবাগ করতে এবং এমন কথোপকথন রাখতে পারে যা অত্যন্ত মানবিক অনুভব করে। কিন্তু GPT-4 কে জিজ্ঞাসা করুন একটি বল গড়িয়ে পড়লে কি হয়, এবং এটি স্মৃতিশীল বর্ণনার উপর নির্ভর করে, প্রকৃত ভৌত স্বজ্ঞা নয়।

এটি গুরুত্বপূর্ণ কারণ বুদ্ধিমত্তা, যেমনটি আমরা জৈব বিশ্বে অনুভব করি, তা মূলত ভৌত বাস্তবতায় নিহিত। একটি ছোট শিশু ব্লক স্ট্যাক করা শিখার সময় ভাষা শেখার অনেক আগেই গুরুত্ব, ভারসাম্য এবং উপকরণ বৈশিষ্ট্যের স্বজ্ঞাত বোঝাপড়া বিকাশ করে। এই শারীরিক জ্ঞান, বিশ্ব কীভাবে কাজ করে তার এই অনুভূতি, ঠিক যা বর্তমান AI সিস্টেমে অনুপস্থিত।

বিশ্ব মডেল এই ফাঁক পূরণের লক্ষ্য রাখে। পরবর্তী টোকেন পূর্বাভাসের পরিবর্তে, তারা পরবর্তী ফ্রেম, পরবর্তী ভৌত অবস্থা, একটি কর্মের পরবর্তী পরিণতি পূর্বাভাস দেয়।

বিশ্ব বোঝার জন্য তিনটি পদ্ধতি

বিশ্ব-বোঝার AI তৈরির প্রতিযোগিতা তিনটি স্বতন্ত্র প্যারাডাইমে বিভক্ত হয়েছে, প্রতিটির নিজস্ব শক্তি রয়েছে।

ভিডিও পূর্বাভাস মডেল

নিহিত পদার্থবিজ্ঞান শিখতে বিশাল ভিডিও ডেটাসেটে প্রশিক্ষণ দিন। উদাহরণগুলি Sora এবং Veo অন্তর্ভুক্ত করে। প্রশংসনীয় ধারাবাহিকতা তৈরিতে ভাল কিন্তু ইন্টারেক্টিভ পরিস্থিতিতে সংগ্রাম করে।

অনুকরণ-ভিত্তিক মডেল

স্পষ্ট পদার্থবিজ্ঞান ইঞ্জিন তৈরি করুন এবং AI-কে সেগুলি নেভিগেট করতে প্রশিক্ষণ দিন। পরিবেশের ব্যয়বহুল ম্যানুয়াল নির্মাণ প্রয়োজন কিন্তু সঠিক ভৌত নির্ভুলতা প্রদান করে।

তৃতীয় পদ্ধতি, এবং সম্ভবত সবচেয়ে প্রতিশ্রুতিশীল, উভয়কে একত্রিত করে: ভিডিও থেকে বিশ্বের গতিশীলতা শিখা যখন পরিবেশের সাথে ইন্টারেক্ট করা এবং হেরফের করার ক্ষমতা বজায় রাখা। এখানেই গেমিং অপরিহার্য হয়ে ওঠে।

গেমিং: নিখুঁত প্রমাণ ক্ষেত্র

ভিডিও গেম কিছু অনন্য প্রদান করে: সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান নিয়ম সহ ইন্টারেক্টিভ পরিবেশ, অসীম বৈচিত্র্য এবং স্পষ্ট সাফল্যের মেট্রিক্স। বাস্তব-বিশ্বের রোবোটিক্সের বিপরীতে, যা ব্যয়বহুল হার্ডওয়্যার প্রয়োজন এবং সুরক্ষা উদ্বেগ উপস্থাপন করে, গেম অসীম ব্যর্থতা প্রদান করে পরিণতি ছাড়াই।

$500B+
2030 সালের মধ্যে গেমিং বাজার
€500M
AMI Labs তহবিল
12%
বার্ষিক বৃদ্ধির হার

DeepMind এই সম্ভাবনা তাড়াতাড়ি স্বীকার করেছিল। তাদের Genie সিস্টেম একটি একক ছবি থেকে সম্পূর্ণ নতুন খেলযোগ্য পরিবেশ তৈরি করতে পারে। এটি একটি প্ল্যাটফর্মার স্তরের একটি স্কেচ দিন, এবং এটি সামঞ্জস্যপূর্ণ পদার্থবিজ্ঞান সহ একটি বিশ্ব তৈরি করে যেখানে চরিত্ররা লাফাতে, পড়তে এবং বস্তুর সাথে উপযুক্তভাবে ইন্টারেক্ট করতে পারে।

Genie কে অসাধারণ করে তোলে তা কেবল প্রজন্ম নয় বরং বোঝাপড়া। সিস্টেম সাধারণীকরণযোগ্য পদার্থবিজ্ঞান ধারণা শিখে যা বিভিন্ন ভিজ্যুয়াল শৈলী এবং গেম ধরনের মধ্যে স্থানান্তরিত হয়। Mario-স্টাইলের প্ল্যাটফর্মারে প্রশিক্ষিত একটি মডেল গুরুত্ব এবং সংঘর্ষ সম্পর্কে স্বজ্ঞা বিকাশ করে যা হাতে আঁকা ইন্ডি গেম এবং বাস্তবসম্মত 3D পরিবেশ উভয়ের ক্ষেত্রে সমানভাবে প্রয়োগ হয়।

গেম থেকে রোবট পর্যন্ত

গেমিং-থেকে-রোবোটিক্স পাইপলাইন তাত্ত্বিক নয়। কোম্পানিগুলি ইতিমধ্যে এটি ব্যবহার করছে।

2024

অনুকরণ ফাঁক সনাক্ত করা

গবেষণা দেখায় যে বিশুদ্ধ অনুকরণে প্রশিক্ষিত মডেল বাস্তব-বিশ্বের বিশৃঙ্খলার সাথে সংগ্রাম করে: পরিবর্তনশীল আলো, অপূর্ণ সেন্সর, অপ্রত্যাশিত বস্তু।

2025

হাইব্রিড পদ্ধতি উদ্ভূত হয়

দলগুলি গেম-প্রশিক্ষিত বিশ্ব মডেলগুলিকে সীমিত বাস্তব-বিশ্বের সূক্ষ্ম-টিউনিংয়ের সাথে একত্রিত করে, রোবোট প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটা নাটকীয়ভাবে হ্রাস করে।

2026

বাণিজ্যিক স্থাপনা শুরু হয়

প্রথম গুদাম রোবোট যা বিশ্ব মডেল ব্যাকবোন ব্যবহার করে উৎপাদনে প্রবেশ করে, স্পষ্ট প্রোগ্রামিং ছাড়াই উপন্যাস বস্তু পরিচালনা করে।

এই রূপান্তর চালিত অন্তর্দৃষ্টি সরল: পদার্থবিজ্ঞান পদার্থবিজ্ঞান। একটি মডেল যা সত্যিই বোঝে কিভাবে বস্তু একটি ভিডিও গেমে পড়ে, স্লাইড এবং সংঘর্ষ করে, উপযুক্ত অভিযোজনের সাথে, বাস্তব বিশ্বে একই নীতি বুঝতে হবে। ভিজ্যুয়াল চেহারা পরিবর্তিত হয়, কিন্তু অন্তর্নিহিত গতিশীলতা স্থির থাকে।

Tesla তাদের Optimus রোবটগুলির সাথে এই কৌশলের একটি সংস্করণ অনুসরণ করেছে, অনুকরণে প্রথম প্রশিক্ষণ দিয়ে নিয়ন্ত্রিত কারখানার পরিবেশে স্থাপনার আগে। সীমাবদ্ধ কারণ সর্বদা অনুকৃত এবং বাস্তব পদার্থবিজ্ঞানের মধ্যে ফাঁক রেখে গেছে। বৈচিত্র্যময় ভিডিও ডেটায় প্রশিক্ষিত বিশ্ব মডেলগুলি অবশেষে সেই ফাঁক পূরণ করতে পারে।

AMI Labs বাজি

Yann LeCun এর নতুন উদ্যোগ, AMI Labs, বিশ্ব মডেল গবেষণায় এখন পর্যন্ত সবচেয়ে বড় একক বিনিয়োগ প্রতিনিধিত্ব করে। €500 মিলিয়ন ইউরোপীয় তহবিল এবং Meta, DeepMind এবং শিক্ষাবৃত্তিক ল্যাব থেকে নিয়োগকৃত একটি দল সহ, তারা যা অনুসরণ করছে তা LeCun "উদ্দেশ্য-চালিত AI" বলে আখ্যায়িত করেন।

💡

LLM এর বিপরীতে যা টোকেন পূর্বাভাস দেয়, AMI এর পদ্ধতি বিশ্বের প্রতিনিধিত্ব শিখার উপর দৃষ্টি নিবদ্ধ করে যা ভৌত পরিণতি সম্পর্কে পরিকল্পনা এবং যুক্তিবাদ সক্ষম করে।

প্রযুক্তিগত ভিত্তি Joint Embedding Predictive Architecture (JEPA) এ নির্মিত, একটি কাঠামো যা LeCun বছরের পর বছর ধরে সমর্থন করে এসেছেন। পিক্সেল-স্তরের পূর্বাভাস তৈরি করার পরিবর্তে, যা বিশাল গণনাগত সম্পদ প্রয়োজন, JEPA বিমূর্ত প্রতিনিধিত্ব শিখে যা ভৌত সিস্টেমের অপরিহার্য কাঠামো ক্যাপচার করে।

এটি এভাবে চিন্তা করুন: একটি মানুষ যে একটি বল একটি পাড়ের দিকে গড়িয়ে যাওয়া দেখছে বল এর প্রক্ষেপপথের প্রতিটি পিক্সেল অনুকরণ করে না। পরিবর্তে, আমরা বিমূর্ত পরিস্থিতি চিনতে পারি (বল, প্রান্ত, গুরুত্ব) এবং ফলাফল পূর্বাভাস দিই (পতন)। JEPA এই দক্ষ, বিমূর্ত যুক্তিবাদ ক্যাপচার করার লক্ষ্য রাখে।

AI ভিডিও প্রজন্মের জন্য অন্তর্নিহিত

এই গবেষণা প্রক্ষেপপথ সৃজনশীল প্রয়োগের জন্য গভীর গুরুত্ব রাখে। বর্তমান AI ভিডিও জেনারেটর চিত্তাকর্ষক ফলাফল তৈরি করে কিন্তু সময়গত অসঙ্গতিতে ভোগে। চরিত্ররা রূপান্তরিত হয়, পদার্থবিজ্ঞান ভেঙে যায় এবং বস্তু প্রদর্শিত এবং অদৃশ্য হয়।

বিশ্ব মডেলগুলি একটি সম্ভাব্য সমাধান প্রদান করে। একটি জেনারেটর যা সত্যিই পদার্থবিজ্ঞানকে বোঝে ভিডিও উৎপাদন করা উচিত যেখানে বস্তু সামঞ্জস্যপূর্ণ নিয়ম মেনে চলে, যেখানে পড়ন্ত বস্তু অনুমানযোগ্যভাবে পড়ে, যেখানে প্রতিফলন সঠিকভাবে আচরণ করে।

বর্তমান স্থিতি

মডেলগুলি ভৌত সামঞ্জস্য প্রয়োগ না করে দৃশ্যত প্রশংসনীয় ফ্রেম উত্পন্ন করে। ছোট ক্লিপের জন্য কাজ করে কিন্তু দীর্ঘ সময়ে ভেঙে পড়ে।

বিশ্ব মডেল ভবিষ্যত

শেখা বিশ্ব গতিশীলতা থেকে ভৌত সামঞ্জস্য উদ্ভূত হয়। দীর্ঘতর, আরও সামঞ্জস্যপূর্ণ ভিডিও সম্ভব হয়ে ওঠে কারণ মডেল বিশ্বের একটি অভ্যন্তরীণ অবস্থা বজায় রাখে।

আমরা ইতিমধ্যে এই রূপান্তরের প্রাথমিক লক্ষণ দেখছি। Runway এর GWM-1 বিশ্ব মডেলগুলির উপর তাদের বাজি প্রতিনিধিত্ব করে, এবং Veo 3.1 এর উন্নত পদার্থবিজ্ঞান অনুকরণ পরামর্শ দেয় যে Google অনুরূপ নীতি অন্তর্ভুক্ত করছে।

AGI সংযোগ

এটি সবকিছু কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য কেন গুরুত্বপূর্ণ? কারণ প্রকৃত বুদ্ধিমত্তার জন্য ভাষা ম্যানিপুলেশনের চেয়ে বেশি প্রয়োজন। এটি কারণ এবং প্রভাব বোঝা, পরিণতি পূর্বাভাস এবং একটি ভৌত বিশ্বে কর্ম পরিকল্পনা প্রয়োজন।

🧠

মূর্ত জ্ঞান

প্রকৃত বুদ্ধিমত্তার জন্য শুধুমাত্র পাঠ্যে পদ্ধতিগত নিদর্শন নয় বরং ভৌত বাস্তবতায় ভিত্তি প্রয়োজন হতে পারে।

🎮

ইন্টারেক্টিভ শিক্ষা

গেম পরীক্ষার জন্য নিখুঁত প্রদান করে: সমৃদ্ধ পদার্থবিজ্ঞান, স্পষ্ট প্রতিক্রিয়া, অসীম পুনরাবৃত্তি।

🤖

রোবোটিক্স প্রয়োগ

গেমে প্রশিক্ষিত বিশ্ব মডেলগুলি ন্যূনতম অভিযোজনের সাথে বাস্তব-বিশ্বের রোবোটিক্সে স্থানান্তরিত হতে পারে।

এই কাজ চালনাকারী গবেষকরা সাবধানে দাবি করেন না যে তারা AGI তৈরি করছেন। কিন্তু তারা দৃঢ়তার সাথে যুক্তি দেন যে বিশ্ব বোঝা ছাড়া, আমরা এমন সিস্টেম তৈরি করতে পারি না যা সত্যিই চিন্তা করে বরং শুধুমাত্র স্বয়ংপূর্ণ সম্পূর্ণ করে।

পরবর্তীতে কী আসে

পরবর্তী দুই বছর সমালোচনামূলক প্রমাণিত হবে। দেখার জন্য বেশ কয়েকটি উন্নয়ন:

  • AMI Labs প্রথম জনসাধারণ প্রদর্শন (2026 সালের মধ্য-প্রত্যাশিত)
  • প্রধান ভিডিও জেনারেটরগুলিতে বিশ্ব মডেলগুলির একীকরণ
  • গেম ইঞ্জিন কোম্পানিগুলি (Unity, Unreal) বিশ্ব মডেল API যোগ করা
  • গেম-প্রশিক্ষিত বিশ্ব মডেল ব্যবহার করে প্রথম ভোক্তা রোবট

2030 সালের মধ্যে $500 বিলিয়ন অতিক্রম করার জন্য প্রক্ষিপ্ত গেমিং বাজার বিশ্ব মডেল স্থাপনার জন্য উর্বর ভূমি প্রতিনিধিত্ব করে। বিনিয়োগকারীরা বিশ্ব মডেলগুলিকে শুধুমাত্র গবেষণা কৌতূহল হিসাবে নয় বরং ইন্টারেক্টিভ বিনোদন, অনুকরণ এবং রোবোটিক্সের জন্য মৌলিক প্রযুক্তি হিসাবে দেখে।

নীরব বিপ্লব

ChatGPT এর চারপাশে বিস্ফোরক হাইপের বিপরীতে, বিশ্ব মডেল বিপ্লব গবেষণা প্রয়োগশালা এবং গেম স্টুডিওতে চুপচাপ সামনে আসে। কোনো ভাইরাল ডেমো নেই, সর্বশেষ অগ্রগতি সম্পর্কে কোনো দৈনিক সংবাদ চক্র নেই।

তবে অন্তর্নিহিত হতে পারে গভীর। ভাষা মডেলগুলি কিভাবে আমরা পাঠ্যের সাথে ইন্টারঅ্যাক্ট করি তা পরিবর্তন করেছে। বিশ্ব মডেলগুলি AI বাস্তবতার সাথে কিভাবে ইন্টারঅ্যাক্ট করে তা পরিবর্তন করতে পারে।

যারা AI ভিডিও প্রজন্মে কাজ করছেন তাদের জন্য এই গবেষণা উভয় হুমকি এবং সুযোগ প্রতিনিধিত্ব করে। আমাদের বর্তমান সরঞ্জামগুলি পূর্বাবাস থেকে আদিম দেখাতে পারে, আধুনিক ভিজ্যুয়াল প্রভাবের তুলনায় প্রাথমিক CGI এর মত। তবে অন্তর্নিহিত নীতি, শেখা মডেলের মাধ্যমে ভিজ্যুয়াল সামগ্রী উত্পন্ন করা, শুধুমাত্র আরও শক্তিশালী হয়ে উঠবে যখন সেই মডেলগুলি সত্যিই যে বিশ্বগুলি তৈরি করে তা বুঝতে শুরু করে।

💡

আরও পড়ুন: কীভাবে diffusion transformers অনেক বিশ্ব মডেলের জন্য স্থাপত্য ভিত্তি প্রদান করে তা অন্বেষণ করুন, অথবা real-time interactive generation সম্পর্কে জানুন যা বিশ্ব মডেল নীতির উপর নির্মিত।

ভিডিও গেম পদার্থবিজ্ঞান থেকে কৃত্রিম সাধারণ বুদ্ধিমত্তা পর্যন্ত পথ পরিক্রমা করে মনে হতে পারে। তবে বুদ্ধিমত্তা, যেখানেই আমরা এটি পাই, এমন সিস্টেম থেকে উদ্ভূত হয় যা তাদের পরিবেশ বোঝে এবং তাদের কর্মের পরিণতি পূর্বাভাস দিতে পারে। গেম আমাদের এমন সিস্টেম তৈরি এবং পরীক্ষা করার জন্য একটি নিরাপদ স্থান দেয়। রোবট, সৃজনশীল সরঞ্জাম এবং সম্ভবত প্রকৃত যন্ত্র বোঝাপড়া অনুসরণ করবে।

এই নিবন্ধটি কি সহায়ক ছিল?

Alexis

Alexis

এআই ইঞ্জিনিয়ার

লোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

সম্পর্কিত নিবন্ধসমূহ

এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

ইয়ান লেকুন মেটা ছেড়ে ওয়ার্ল্ড মডেলে $3.5 বিলিয়নের বাজি ধরলেন
World ModelsAMI Labs

ইয়ান লেকুন মেটা ছেড়ে ওয়ার্ল্ড মডেলে $3.5 বিলিয়নের বাজি ধরলেন

টুরিং পুরস্কার বিজয়ী AMI Labs চালু করলেন, একটি নতুন স্টার্টআপ যা LLM-এর পরিবর্তে ওয়ার্ল্ড মডেলে ফোকাস করছে, রোবোটিক্স, হেলথকেয়ার এবং ভিডিও বোঝার ক্ষেত্রে লক্ষ্য স্থির করেছে।

Read
Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
RunwayWorld Models

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে

Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।

Read
Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত
World ModelsVideo Language Models

Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত

World models AI কে ভৌত বাস্তবতা বুঝতে শেখাচ্ছে, রোবটদের একটিও actuator না নাড়িয়ে actions পরিকল্পনা করতে এবং outcomes সিমুলেট করতে সক্ষম করছে।

Read

এই নিবন্ধটি কি আপনার ভালো লেগেছে?

আরও অন্তর্দৃষ্টি আবিষ্কার করুন এবং আমাদের সর্বশেষ কন্টেন্ট দিয়ে আপডেট থাকুন।

ভিডিওর বাইরে বিশ্ব মডেল: গেমিং এবং রোবোটিক্স কেন AGI এর প্রকৃত পরীক্ষা ক্ষেত্র