World Labs Marble: Fei-Fei Li-র Spatial Intelligence এর Vision
AI pioneer Fei-Fei Li launch করলেন Marble, একটি commercial platform যা text এবং images থেকে explorable 3D worlds generate করে, spatial AI-তে নতুন frontier mark করছে।

ImageNet থেকে World Models পর্যন্ত
World models কীভাবে AI video evolution-এ fit করে তার context-এর জন্য, দেখুন আমাদের world models-এর overview যা next frontier।
Fei-Fei Li ImageNet দিয়ে computer vision-এ revolution এনেছিলেন, সেই dataset যা modern deep learning possible করেছে। এখন, $230 million funding নিয়ে এক বছর World Labs build করার পরে, তিনি launch করলেন Marble, company-র first commercial product।
Thesis টা simple: AI first text conquer করেছে, then images, then video। Next frontier হলো spatial intelligence, 3D worlds perceive, generate এবং interact করার ability।
Marble কী করে
Marble multiple input types থেকে persistent, downloadable 3D environments generate করে:
- ✓Text prompts
- ✓Single images
- ✓Videos
- ✓Panoramas
- ✓3D layouts
Competitors যেমন Decart's Oasis বা Google's Genie-র real-time world models-এর unlike, Marble minimal morphing সহ stable worlds create করে। আপনি একবার generate করেন, তারপর AI যা create করেছে তা "ভুলে" না গিয়ে freely explore করেন।
Chisel Editor
AI-Native 3D Editing
Chisel spatial structure-কে visual style থেকে decouple করে। First আপনার layout block out করুন, তারপর text-based styling guidance apply করুন।
এই hybrid approach Marble-কে text-to-scene models থেকে আলাদা করে। AI আপনার spatial intent বুঝবে বলে hope করার instead, আপনি geometry explicitly define করেন। AI aesthetics, materials এবং lighting handle করে।
এটা একটা floor plan sketch করার মতো ভাবুন interior designer-কে decorate করতে বলার আগে। Spatial relationships-এর ওপর control আপনার কাছেই থাকে।
Export Formats এবং Compatibility
Generated worlds তিনটি formats-এ export হয়:
| Format | Use Case |
|---|---|
| Gaussian Splats | Real-time rendering, novel views |
| Meshes | Game engines, CAD integration |
| Videos | Content creation, pre-vis |
সব Marble worlds Vision Pro এবং Quest 3 headsets-এর সাথে out of the box VR-compatible।
Pricing Structure
World Labs চারটি tiers offer করে:
| Tier | Price | Generations | Key Features |
|---|---|---|---|
| Free | $0 | 4/month | Text, image, বা panorama input |
| Standard | $20/month | 12/month | Multi-image/video input, advanced editing |
| Pro | $35/month | 25/month | Scene expansion, commercial rights |
| Max | $95/month | 75/month | All features, maximum generations |
Free tier আপনাকে technology evaluate করতে দেয়। Commercial rights require করা production work-এর জন্য, Pro tier $35/month-এ এতটা novel capability-র জন্য reasonable entry pricing represent করে।
Spatial Intelligence কেন Matter করে
"Spatial intelligence হলো next decade-এর defining challenge।" - Fei-Fei Li
Li argue করেন যে current AI-র একটা fundamental limitation আছে: এটা 3D space নিয়ে poorly reason করে। Language models physics নিয়ে hallucinate করে। Video models impossible geometries create করে। Image generators consistent spatial relationships নিয়ে struggle করে।
Robotics-এর জন্য, এটা enormously matter করে। একটা kitchen navigate করা robot-এর spatial understanding দরকার, frame prediction না। VFX-এর জন্য, directors-এর explorable environments দরকার, fixed camera paths না।
Use Cases Taking Shape
Gaming Ambient environments এবং background spaces generate করুন। Indie developers এমন exploration areas create করতে পারে যা traditional art production-এ months require করত।
Visual Effects Pre-visualization interactive হয়ে যায়। Scene spatially block out করুন, তারপর shots-এ commit করার আগে camera angles explore করুন।
Architecture Floor plans-কে explorable walkthroughs-এ convert করুন। Clients construction শুরুর আগে spaces experience করে।
Education Li envision করেন students cell-এর ভেতরে walking করছে, surgeons anatomical simulations-এর ভেতরে practicing করছে।
World Expansion এবং Composer Mode
দুটো features scale limitations address করে:
World Expansion আপনাকে generated world একবার extend করতে দেয়, edge regions-এ detail add করে যেখানে quality typically degrade হয়। এটা explorable space-এর boundaries initial generation limits-এর beyond push করে।
Composer Mode multiple worlds-কে larger environments-এ combine করে। Individual rooms generate করুন, তারপর তাদের complete building-এ stitch করুন।
এই tools current constraints acknowledge করে practical workarounds provide করার সাথে সাথে।
Competition Landscape
Marble একটা crowded field-এ enter করছে:
| Product | Approach | Differentiator |
|---|---|---|
| Decart Oasis | Real-time game generation | Interactive, কিন্তু worlds exploration-এ shift করে |
| Google Genie | Game world generation | True 3D ছাড়া frame prediction |
| Odyssey | Persistent world models | Enterprise focus |
| World Labs Marble | Static 3D generation | Downloadable, editable, VR-ready |
Trade-off clear। Real-time models যেমন Oasis immediacy offer করে কিন্তু instability। Marble interactivity-র ওপর persistence এবং editability-কে prioritize করে।
Video Generation-এর সাথে Connecting
Spatial AI-তে ব্যবহৃত diffusion architectures-এর background-এর জন্য, দেখুন আমাদের diffusion transformers-এর technical overview।
3D world generation video-র সাথে কীভাবে relate করে? তারা diffusion models-এ mathematical foundations share করে, কিন্তু different problems solve করে।
Video generation temporal sequences create করে, frame after frame। Spatial AI geometric representations create করে, surfaces এবং volumes। Video "what happens next?" answer করে। Spatial AI "what exists here?" answer করে।
Convergence point: navigable video। একটা 3D world generate করুন, তারপর আপনি এর মধ্য দিয়ে move করার সময় video render করুন। এই approach pure video generation-এর সাথে impossible camera control offer করে।
Limitations Consider করার মতো
Marble complete solution না:
- ○কোনো animated characters বা dynamic elements নেই
- ○Generation caps production workflows limit করতে পারে
- ○Edge degradation expansion passes require করে
- ○শুধুমাত্র static environments
Animated content-এর জন্য, আপনার এখনও video generation models দরকার। Marble environments এবং spaces-এ excel করে, actors বা actions-এ না।
Bigger Picture
Fei-Fei Li spatial intelligence-কে AI progress-এর জন্য essential দেখেন:
"আমি মনে করি আমাদের সবার দায়িত্ব আছে AI-কে better state-এ নিয়ে যাওয়ার যখন এটা more powerful হচ্ছে। আমাদের সবার চাওয়া উচিত humanity prevail করুক এবং thrive করুক।"
তাঁর vision entertainment-এর beyond extend করে। Medical simulations যেখানে students anatomy explore করে। Scientific visualizations যেখানে researchers molecular structures navigate করে। Robotic training environments যা on demand generate হয়।
Marble হলো step one, একটা commercial proof of concept। Research continue করছে more dynamic, interactive এবং physically accurate world generation-এর দিকে।
Getting Started
World Labs মাসে 4 generations সহ free tier offer করে। Technology evaluate করতে এবং এর constraints বুঝতে যথেষ্ট।
যে creators already 3D-তে work করছে তাদের জন্য, mesh export capability existing pipelines-এর সাথে integrate করে। Video producers-এর জন্য, video export অন্য কোথাও unavailable pre-visualization capabilities provide করে।
Related reading: আমাদের AI video character consistency-র guide generated content across coherence maintain করার techniques cover করে, একটা challenge যা Marble persistent 3D representation-এর মাধ্যমে address করে।
2D generation থেকে 3D world creation-এ transition AI যা produce করতে পারে তার মধ্যে fundamental shift represent করে। Marble সেই shift-কে accessible করে তোলে।
এই নিবন্ধটি কি সহায়ক ছিল?

Alexis
এআই ইঞ্জিনিয়ারলোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।
সম্পর্কিত নিবন্ধসমূহ
এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।

YouTube Shorts-এ Veo 3 Fast: ২.৫ বিলিয়ন ব্যবহারকারীর জন্য বিনামূল্যে AI ভিডিও তৈরি
Google তার Veo 3 Fast মডেল সরাসরি YouTube Shorts-এ সংযুক্ত করেছে, বিশ্বজুড়ে ক্রিয়েটরদের জন্য অডিও সহ বিনামূল্যে টেক্সট-টু-ভিডিও জেনারেশন অফার করছে। প্ল্যাটফর্ম এবং AI ভিডিও অ্যাক্সেসিবিলিটির জন্য এর অর্থ কী তা জানুন।

Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত
World models AI কে ভৌত বাস্তবতা বুঝতে শেখাচ্ছে, রোবটদের একটিও actuator না নাড়িয়ে actions পরিকল্পনা করতে এবং outcomes সিমুলেট করতে সক্ষম করছে।