Meta Pixel
AlexisAlexis
6 min read
1177 শব্দ

World Labs Marble: Fei-Fei Li-র Spatial Intelligence এর Vision

AI pioneer Fei-Fei Li launch করলেন Marble, একটি commercial platform যা text এবং images থেকে explorable 3D worlds generate করে, spatial AI-তে নতুন frontier mark করছে।

World Labs Marble: Fei-Fei Li-র Spatial Intelligence এর Vision
যে researcher machines-কে দেখার ability দিয়েছিলেন, এখন তিনি তাদের পুরো worlds imagine করতে শেখাচ্ছেন। World Labs Marble-এর সাথে, Fei-Fei Li video generation-এর পরে next step নিচ্ছেন persistent, explorable 3D environments-এ।

ImageNet থেকে World Models পর্যন্ত

💡

World models কীভাবে AI video evolution-এ fit করে তার context-এর জন্য, দেখুন আমাদের world models-এর overview যা next frontier

Fei-Fei Li ImageNet দিয়ে computer vision-এ revolution এনেছিলেন, সেই dataset যা modern deep learning possible করেছে। এখন, $230 million funding নিয়ে এক বছর World Labs build করার পরে, তিনি launch করলেন Marble, company-র first commercial product।

Thesis টা simple: AI first text conquer করেছে, then images, then video। Next frontier হলো spatial intelligence, 3D worlds perceive, generate এবং interact করার ability।

$230M
Funding Raised
4
Pricing Tiers
3D
Native Output

Marble কী করে

Marble multiple input types থেকে persistent, downloadable 3D environments generate করে:

  • Text prompts
  • Single images
  • Videos
  • Panoramas
  • 3D layouts

Competitors যেমন Decart's Oasis বা Google's Genie-র real-time world models-এর unlike, Marble minimal morphing সহ stable worlds create করে। আপনি একবার generate করেন, তারপর AI যা create করেছে তা "ভুলে" না গিয়ে freely explore করেন।

Chisel Editor

🔨

AI-Native 3D Editing

Chisel spatial structure-কে visual style থেকে decouple করে। First আপনার layout block out করুন, তারপর text-based styling guidance apply করুন।

এই hybrid approach Marble-কে text-to-scene models থেকে আলাদা করে। AI আপনার spatial intent বুঝবে বলে hope করার instead, আপনি geometry explicitly define করেন। AI aesthetics, materials এবং lighting handle করে।

এটা একটা floor plan sketch করার মতো ভাবুন interior designer-কে decorate করতে বলার আগে। Spatial relationships-এর ওপর control আপনার কাছেই থাকে।

Export Formats এবং Compatibility

Generated worlds তিনটি formats-এ export হয়:

FormatUse Case
Gaussian SplatsReal-time rendering, novel views
MeshesGame engines, CAD integration
VideosContent creation, pre-vis
💡

সব Marble worlds Vision Pro এবং Quest 3 headsets-এর সাথে out of the box VR-compatible।

Pricing Structure

World Labs চারটি tiers offer করে:

TierPriceGenerationsKey Features
Free$04/monthText, image, বা panorama input
Standard$20/month12/monthMulti-image/video input, advanced editing
Pro$35/month25/monthScene expansion, commercial rights
Max$95/month75/monthAll features, maximum generations

Free tier আপনাকে technology evaluate করতে দেয়। Commercial rights require করা production work-এর জন্য, Pro tier $35/month-এ এতটা novel capability-র জন্য reasonable entry pricing represent করে।

Spatial Intelligence কেন Matter করে

"Spatial intelligence হলো next decade-এর defining challenge।" - Fei-Fei Li

Li argue করেন যে current AI-র একটা fundamental limitation আছে: এটা 3D space নিয়ে poorly reason করে। Language models physics নিয়ে hallucinate করে। Video models impossible geometries create করে। Image generators consistent spatial relationships নিয়ে struggle করে।

Current Approaches
Video models true 3D understanding ছাড়া frame sequences generate করে। Camera movements inconsistencies reveal করে। Objects position change করে বা disappear করে।
Spatial Intelligence
Native 3D representation physically consistent worlds enable করে। Camera freely move করুন। Environment persist করে কারণ এটা geometry হিসেবে exist করে, pixels না।

Robotics-এর জন্য, এটা enormously matter করে। একটা kitchen navigate করা robot-এর spatial understanding দরকার, frame prediction না। VFX-এর জন্য, directors-এর explorable environments দরকার, fixed camera paths না।

Use Cases Taking Shape

Gaming Ambient environments এবং background spaces generate করুন। Indie developers এমন exploration areas create করতে পারে যা traditional art production-এ months require করত।

Visual Effects Pre-visualization interactive হয়ে যায়। Scene spatially block out করুন, তারপর shots-এ commit করার আগে camera angles explore করুন।

Architecture Floor plans-কে explorable walkthroughs-এ convert করুন। Clients construction শুরুর আগে spaces experience করে।

Education Li envision করেন students cell-এর ভেতরে walking করছে, surgeons anatomical simulations-এর ভেতরে practicing করছে।

World Expansion এবং Composer Mode

দুটো features scale limitations address করে:

World Expansion আপনাকে generated world একবার extend করতে দেয়, edge regions-এ detail add করে যেখানে quality typically degrade হয়। এটা explorable space-এর boundaries initial generation limits-এর beyond push করে।

Composer Mode multiple worlds-কে larger environments-এ combine করে। Individual rooms generate করুন, তারপর তাদের complete building-এ stitch করুন।

এই tools current constraints acknowledge করে practical workarounds provide করার সাথে সাথে।

Competition Landscape

Marble একটা crowded field-এ enter করছে:

ProductApproachDifferentiator
Decart OasisReal-time game generationInteractive, কিন্তু worlds exploration-এ shift করে
Google GenieGame world generationTrue 3D ছাড়া frame prediction
OdysseyPersistent world modelsEnterprise focus
World Labs MarbleStatic 3D generationDownloadable, editable, VR-ready

Trade-off clear। Real-time models যেমন Oasis immediacy offer করে কিন্তু instability। Marble interactivity-র ওপর persistence এবং editability-কে prioritize করে।

Video Generation-এর সাথে Connecting

💡

Spatial AI-তে ব্যবহৃত diffusion architectures-এর background-এর জন্য, দেখুন আমাদের diffusion transformers-এর technical overview

3D world generation video-র সাথে কীভাবে relate করে? তারা diffusion models-এ mathematical foundations share করে, কিন্তু different problems solve করে।

Video generation temporal sequences create করে, frame after frame। Spatial AI geometric representations create করে, surfaces এবং volumes। Video "what happens next?" answer করে। Spatial AI "what exists here?" answer করে।

Convergence point: navigable video। একটা 3D world generate করুন, তারপর আপনি এর মধ্য দিয়ে move করার সময় video render করুন। এই approach pure video generation-এর সাথে impossible camera control offer করে।

Limitations Consider করার মতো

Marble complete solution না:

  • কোনো animated characters বা dynamic elements নেই
  • Generation caps production workflows limit করতে পারে
  • Edge degradation expansion passes require করে
  • শুধুমাত্র static environments

Animated content-এর জন্য, আপনার এখনও video generation models দরকার। Marble environments এবং spaces-এ excel করে, actors বা actions-এ না।

Bigger Picture

Fei-Fei Li spatial intelligence-কে AI progress-এর জন্য essential দেখেন:

"আমি মনে করি আমাদের সবার দায়িত্ব আছে AI-কে better state-এ নিয়ে যাওয়ার যখন এটা more powerful হচ্ছে। আমাদের সবার চাওয়া উচিত humanity prevail করুক এবং thrive করুক।"

তাঁর vision entertainment-এর beyond extend করে। Medical simulations যেখানে students anatomy explore করে। Scientific visualizations যেখানে researchers molecular structures navigate করে। Robotic training environments যা on demand generate হয়।

Marble হলো step one, একটা commercial proof of concept। Research continue করছে more dynamic, interactive এবং physically accurate world generation-এর দিকে।

Getting Started

World Labs মাসে 4 generations সহ free tier offer করে। Technology evaluate করতে এবং এর constraints বুঝতে যথেষ্ট।

যে creators already 3D-তে work করছে তাদের জন্য, mesh export capability existing pipelines-এর সাথে integrate করে। Video producers-এর জন্য, video export অন্য কোথাও unavailable pre-visualization capabilities provide করে।

💡

Related reading: আমাদের AI video character consistency-র guide generated content across coherence maintain করার techniques cover করে, একটা challenge যা Marble persistent 3D representation-এর মাধ্যমে address করে।

2D generation থেকে 3D world creation-এ transition AI যা produce করতে পারে তার মধ্যে fundamental shift represent করে। Marble সেই shift-কে accessible করে তোলে।

এই নিবন্ধটি কি সহায়ক ছিল?

Alexis

Alexis

এআই ইঞ্জিনিয়ার

লোজান থেকে আসা এআই ইঞ্জিনিয়ার যিনি গবেষণার গভীরতাকে ব্যবহারিক উদ্ভাবনের সাথে মিশ্রিত করেন। মডেল আর্কিটেকচার এবং আল্পাইন শৃঙ্গের মধ্যে সময় ভাগ করেন।

সম্পর্কিত নিবন্ধসমূহ

এই সম্পর্কিত পোস্টগুলির সাথে অন্বেষণ চালিয়ে যান

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে
RunwayWorld Models

Runway GWM-1: সাধারণ বিশ্ব মডেল যা রিয়েল টাইমে বাস্তবতা সিমুলেট করে

Runway-এর GWM-1 ভিডিও তৈরি থেকে বিশ্ব সিমুলেশনে একটি প্যারাডাইম শিফ্ট চিহ্নিত করে। অন্বেষণ করুন কীভাবে এই অটোরিগ্রেসিভ মডেল অন্বেষণযোগ্য পরিবেশ, ফটোরিয়েলিস্টিক অবতার এবং রোবট প্রশিক্ষণ সিমুলেশন তৈরি করে।

Read
YouTube Shorts-এ Veo 3 Fast: ২.৫ বিলিয়ন ব্যবহারকারীর জন্য বিনামূল্যে AI ভিডিও তৈরি
YouTubeVeo 3

YouTube Shorts-এ Veo 3 Fast: ২.৫ বিলিয়ন ব্যবহারকারীর জন্য বিনামূল্যে AI ভিডিও তৈরি

Google তার Veo 3 Fast মডেল সরাসরি YouTube Shorts-এ সংযুক্ত করেছে, বিশ্বজুড়ে ক্রিয়েটরদের জন্য অডিও সহ বিনামূল্যে টেক্সট-টু-ভিডিও জেনারেশন অফার করছে। প্ল্যাটফর্ম এবং AI ভিডিও অ্যাক্সেসিবিলিটির জন্য এর অর্থ কী তা জানুন।

Read
Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত
World ModelsVideo Language Models

Video Language Models: LLMs এবং AI Agents এর পরবর্তী সীমান্ত

World models AI কে ভৌত বাস্তবতা বুঝতে শেখাচ্ছে, রোবটদের একটিও actuator না নাড়িয়ে actions পরিকল্পনা করতে এবং outcomes সিমুলেট করতে সক্ষম করছে।

Read

এই নিবন্ধটি কি আপনার ভালো লেগেছে?

আরও অন্তর্দৃষ্টি আবিষ্কার করুন এবং আমাদের সর্বশেষ কন্টেন্ট দিয়ে আপডেট থাকুন।

World Labs Marble: Fei-Fei Li-র Spatial Intelligence এর Vision