World Labs Marble: فی فی لی کا مقامی ذہانت کا وژن
مصنوعی ذہانت کی رہنما فی فی لی نے Marble لانچ کیا، ایک تجارتی پلیٹ فارم جو متن اور تصاویر سے قابل دریافت تھری ڈی دنیائیں تخلیق کرتا ہے، جو مقامی AI میں نئی سرحد کا نشان ہے۔

ImageNet سے ورلڈ ماڈلز تک
اس سیاق و سباق کے لیے کہ ورلڈ ماڈلز AI ویڈیو کی ترقی میں کیسے فٹ ہوتے ہیں، ہمارا ورلڈ ماڈلز کا جامع جائزہ بطور اگلی سرحد دیکھیں۔
فی فی لی نے ImageNet کے ساتھ کمپیوٹر وژن میں انقلاب برپا کیا، وہ ڈیٹاسیٹ جس نے جدید گہری سیکھائی کو ممکن بنایا۔ اب، 230 ملین ڈالر کی فنڈنگ کے ساتھ World Labs بنانے کے ایک سال بعد، انہوں نے Marble لانچ کیا، کمپنی کی پہلی تجارتی مصنوعات۔
مفروضہ سادہ ہے: AI نے متن پر قابو پا لیا، پھر تصاویر، پھر ویڈیو۔ اگلی سرحد مقامی ذہانت ہے، تھری ڈی دنیاؤں کو سمجھنے، تخلیق کرنے اور ان کے ساتھ تعامل کرنے کی صلاحیت۔
Marble کیا کرتا ہے
Marble متعدد ان پٹ اقسام سے مستقل، ڈاؤن لوڈ کے قابل تھری ڈی ماحول تخلیق کرتا ہے:
- ✓متنی پرامپٹس
- ✓واحد تصاویر
- ✓ویڈیوز
- ✓پینوراماز
- ✓تھری ڈی لے آؤٹس
حریفوں جیسے Decart's Oasis یا Google's Genie کے ریئل ٹائم ورلڈ ماڈلز کے برعکس، Marble کم سے کم تبدیلی کے ساتھ مستحکم دنیائیں بناتا ہے۔ آپ ایک بار تخلیق کرتے ہیں، پھر آزادانہ دریافت کرتے ہیں بغیر اس کے کہ AI یہ "بھول جائے" کہ اس نے کیا بنایا۔
Chisel ایڈیٹر
AI-Native تھری ڈی ایڈیٹنگ
Chisel مقامی ڈھانچے کو بصری انداز سے الگ کرتا ہے۔ پہلے اپنا لے آؤٹ بنائیں، پھر متن پر مبنی اسٹائل کی رہنمائی لاگو کریں۔
یہ ہائبرڈ طریقہ Marble کو ٹیکسٹ ٹو سین ماڈلز سے الگ کرتا ہے۔ اس امید کی بجائے کہ AI آپ کی مقامی نیت کو سمجھے، آپ جیومیٹری کو واضح طور پر بیان کرتے ہیں۔ AI جمالیات، مواد اور روشنی کو سنبھالتا ہے۔
اسے فرش کے نقشے کو خاکہ بنانے سے پہلے کسی اندرونی ڈیزائنر سے سجاوٹ کرنے کو کہنے کی طرح سوچیں۔ مقامی تعلقات پر کنٹرول آپ کا رہتا ہے۔
ایکسپورٹ فارمیٹس اور مطابقت
تخلیق شدہ دنیائیں تین فارمیٹس میں ایکسپورٹ ہوتی ہیں:
| فارمیٹ | استعمال کا کیس |
|---|---|
| Gaussian Splats | ریئل ٹائم رینڈرنگ، نئے مناظر |
| Meshes | گیم انجنز، CAD انٹیگریشن |
| Videos | مواد کی تخلیق، پری ویزولائزیشن |
تمام Marble دنیائیں Vision Pro اور Quest 3 ہیڈسیٹس کے ساتھ باکس سے باہر VR کے مطابق ہیں۔
قیمتوں کا ڈھانچہ
World Labs چار سطحیں پیش کرتا ہے:
| سطح | قیمت | جنریشنز | کلیدی خصوصیات |
|---|---|---|---|
| مفت | $0 | 4/ماہ | متن، تصویر، یا پینوراما ان پٹ |
| معیاری | $20/ماہ | 12/ماہ | ملٹی امیج/ویڈیو ان پٹ، جدید ایڈیٹنگ |
| پرو | $35/ماہ | 25/ماہ | منظر کی توسیع، تجارتی حقوق |
| زیادہ سے زیادہ | $95/ماہ | 75/ماہ | تمام خصوصیات، زیادہ سے زیادہ جنریشنز |
مفت سطح آپ کو ٹیکنالوجی کا جائزہ لینے دیتی ہے۔ تجارتی حقوق کی ضرورت والے پروڈکشن کام کے لیے، $35/ماہ پر پرو سطح اس نئی صلاحیت کے لیے معقول داخلے کی قیمت کی نمائندگی کرتی ہے۔
مقامی ذہانت کیوں اہم ہے
"مقامی ذہانت اگلی دہائی کا تعین کرنے والا چیلنج ہے۔" - فی فی لی
لی دلیل دیتی ہیں کہ موجودہ AI کی ایک بنیادی حد ہے: یہ تھری ڈی اسپیس کے بارے میں خراب طریقے سے سوچتی ہے۔ لینگویج ماڈلز فزکس کے بارے میں فریب دیتے ہیں۔ ویڈیو ماڈلز ناممکن جیومیٹریز بناتے ہیں۔ تصویری جنریٹرز مستقل مقامی تعلقات کے ساتھ جدوجہد کرتے ہیں۔
روبوٹکس کے لیے، یہ بہت اہم ہے۔ باورچی خانے میں نیویگیٹ کرنے والے روبوٹ کو مقامی فہم کی ضرورت ہے، فریم کی پیشن گوئی کی نہیں۔ VFX کے لیے، ہدایت کاروں کو قابل دریافت ماحول کی ضرورت ہے، مقررہ کیمرہ راستوں کی نہیں۔
شکل لیتے استعمال کے معاملات
گیمنگ محیطی ماحول اور پس منظر کی جگہیں تخلیق کریں۔ انڈی ڈویلپرز دریافتی علاقے بنا سکتے ہیں جنہیں روایتی آرٹ پروڈکشن کے مہینے درکار ہوں گے۔
بصری اثرات پری ویزولائزیشن انٹرایکٹو ہو جاتا ہے۔ ایک منظر کو مقامی طور پر بلاک کریں، پھر شاٹس کا عزم کرنے سے پہلے کیمرے کے زاویے دریافت کریں۔
فن تعمیر فرش کے منصوبوں کو قابل دریافت واک تھروز میں تبدیل کریں۔ گاہک تعمیر شروع ہونے سے پہلے جگہوں کا تجربہ کرتے ہیں۔
تعلیم لی کا تصور ہے کہ طلباء سیل کے اندر چل رہے ہیں، سرجن اناٹومیکل سمولیشنز کے اندر مشق کر رہے ہیں۔
ورلڈ ایکسپینشن اور کمپوزر موڈ
دو خصوصیات سکیل کی حدود کو حل کرتی ہیں:
ورلڈ ایکسپینشن آپ کو ایک تخلیق شدہ دنیا کو ایک بار بڑھانے دیتا ہے، کنارے کے علاقوں میں تفصیل شامل کرتا ہے جہاں معیار عام طور پر گرتا ہے۔ یہ ابتدائی جنریشن کی حدود سے آگے قابل دریافت جگہ کی حدود کو آگے بڑھاتا ہے۔
کمپوزر موڈ متعدد دنیاؤں کو بڑے ماحول میں جوڑتا ہے۔ انفرادی کمرے تخلیق کریں، پھر انہیں مکمل عمارت میں سلائی کریں۔
یہ ٹولز موجودہ حدود کو تسلیم کرتے ہیں جبکہ عملی حل فراہم کرتے ہیں۔
مقابلے کا منظر نامہ
Marble ایک بھیڑ بھری فیلڈ میں داخل ہوتا ہے:
| مصنوعات | طریقہ | امتیازی خصوصیت |
|---|---|---|
| Decart Oasis | ریئل ٹائم گیم جنریشن | انٹرایکٹو، لیکن دنیائیں دریافت کے دوران بدلتی ہیں |
| Google Genie | گیم ورلڈ جنریشن | حقیقی تھری ڈی کے بغیر فریم کی پیشن گوئی |
| Odyssey | مستقل ورلڈ ماڈلز | انٹرپرائز فوکس |
| World Labs Marble | جامد تھری ڈی جنریشن | ڈاؤن لوڈ، ترمیم، VR تیار |
ٹریڈ آف واضح ہے۔ ریئل ٹائم ماڈلز جیسے Oasis فوری پن پیش کرتے ہیں لیکن عدم استحکام۔ Marble انٹرایکٹیوٹی پر استقامت اور قابل ترمیم کو ترجیح دیتا ہے۔
ویڈیو جنریشن سے جڑنا
مقامی AI میں استعمال ہونے والی ڈفیوژن آرکیٹیکچرز کے پس منظر کے لیے، ہمارا ڈفیوژن ٹرانسفارمرز کا تکنیکی جائزہ دیکھیں۔
تھری ڈی ورلڈ جنریشن ویڈیو سے کیسے متعلق ہے؟ وہ ڈفیوژن ماڈلز میں ریاضیاتی بنیادوں کو شیئر کرتے ہیں، لیکن مختلف مسائل حل کرتے ہیں۔
ویڈیو جنریشن عارضی ترتیب بناتا ہے، فریم کے بعد فریم۔ مقامی AI جیومیٹرک نمائندگی بناتا ہے، سطحیں اور حجم۔ ویڈیو جواب دیتا ہے "اگلا کیا ہوتا ہے؟" مقامی AI جواب دیتا ہے "یہاں کیا موجود ہے؟"
کنورجنس پوائنٹ: نیویگیبل ویڈیو۔ ایک تھری ڈی دنیا تخلیق کریں، پھر اس کے ذریعے حرکت کرتے ہوئے ویڈیو رینڈر کریں۔ یہ طریقہ خالص ویڈیو جنریشن کے ساتھ ناممکن کیمرہ کنٹرول پیش کرتا ہے۔
غور کرنے کے لیے حدود
Marble مکمل حل نہیں ہے:
- ○متحرک کردار یا متحرک عناصر نہیں
- ○جنریشن کیپس پروڈکشن ورک فلوز کو محدود کر سکتی ہیں
- ○کنارے کی کمی کے لیے توسیع کے راستے درکار ہیں
- ○صرف جامد ماحول
متحرک مواد کے لیے، آپ کو اب بھی ویڈیو جنریشن ماڈلز کی ضرورت ہے۔ Marble ماحول اور جگہوں میں بہترین ہے، اداکاروں یا اعمال میں نہیں۔
بڑی تصویر
فی فی لی مقامی ذہانت کو AI کی ترقی کے لیے ضروری سمجھتی ہیں:
"میرے خیال میں ہم سب کی ذمہ داری ہے کہ AI کو بہتر حالت میں لے جائیں جیسے جیسے یہ زیادہ طاقتور ہوتا ہے۔ ہم سب کو چاہیے کہ انسانیت غالب آئے اور ترقی کرے۔"
ان کا وژن تفریح سے آگے پھیلا ہوا ہے۔ طبی سمولیشن جہاں طلباء اناٹومی کی دریافت کرتے ہیں۔ سائنسی ویژولائزیشن جہاں محققین مالیکیولر ڈھانچوں میں نیویگیٹ کرتے ہیں۔ مانگ پر تخلیق شدہ روبوٹک ٹریننگ ماحول۔
Marble پہلا قدم ہے، ایک تجارتی ثبوت کا تصور۔ تحقیق زیادہ متحرک، انٹرایکٹو اور جسمانی طور پر درست ورلڈ جنریشن کی طرف جاری ہے۔
شروعات کرنا
World Labs ایک مفت سطح پیش کرتا ہے جس میں ہر مہینے 4 جنریشن ہیں۔ ٹیکنالوجی کا جائزہ لینے اور اس کی حدود کو سمجھنے کے لیے کافی۔
تخلیق کاروں کے لیے جو پہلے سے تھری ڈی میں کام کر رہے ہیں، میش ایکسپورٹ کی صلاحیت موجودہ پائپ لائنز کے ساتھ مربوط ہوتی ہے۔ ویڈیو پروڈیوسرز کے لیے، ویڈیو ایکسپورٹ پری ویژولائزیشن کی صلاحیتیں فراہم کرتا ہے جو کہیں اور دستیاب نہیں ہیں۔
متعلقہ پڑھائی: ہماری AI ویڈیو کریکٹر کنسسٹنسی کی گائیڈ تخلیق شدہ مواد میں ہم آہنگی برقرار رکھنے کی تکنیکوں کا احاطہ کرتی ہے، ایک چیلنج جسے Marble مستقل تھری ڈی نمائندگی کے ذریعے حل کرتا ہے۔
ٹو ڈی جنریشن سے تھری ڈی ورلڈ کی تخلیق کی طرف منتقلی اس میں بنیادی تبدیلی کی نمائندگی کرتی ہے جو AI پیدا کر سکتا ہے۔ Marble اس تبدیلی کو قابل رسائی بناتا ہے۔
کیا یہ مضمون مددگار تھا؟

Alexis
اے آئی انجینئرلوزان سے تعلق رکھنے والے اے آئی انجینئر جو تحقیقی گہرائی کو عملی جدت کے ساتھ یکجا کرتے ہیں۔ ماڈل آرکیٹیکچرز اور الپائن چوٹیوں کے درمیان وقت تقسیم کرتے ہیں۔
متعلقہ مضامین
ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

Runway GWM-1: وہ جنرل ورلڈ ماڈل جو حقیقت کو ریئل ٹائم میں سمیولیٹ کرتا ہے
Runway کا GWM-1 ویڈیوز تیار کرنے سے دنیاؤں کے سمیولیشن تک ایک پیراڈائم شفٹ کو ظاہر کرتا ہے۔ دریافت کریں کہ یہ آٹوریگریسیو ماڈل کس طرح قابل دریافت ماحول، فوٹوریلسٹک اوتار، اور روبوٹ ٹریننگ سمیولیشنز تخلیق کرتا ہے۔

یوٹیوب نے Veo 3 Fast کو Shorts میں شامل کر لیا: 2.5 ارب صارفین کے لیے مفت AI ویڈیو تخلیق
گوگل نے اپنا Veo 3 Fast ماڈل براہ راست YouTube Shorts میں شامل کر دیا ہے، جو دنیا بھر کے تخلیق کاروں کے لیے آڈیو کے ساتھ مفت ٹیکسٹ سے ویڈیو تخلیق پیش کر رہا ہے۔ یہ پلیٹ فارم اور AI ویڈیو کی رسائی کے لیے کیا معنی رکھتا ہے۔

Video Language Models: LLMs اور AI Agents کے بعد اگلی سرحد
World models مصنوعی ذہانت کو جسمانی حقیقت سمجھنا سکھا رہے ہیں، روبوٹس کو ایک بھی actuator حرکت دیے بغیر اعمال کی منصوبہ بندی اور نتائج کی تخمین لگانے کے قابل بنا رہے ہیں۔