World Labs Marble: فی فی لی کا مقامی ذہانت کا وژن

وہ محقق جس نے مشینوں کو دیکھنے کی صلاحیت دی اب انہیں مکمل دنیائیں تصور کرنا سکھا رہی ہیں۔ World Labs Marble کے ساتھ، فی فی لی ویڈیو جنریشن سے آگے مستقل، قابل دریافت تھری ڈی ماحول کی طرف اگلا قدم اٹھاتی ہیں۔

ImageNet سے ورلڈ ماڈلز تک

💡

اس سیاق و سباق کے لیے کہ ورلڈ ماڈلز AI ویڈیو کی ترقی میں کیسے فٹ ہوتے ہیں، ہمارا ورلڈ ماڈلز کا جامع جائزہ بطور اگلی سرحد دیکھیں۔

فی فی لی نے ImageNet کے ساتھ کمپیوٹر وژن میں انقلاب برپا کیا، وہ ڈیٹاسیٹ جس نے جدید گہری سیکھائی کو ممکن بنایا۔ اب، 230 ملین ڈالر کی فنڈنگ کے ساتھ World Labs بنانے کے ایک سال بعد، انہوں نے Marble لانچ کیا، کمپنی کی پہلی تجارتی مصنوعات۔

مفروضہ سادہ ہے: AI نے متن پر قابو پا لیا، پھر تصاویر، پھر ویڈیو۔ اگلی سرحد مقامی ذہانت ہے، تھری ڈی دنیاؤں کو سمجھنے، تخلیق کرنے اور ان کے ساتھ تعامل کرنے کی صلاحیت۔

$230M

فنڈنگ جمع ہوئی

قیمتوں کی سطحیں

اصل آؤٹ پٹ

Marble کیا کرتا ہے

Marble متعدد ان پٹ اقسام سے مستقل، ڈاؤن لوڈ کے قابل تھری ڈی ماحول تخلیق کرتا ہے:

✓متنی پرامپٹس
✓واحد تصاویر
✓ویڈیوز
✓پینوراماز
✓تھری ڈی لے آؤٹس

حریفوں جیسے Decart's Oasis یا Google's Genie کے ریئل ٹائم ورلڈ ماڈلز کے برعکس، Marble کم سے کم تبدیلی کے ساتھ مستحکم دنیائیں بناتا ہے۔ آپ ایک بار تخلیق کرتے ہیں، پھر آزادانہ دریافت کرتے ہیں بغیر اس کے کہ AI یہ "بھول جائے" کہ اس نے کیا بنایا۔

Chisel ایڈیٹر

🔨

AI-Native تھری ڈی ایڈیٹنگ

Chisel مقامی ڈھانچے کو بصری انداز سے الگ کرتا ہے۔ پہلے اپنا لے آؤٹ بنائیں، پھر متن پر مبنی اسٹائل کی رہنمائی لاگو کریں۔

یہ ہائبرڈ طریقہ Marble کو ٹیکسٹ ٹو سین ماڈلز سے الگ کرتا ہے۔ اس امید کی بجائے کہ AI آپ کی مقامی نیت کو سمجھے، آپ جیومیٹری کو واضح طور پر بیان کرتے ہیں۔ AI جمالیات، مواد اور روشنی کو سنبھالتا ہے۔

اسے فرش کے نقشے کو خاکہ بنانے سے پہلے کسی اندرونی ڈیزائنر سے سجاوٹ کرنے کو کہنے کی طرح سوچیں۔ مقامی تعلقات پر کنٹرول آپ کا رہتا ہے۔

ایکسپورٹ فارمیٹس اور مطابقت

تخلیق شدہ دنیائیں تین فارمیٹس میں ایکسپورٹ ہوتی ہیں:

فارمیٹ	استعمال کا کیس
Gaussian Splats	ریئل ٹائم رینڈرنگ، نئے مناظر
Meshes	گیم انجنز، CAD انٹیگریشن
Videos	مواد کی تخلیق، پری ویزولائزیشن

💡

تمام Marble دنیائیں Vision Pro اور Quest 3 ہیڈسیٹس کے ساتھ باکس سے باہر VR کے مطابق ہیں۔

قیمتوں کا ڈھانچہ

World Labs چار سطحیں پیش کرتا ہے:

سطح	قیمت	جنریشنز	کلیدی خصوصیات
مفت	$0	4/ماہ	متن، تصویر، یا پینوراما ان پٹ
معیاری	$20/ماہ	12/ماہ	ملٹی امیج/ویڈیو ان پٹ، جدید ایڈیٹنگ
پرو	$35/ماہ	25/ماہ	منظر کی توسیع، تجارتی حقوق
زیادہ سے زیادہ	$95/ماہ	75/ماہ	تمام خصوصیات، زیادہ سے زیادہ جنریشنز

مفت سطح آپ کو ٹیکنالوجی کا جائزہ لینے دیتی ہے۔ تجارتی حقوق کی ضرورت والے پروڈکشن کام کے لیے، $35/ماہ پر پرو سطح اس نئی صلاحیت کے لیے معقول داخلے کی قیمت کی نمائندگی کرتی ہے۔

مقامی ذہانت کیوں اہم ہے

"مقامی ذہانت اگلی دہائی کا تعین کرنے والا چیلنج ہے۔" - فی فی لی

لی دلیل دیتی ہیں کہ موجودہ AI کی ایک بنیادی حد ہے: یہ تھری ڈی اسپیس کے بارے میں خراب طریقے سے سوچتی ہے۔ لینگویج ماڈلز فزکس کے بارے میں فریب دیتے ہیں۔ ویڈیو ماڈلز ناممکن جیومیٹریز بناتے ہیں۔ تصویری جنریٹرز مستقل مقامی تعلقات کے ساتھ جدوجہد کرتے ہیں۔

✗موجودہ طریقے

ویڈیو ماڈلز حقیقی تھری ڈی فہم کے بغیر فریم کی ترتیب تخلیق کرتے ہیں۔ کیمرے کی حرکتیں تضادات کو ظاہر کرتی ہیں۔ اشیاء پوزیشن بدلتی ہیں یا غائب ہو جاتی ہیں۔

✓مقامی ذہانت

مقامی تھری ڈی نمائندگی جسمانی طور پر مستقل دنیاؤں کو قابل بناتی ہے۔ کیمرے کو آزادانہ حرکت دیں۔ ماحول برقرار رہتا ہے کیونکہ یہ جیومیٹری کے طور پر موجود ہے، پکسلز نہیں۔

روبوٹکس کے لیے، یہ بہت اہم ہے۔ باورچی خانے میں نیویگیٹ کرنے والے روبوٹ کو مقامی فہم کی ضرورت ہے، فریم کی پیشن گوئی کی نہیں۔ VFX کے لیے، ہدایت کاروں کو قابل دریافت ماحول کی ضرورت ہے، مقررہ کیمرہ راستوں کی نہیں۔

شکل لیتے استعمال کے معاملات

گیمنگ محیطی ماحول اور پس منظر کی جگہیں تخلیق کریں۔ انڈی ڈویلپرز دریافتی علاقے بنا سکتے ہیں جنہیں روایتی آرٹ پروڈکشن کے مہینے درکار ہوں گے۔

بصری اثرات پری ویزولائزیشن انٹرایکٹو ہو جاتا ہے۔ ایک منظر کو مقامی طور پر بلاک کریں، پھر شاٹس کا عزم کرنے سے پہلے کیمرے کے زاویے دریافت کریں۔

فن تعمیر فرش کے منصوبوں کو قابل دریافت واک تھروز میں تبدیل کریں۔ گاہک تعمیر شروع ہونے سے پہلے جگہوں کا تجربہ کرتے ہیں۔

تعلیم لی کا تصور ہے کہ طلباء سیل کے اندر چل رہے ہیں، سرجن اناٹومیکل سمولیشنز کے اندر مشق کر رہے ہیں۔

ورلڈ ایکسپینشن اور کمپوزر موڈ

دو خصوصیات سکیل کی حدود کو حل کرتی ہیں:

ورلڈ ایکسپینشن آپ کو ایک تخلیق شدہ دنیا کو ایک بار بڑھانے دیتا ہے، کنارے کے علاقوں میں تفصیل شامل کرتا ہے جہاں معیار عام طور پر گرتا ہے۔ یہ ابتدائی جنریشن کی حدود سے آگے قابل دریافت جگہ کی حدود کو آگے بڑھاتا ہے۔

کمپوزر موڈ متعدد دنیاؤں کو بڑے ماحول میں جوڑتا ہے۔ انفرادی کمرے تخلیق کریں، پھر انہیں مکمل عمارت میں سلائی کریں۔

یہ ٹولز موجودہ حدود کو تسلیم کرتے ہیں جبکہ عملی حل فراہم کرتے ہیں۔

مقابلے کا منظر نامہ

Marble ایک بھیڑ بھری فیلڈ میں داخل ہوتا ہے:

مصنوعات	طریقہ	امتیازی خصوصیت
Decart Oasis	ریئل ٹائم گیم جنریشن	انٹرایکٹو، لیکن دنیائیں دریافت کے دوران بدلتی ہیں
Google Genie	گیم ورلڈ جنریشن	حقیقی تھری ڈی کے بغیر فریم کی پیشن گوئی
Odyssey	مستقل ورلڈ ماڈلز	انٹرپرائز فوکس
World Labs Marble	جامد تھری ڈی جنریشن	ڈاؤن لوڈ، ترمیم، VR تیار

ٹریڈ آف واضح ہے۔ ریئل ٹائم ماڈلز جیسے Oasis فوری پن پیش کرتے ہیں لیکن عدم استحکام۔ Marble انٹرایکٹیوٹی پر استقامت اور قابل ترمیم کو ترجیح دیتا ہے۔

ویڈیو جنریشن سے جڑنا

💡

مقامی AI میں استعمال ہونے والی ڈفیوژن آرکیٹیکچرز کے پس منظر کے لیے، ہمارا ڈفیوژن ٹرانسفارمرز کا تکنیکی جائزہ دیکھیں۔

تھری ڈی ورلڈ جنریشن ویڈیو سے کیسے متعلق ہے؟ وہ ڈفیوژن ماڈلز میں ریاضیاتی بنیادوں کو شیئر کرتے ہیں، لیکن مختلف مسائل حل کرتے ہیں۔

ویڈیو جنریشن عارضی ترتیب بناتا ہے، فریم کے بعد فریم۔ مقامی AI جیومیٹرک نمائندگی بناتا ہے، سطحیں اور حجم۔ ویڈیو جواب دیتا ہے "اگلا کیا ہوتا ہے؟" مقامی AI جواب دیتا ہے "یہاں کیا موجود ہے؟"

کنورجنس پوائنٹ: نیویگیبل ویڈیو۔ ایک تھری ڈی دنیا تخلیق کریں، پھر اس کے ذریعے حرکت کرتے ہوئے ویڈیو رینڈر کریں۔ یہ طریقہ خالص ویڈیو جنریشن کے ساتھ ناممکن کیمرہ کنٹرول پیش کرتا ہے۔

غور کرنے کے لیے حدود

Marble مکمل حل نہیں ہے:

○متحرک کردار یا متحرک عناصر نہیں
○جنریشن کیپس پروڈکشن ورک فلوز کو محدود کر سکتی ہیں
○کنارے کی کمی کے لیے توسیع کے راستے درکار ہیں
○صرف جامد ماحول

متحرک مواد کے لیے، آپ کو اب بھی ویڈیو جنریشن ماڈلز کی ضرورت ہے۔ Marble ماحول اور جگہوں میں بہترین ہے، اداکاروں یا اعمال میں نہیں۔

بڑی تصویر

فی فی لی مقامی ذہانت کو AI کی ترقی کے لیے ضروری سمجھتی ہیں:

"میرے خیال میں ہم سب کی ذمہ داری ہے کہ AI کو بہتر حالت میں لے جائیں جیسے جیسے یہ زیادہ طاقتور ہوتا ہے۔ ہم سب کو چاہیے کہ انسانیت غالب آئے اور ترقی کرے۔"

ان کا وژن تفریح سے آگے پھیلا ہوا ہے۔ طبی سمولیشن جہاں طلباء اناٹومی کی دریافت کرتے ہیں۔ سائنسی ویژولائزیشن جہاں محققین مالیکیولر ڈھانچوں میں نیویگیٹ کرتے ہیں۔ مانگ پر تخلیق شدہ روبوٹک ٹریننگ ماحول۔

Marble پہلا قدم ہے، ایک تجارتی ثبوت کا تصور۔ تحقیق زیادہ متحرک، انٹرایکٹو اور جسمانی طور پر درست ورلڈ جنریشن کی طرف جاری ہے۔

شروعات کرنا

World Labs ایک مفت سطح پیش کرتا ہے جس میں ہر مہینے 4 جنریشن ہیں۔ ٹیکنالوجی کا جائزہ لینے اور اس کی حدود کو سمجھنے کے لیے کافی۔

تخلیق کاروں کے لیے جو پہلے سے تھری ڈی میں کام کر رہے ہیں، میش ایکسپورٹ کی صلاحیت موجودہ پائپ لائنز کے ساتھ مربوط ہوتی ہے۔ ویڈیو پروڈیوسرز کے لیے، ویڈیو ایکسپورٹ پری ویژولائزیشن کی صلاحیتیں فراہم کرتا ہے جو کہیں اور دستیاب نہیں ہیں۔

💡

متعلقہ پڑھائی: ہماری AI ویڈیو کریکٹر کنسسٹنسی کی گائیڈ تخلیق شدہ مواد میں ہم آہنگی برقرار رکھنے کی تکنیکوں کا احاطہ کرتی ہے، ایک چیلنج جسے Marble مستقل تھری ڈی نمائندگی کے ذریعے حل کرتا ہے۔

ٹو ڈی جنریشن سے تھری ڈی ورلڈ کی تخلیق کی طرف منتقلی اس میں بنیادی تبدیلی کی نمائندگی کرتی ہے جو AI پیدا کر سکتا ہے۔ Marble اس تبدیلی کو قابل رسائی بناتا ہے۔