Meta Pixel
AlexisAlexis
6 min read
1141 كلمات

World Labs Marble: رؤية فاي-فاي لي للذكاء المكاني

رائدة الذكاء الاصطناعي فاي-فاي لي تطلق Marble، منصة تجارية تولد عوالم ثلاثية الأبعاد قابلة للاستكشاف من النصوص والصور، مما يمثل حدودًا جديدة في الذكاء الاصطناعي المكاني.

World Labs Marble: رؤية فاي-فاي لي للذكاء المكاني
الباحثة التي منحت الآلات القدرة على الرؤية تعلمها الآن تخيل عوالم كاملة. مع World Labs Marble، تتخذ فاي-فاي لي الخطوة التالية بعد توليد الفيديو نحو بيئات ثلاثية الأبعاد دائمة وقابلة للاستكشاف.

من ImageNet إلى نماذج العوالم

💡

للسياق حول كيفية ملاءمة نماذج العوالم في تطور الفيديو بالذكاء الاصطناعي، راجع نظرتنا الشاملة لنماذج العوالم كحدود جديدة.

أحدثت فاي-فاي لي ثورة في رؤية الكمبيوتر مع ImageNet، قاعدة البيانات التي جعلت التعلم العميق الحديث ممكنًا. والآن، بعد عام من بناء World Labs بتمويل قدره 230 مليون دولار، أطلقت Marble، المنتج التجاري الأول للشركة.

الأطروحة بسيطة: لقد أتقن الذكاء الاصطناعي النص، ثم الصور، ثم الفيديو. الحدود التالية هي الذكاء المكاني، القدرة على إدراك وتوليد والتفاعل مع العوالم ثلاثية الأبعاد.

230 مليون دولار
التمويل المحصل
4
مستويات التسعير
3D
الإخراج الأصلي

ما يفعله Marble

يولد Marble بيئات ثلاثية الأبعاد دائمة وقابلة للتنزيل من أنواع إدخال متعددة:

  • مطالبات نصية
  • صور فردية
  • مقاطع فيديو
  • صور بانورامية
  • تخطيطات ثلاثية الأبعاد

على عكس نماذج العوالم في الوقت الفعلي من المنافسين مثل Decart's Oasis أو Google's Genie، يخلق Marble عوالم مستقرة مع الحد الأدنى من التشوه. تولد مرة واحدة، ثم تستكشف بحرية دون أن "ينسى" الذكاء الاصطناعي ما أنشأه.

محرر Chisel

🔨

تحرير ثلاثي الأبعاد أصلي بالذكاء الاصطناعي

يفصل Chisel البنية المكانية عن الأسلوب البصري. حدد التخطيط أولاً، ثم طبق التوجيه الأسلوبي النصي.

هذا النهج الهجين يميز Marble عن نماذج النص إلى المشهد. بدلاً من الأمل في أن يفهم الذكاء الاصطناعي نيتك المكانية، تحدد الهندسة بشكل صريح. يتعامل الذكاء الاصطناعي مع الجماليات والمواد والإضاءة.

فكر في الأمر مثل رسم مخطط أرضي قبل أن تطلب من مصمم ديكور داخلي أن يزين. يبقى التحكم في العلاقات المكانية لك.

تنسيقات التصدير والتوافق

تصدر العوالم المولدة بثلاثة تنسيقات:

التنسيقحالة الاستخدام
Gaussian Splatsالعرض في الوقت الفعلي، مشاهد جديدة
Meshesمحركات الألعاب، تكامل CAD
Videosإنشاء المحتوى، التصور المسبق
💡

جميع عوالم Marble متوافقة مع الواقع الافتراضي مع سماعات Vision Pro و Quest 3 مباشرة.

هيكل التسعير

تقدم World Labs أربعة مستويات:

المستوىالسعرالتوليداتالميزات الرئيسية
مجاني0 دولار4/شهرإدخال نص أو صورة أو بانوراما
قياسي20 دولار/شهر12/شهرإدخال صور/فيديو متعددة، تحرير متقدم
محترف35 دولار/شهر25/شهرتوسيع المشهد، حقوق تجارية
أقصى95 دولار/شهر75/شهرجميع الميزات، أقصى توليدات

يتيح لك المستوى المجاني تقييم التكنولوجيا. للعمل الإنتاجي الذي يتطلب حقوقًا تجارية، يمثل المستوى المحترف بسعر 35 دولارًا شهريًا نقطة دخول معقولة لقدرة بهذه الجدة.

لماذا يهم الذكاء المكاني

"الذكاء المكاني هو التحدي المحدد للعقد القادم." - فاي-فاي لي

تجادل لي بأن الذكاء الاصطناعي الحالي لديه قيد أساسي: إنه يفكر بشكل سيئ في الفضاء ثلاثي الأبعاد. نماذج اللغة تهلوس الفيزياء. نماذج الفيديو تخلق هندسات مستحيلة. مولدات الصور تكافح مع العلاقات المكانية المتسقة.

الأساليب الحالية
نماذج الفيديو تولد تسلسلات إطارات بدون فهم ثلاثي الأبعاد حقيقي. تكشف حركات الكاميرا عن تناقضات. تتغير الأجسام في الموقع أو تختفي.
الذكاء المكاني
التمثيل ثلاثي الأبعاد الأصلي يمكّن عوالم متسقة فيزيائيًا. حرك الكاميرا بحرية. تستمر البيئة لأنها موجودة كهندسة، وليس بكسلات.

بالنسبة للروبوتات، هذا مهم للغاية. يحتاج الروبوت الذي يتنقل في مطبخ إلى فهم مكاني، وليس توقع إطار. بالنسبة للمؤثرات البصرية، يحتاج المخرجون إلى بيئات قابلة للاستكشاف، وليس مسارات كاميرا ثابتة.

حالات الاستخدام التي تتشكل

الألعاب توليد بيئات محيطة ومساحات خلفية. يمكن للمطورين المستقلين إنشاء مناطق استكشاف تتطلب شهورًا من الإنتاج الفني التقليدي.

المؤثرات البصرية يصبح التصور المسبق تفاعليًا. حدد مشهدًا مكانيًا، ثم استكشف زوايا الكاميرا قبل الالتزام باللقطات.

العمارة تحويل المخططات الأرضية إلى جولات قابلة للاستكشاف. يختبر العملاء المساحات قبل بدء البناء.

التعليم تتصور لي الطلاب يمشون داخل خلية، الجراحون يمارسون داخل محاكاة تشريحية.

توسيع العالم ووضع الملحن

ميزتان تعالجان قيود النطاق:

توسيع العالم يتيح لك توسيع عالم مولد مرة واحدة، إضافة تفاصيل إلى مناطق الحافة حيث تتدهور الجودة عادةً. هذا يدفع حدود الفضاء القابل للاستكشاف إلى ما بعد حدود التوليد الأولية.

وضع الملحن يجمع عدة عوالم في بيئات أكبر. ولّد غرفًا فردية، ثم اربطها في مبنى كامل.

تعترف هذه الأدوات بالقيود الحالية مع توفير حلول عملية.

مشهد المنافسة

يدخل Marble مجالًا مزدحمًا:

المنتجالنهجالمميز
Decart Oasisتوليد لعبة في الوقت الفعليتفاعلي، لكن العوالم تتحول أثناء الاستكشاف
Google Genieتوليد عالم لعبةتوقع إطار بدون ثلاثي الأبعاد حقيقي
Odysseyنماذج عوالم دائمةتركيز المؤسسة
World Labs Marbleتوليد ثلاثي الأبعاد ثابتقابل للتنزيل، قابل للتحرير، جاهز للواقع الافتراضي

المقايضة واضحة. نماذج الوقت الفعلي مثل Oasis تقدم الفورية لكن عدم الاستقرار. يعطي Marble الأولوية للاستمرارية وقابلية التحرير على التفاعل.

الاتصال بتوليد الفيديو

💡

للخلفية حول معماريات الانتشار المستخدمة في الذكاء الاصطناعي المكاني، راجع نظرتنا التقنية الشاملة لمحولات الانتشار.

كيف يرتبط توليد العالم ثلاثي الأبعاد بالفيديو؟ يتشاركان أسسًا رياضية في نماذج الانتشار، لكن يحلان مشاكل مختلفة.

توليد الفيديو يخلق تسلسلات زمنية، إطارًا بعد إطار. الذكاء الاصطناعي المكاني يخلق تمثيلات هندسية، أسطح وأحجام. يجيب الفيديو "ماذا يحدث بعد ذلك؟" يجيب الذكاء الاصطناعي المكاني "ماذا يوجد هنا؟"

نقطة التقارب: فيديو قابل للتنقل. ولّد عالمًا ثلاثي الأبعاد، ثم اعرض فيديو بينما تتحرك خلاله. يوفر هذا النهج تحكمًا بالكاميرا مستحيل مع توليد الفيديو النقي.

قيود يجب مراعاتها

Marble ليس حلاً كاملاً:

  • لا شخصيات متحركة أو عناصر ديناميكية
  • حدود التوليد قد تحد من سير العمل الإنتاجي
  • تدهور الحافة يتطلب ممرات توسيع
  • بيئات ثابتة فقط

للمحتوى المتحرك، لا تزال بحاجة إلى نماذج توليد الفيديو. يتفوق Marble في البيئات والمساحات، وليس الممثلين أو الأفعال.

الصورة الأكبر

ترى فاي-فاي لي الذكاء المكاني ضروريًا لتقدم الذكاء الاصطناعي:

"أعتقد أن لدينا جميعًا مسؤولية في توجيه الذكاء الاصطناعي إلى حالة أفضل مع تزايد قوته. يجب أن نريد جميعًا أن تسود البشرية وتزدهر."

تمتد رؤيتها إلى ما وراء الترفيه. محاكاة طبية حيث يستكشف الطلاب التشريح. تصورات علمية حيث يتنقل الباحثون في الهياكل الجزيئية. بيئات تدريب الروبوتات المولدة عند الطلب.

Marble هي الخطوة الأولى، إثبات تجاري للمفهوم. يستمر البحث نحو توليد عوالم أكثر ديناميكية وتفاعلية ودقة فيزيائية.

البدء

تقدم World Labs مستوى مجاني مع 4 توليدات شهريًا. كافٍ لتقييم التكنولوجيا وفهم قيودها.

للمبدعين الذين يعملون بالفعل في ثلاثي الأبعاد، قدرة تصدير الشبكة تتكامل مع خطوط الأنابيب الموجودة. لمنتجي الفيديو، يوفر تصدير الفيديو قدرات تصور مسبق غير متوفرة في أي مكان آخر.

💡

قراءة ذات صلة: دليلنا لاتساق شخصية الفيديو بالذكاء الاصطناعي يغطي تقنيات الحفاظ على التماسك عبر المحتوى المولد، تحدٍ يعالجه Marble من خلال التمثيل ثلاثي الأبعاد الدائم.

يمثل الانتقال من التوليد ثنائي الأبعاد إلى إنشاء العالم ثلاثي الأبعاد تحولاً أساسيًا في ما يمكن للذكاء الاصطناعي إنتاجه. يجعل Marble هذا التحول في المتناول.

هل كان هذا المقال مفيداً؟

Alexis

Alexis

مهندس ذكاء اصطناعي

مهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.

مقالات ذات صلة

تابع الاستكشاف مع هذه المقالات المرتبطة

هل استمتعت بقراءة هذا المقال؟

اكتشف المزيد من الرؤى والبصائر وابقَ محدثاً مع أحدث محتوياتنا.

World Labs Marble: رؤية فاي-فاي لي للذكاء المكاني