World Labs Marble: رؤية فاي-فاي لي للذكاء المكاني
رائدة الذكاء الاصطناعي فاي-فاي لي تطلق Marble، منصة تجارية تولد عوالم ثلاثية الأبعاد قابلة للاستكشاف من النصوص والصور، مما يمثل حدودًا جديدة في الذكاء الاصطناعي المكاني.

من ImageNet إلى نماذج العوالم
للسياق حول كيفية ملاءمة نماذج العوالم في تطور الفيديو بالذكاء الاصطناعي، راجع نظرتنا الشاملة لنماذج العوالم كحدود جديدة.
أحدثت فاي-فاي لي ثورة في رؤية الكمبيوتر مع ImageNet، قاعدة البيانات التي جعلت التعلم العميق الحديث ممكنًا. والآن، بعد عام من بناء World Labs بتمويل قدره 230 مليون دولار، أطلقت Marble، المنتج التجاري الأول للشركة.
الأطروحة بسيطة: لقد أتقن الذكاء الاصطناعي النص، ثم الصور، ثم الفيديو. الحدود التالية هي الذكاء المكاني، القدرة على إدراك وتوليد والتفاعل مع العوالم ثلاثية الأبعاد.
ما يفعله Marble
يولد Marble بيئات ثلاثية الأبعاد دائمة وقابلة للتنزيل من أنواع إدخال متعددة:
- ✓مطالبات نصية
- ✓صور فردية
- ✓مقاطع فيديو
- ✓صور بانورامية
- ✓تخطيطات ثلاثية الأبعاد
على عكس نماذج العوالم في الوقت الفعلي من المنافسين مثل Decart's Oasis أو Google's Genie، يخلق Marble عوالم مستقرة مع الحد الأدنى من التشوه. تولد مرة واحدة، ثم تستكشف بحرية دون أن "ينسى" الذكاء الاصطناعي ما أنشأه.
محرر Chisel
تحرير ثلاثي الأبعاد أصلي بالذكاء الاصطناعي
يفصل Chisel البنية المكانية عن الأسلوب البصري. حدد التخطيط أولاً، ثم طبق التوجيه الأسلوبي النصي.
هذا النهج الهجين يميز Marble عن نماذج النص إلى المشهد. بدلاً من الأمل في أن يفهم الذكاء الاصطناعي نيتك المكانية، تحدد الهندسة بشكل صريح. يتعامل الذكاء الاصطناعي مع الجماليات والمواد والإضاءة.
فكر في الأمر مثل رسم مخطط أرضي قبل أن تطلب من مصمم ديكور داخلي أن يزين. يبقى التحكم في العلاقات المكانية لك.
تنسيقات التصدير والتوافق
تصدر العوالم المولدة بثلاثة تنسيقات:
| التنسيق | حالة الاستخدام |
|---|---|
| Gaussian Splats | العرض في الوقت الفعلي، مشاهد جديدة |
| Meshes | محركات الألعاب، تكامل CAD |
| Videos | إنشاء المحتوى، التصور المسبق |
جميع عوالم Marble متوافقة مع الواقع الافتراضي مع سماعات Vision Pro و Quest 3 مباشرة.
هيكل التسعير
تقدم World Labs أربعة مستويات:
| المستوى | السعر | التوليدات | الميزات الرئيسية |
|---|---|---|---|
| مجاني | 0 دولار | 4/شهر | إدخال نص أو صورة أو بانوراما |
| قياسي | 20 دولار/شهر | 12/شهر | إدخال صور/فيديو متعددة، تحرير متقدم |
| محترف | 35 دولار/شهر | 25/شهر | توسيع المشهد، حقوق تجارية |
| أقصى | 95 دولار/شهر | 75/شهر | جميع الميزات، أقصى توليدات |
يتيح لك المستوى المجاني تقييم التكنولوجيا. للعمل الإنتاجي الذي يتطلب حقوقًا تجارية، يمثل المستوى المحترف بسعر 35 دولارًا شهريًا نقطة دخول معقولة لقدرة بهذه الجدة.
لماذا يهم الذكاء المكاني
"الذكاء المكاني هو التحدي المحدد للعقد القادم." - فاي-فاي لي
تجادل لي بأن الذكاء الاصطناعي الحالي لديه قيد أساسي: إنه يفكر بشكل سيئ في الفضاء ثلاثي الأبعاد. نماذج اللغة تهلوس الفيزياء. نماذج الفيديو تخلق هندسات مستحيلة. مولدات الصور تكافح مع العلاقات المكانية المتسقة.
بالنسبة للروبوتات، هذا مهم للغاية. يحتاج الروبوت الذي يتنقل في مطبخ إلى فهم مكاني، وليس توقع إطار. بالنسبة للمؤثرات البصرية، يحتاج المخرجون إلى بيئات قابلة للاستكشاف، وليس مسارات كاميرا ثابتة.
حالات الاستخدام التي تتشكل
الألعاب توليد بيئات محيطة ومساحات خلفية. يمكن للمطورين المستقلين إنشاء مناطق استكشاف تتطلب شهورًا من الإنتاج الفني التقليدي.
المؤثرات البصرية يصبح التصور المسبق تفاعليًا. حدد مشهدًا مكانيًا، ثم استكشف زوايا الكاميرا قبل الالتزام باللقطات.
العمارة تحويل المخططات الأرضية إلى جولات قابلة للاستكشاف. يختبر العملاء المساحات قبل بدء البناء.
التعليم تتصور لي الطلاب يمشون داخل خلية، الجراحون يمارسون داخل محاكاة تشريحية.
توسيع العالم ووضع الملحن
ميزتان تعالجان قيود النطاق:
توسيع العالم يتيح لك توسيع عالم مولد مرة واحدة، إضافة تفاصيل إلى مناطق الحافة حيث تتدهور الجودة عادةً. هذا يدفع حدود الفضاء القابل للاستكشاف إلى ما بعد حدود التوليد الأولية.
وضع الملحن يجمع عدة عوالم في بيئات أكبر. ولّد غرفًا فردية، ثم اربطها في مبنى كامل.
تعترف هذه الأدوات بالقيود الحالية مع توفير حلول عملية.
مشهد المنافسة
يدخل Marble مجالًا مزدحمًا:
| المنتج | النهج | المميز |
|---|---|---|
| Decart Oasis | توليد لعبة في الوقت الفعلي | تفاعلي، لكن العوالم تتحول أثناء الاستكشاف |
| Google Genie | توليد عالم لعبة | توقع إطار بدون ثلاثي الأبعاد حقيقي |
| Odyssey | نماذج عوالم دائمة | تركيز المؤسسة |
| World Labs Marble | توليد ثلاثي الأبعاد ثابت | قابل للتنزيل، قابل للتحرير، جاهز للواقع الافتراضي |
المقايضة واضحة. نماذج الوقت الفعلي مثل Oasis تقدم الفورية لكن عدم الاستقرار. يعطي Marble الأولوية للاستمرارية وقابلية التحرير على التفاعل.
الاتصال بتوليد الفيديو
للخلفية حول معماريات الانتشار المستخدمة في الذكاء الاصطناعي المكاني، راجع نظرتنا التقنية الشاملة لمحولات الانتشار.
كيف يرتبط توليد العالم ثلاثي الأبعاد بالفيديو؟ يتشاركان أسسًا رياضية في نماذج الانتشار، لكن يحلان مشاكل مختلفة.
توليد الفيديو يخلق تسلسلات زمنية، إطارًا بعد إطار. الذكاء الاصطناعي المكاني يخلق تمثيلات هندسية، أسطح وأحجام. يجيب الفيديو "ماذا يحدث بعد ذلك؟" يجيب الذكاء الاصطناعي المكاني "ماذا يوجد هنا؟"
نقطة التقارب: فيديو قابل للتنقل. ولّد عالمًا ثلاثي الأبعاد، ثم اعرض فيديو بينما تتحرك خلاله. يوفر هذا النهج تحكمًا بالكاميرا مستحيل مع توليد الفيديو النقي.
قيود يجب مراعاتها
Marble ليس حلاً كاملاً:
- ○لا شخصيات متحركة أو عناصر ديناميكية
- ○حدود التوليد قد تحد من سير العمل الإنتاجي
- ○تدهور الحافة يتطلب ممرات توسيع
- ○بيئات ثابتة فقط
للمحتوى المتحرك، لا تزال بحاجة إلى نماذج توليد الفيديو. يتفوق Marble في البيئات والمساحات، وليس الممثلين أو الأفعال.
الصورة الأكبر
ترى فاي-فاي لي الذكاء المكاني ضروريًا لتقدم الذكاء الاصطناعي:
"أعتقد أن لدينا جميعًا مسؤولية في توجيه الذكاء الاصطناعي إلى حالة أفضل مع تزايد قوته. يجب أن نريد جميعًا أن تسود البشرية وتزدهر."
تمتد رؤيتها إلى ما وراء الترفيه. محاكاة طبية حيث يستكشف الطلاب التشريح. تصورات علمية حيث يتنقل الباحثون في الهياكل الجزيئية. بيئات تدريب الروبوتات المولدة عند الطلب.
Marble هي الخطوة الأولى، إثبات تجاري للمفهوم. يستمر البحث نحو توليد عوالم أكثر ديناميكية وتفاعلية ودقة فيزيائية.
البدء
تقدم World Labs مستوى مجاني مع 4 توليدات شهريًا. كافٍ لتقييم التكنولوجيا وفهم قيودها.
للمبدعين الذين يعملون بالفعل في ثلاثي الأبعاد، قدرة تصدير الشبكة تتكامل مع خطوط الأنابيب الموجودة. لمنتجي الفيديو، يوفر تصدير الفيديو قدرات تصور مسبق غير متوفرة في أي مكان آخر.
قراءة ذات صلة: دليلنا لاتساق شخصية الفيديو بالذكاء الاصطناعي يغطي تقنيات الحفاظ على التماسك عبر المحتوى المولد، تحدٍ يعالجه Marble من خلال التمثيل ثلاثي الأبعاد الدائم.
يمثل الانتقال من التوليد ثنائي الأبعاد إلى إنشاء العالم ثلاثي الأبعاد تحولاً أساسيًا في ما يمكن للذكاء الاصطناعي إنتاجه. يجعل Marble هذا التحول في المتناول.
هل كان هذا المقال مفيداً؟

Alexis
مهندس ذكاء اصطناعيمهندس ذكاء اصطناعي من لوزان يجمع بين عمق البحث والابتكار العملي. يقسم وقته بين بنيات النماذج وقمم جبال الألب.
مقالات ذات صلة
تابع الاستكشاف مع هذه المقالات المرتبطة

Runway GWM-1: نموذج العالم العام الذي يحاكي الواقع في الزمن الحقيقي
يمثل GWM-1 من Runway نقلة نوعية من توليد مقاطع الفيديو إلى محاكاة العوالم. اكتشف كيف يُنشئ هذا النموذج التسلسلي بيئات قابلة للاستكشاف، وأفاتارات واقعية، ومحاكيات لتدريب الروبوتات.

يوتيوب يدمج Veo 3 Fast في Shorts: توليد فيديوهات بالذكاء الاصطناعي مجاناً لـ 2.5 مليار مستخدم
جوجل تدمج نموذج Veo 3 Fast مباشرة في YouTube Shorts، مقدمة توليد فيديوهات من النص مع الصوت مجاناً للمبدعين حول العالم. إليكم ما يعنيه هذا للمنصة ولإتاحة فيديوهات الذكاء الاصطناعي.

نماذج لغة الفيديو: الحدود الجديدة بعد نماذج اللغة الكبيرة ووكلاء الذكاء الاصطناعي
تُعلّم نماذج العالم الذكاء الاصطناعي فهم الواقع المادي، مما يمكّن الروبوتات من التخطيط للإجراءات ومحاكاة النتائج قبل تحريك أي مشغّل.