World Labs Marble: Fei-Fei Liが描く空間知能の未来
AI研究の第一人者であるFei-Fei Liが、テキストや画像から探索可能な3D世界を生成する商用プラットフォームMarbleを発表し、空間AIの新たな地平を切り開きました。

ImageNetからワールドモデルへ
ワールドモデルがAIビデオの進化にどのように位置づけられるかについては、次世代のフロンティアとしてのワールドモデルの概要をご覧ください。
Fei-Fei Liは、現代のディープラーニングを可能にしたデータセットであるImageNetでコンピュータビジョンに革命をもたらしました。そして今、2億3000万ドルの資金調達を経て1年間World Labsを構築した後、同社初の商用製品であるMarbleを発表しました。
その理論はシンプルです。AIはテキスト、次に画像、そしてビデオを征服しました。次のフロンティアは空間知能、つまり3D世界を知覚し、生成し、対話する能力です。
Marbleができること
Marbleは、複数の入力タイプから永続的でダウンロード可能な3D環境を生成します。
- ✓テキストプロンプト
- ✓単一画像
- ✓ビデオ
- ✓パノラマ
- ✓3Dレイアウト
DecartのOasisやGoogleのGenieのような競合他社のリアルタイムワールドモデルとは異なり、Marbleは変形を最小限に抑えた安定した世界を作成します。一度生成すれば、AIが作成したものを「忘れる」ことなく自由に探索できます。
Chiselエディタ
AI統合型3D編集
Chiselは空間構造と視覚スタイルを分離します。まずレイアウトをブロック化し、その後テキストベースのスタイリングガイダンスを適用します。
このハイブリッドアプローチは、Marbleをテキストからシーンへのモデルと差別化します。AIが空間的な意図を理解することを期待するのではなく、ジオメトリを明示的に定義します。AIは美学、素材、照明を処理します。
インテリアデザイナーに装飾を依頼する前に、間取り図をスケッチするようなものだとお考えください。空間的な関係性の制御は、あなたの手に残ります。
エクスポート形式と互換性
生成された世界は3つの形式でエクスポートされます。
| 形式 | 用途 |
|---|---|
| Gaussian Splats | リアルタイムレンダリング、新規視点 |
| メッシュ | ゲームエンジン、CAD統合 |
| ビデオ | コンテンツ制作、プリビズ |
すべてのMarble世界は、Vision ProおよびQuest 3ヘッドセットとすぐに使用できるVR互換性を備えています。
価格体系
World Labsは4つのプランを提供しています。
| プラン | 価格 | 生成数 | 主な機能 |
|---|---|---|---|
| Free | $0 | 月4回 | テキスト、画像、またはパノラマ入力 |
| Standard | $20/月 | 月12回 | 複数画像/ビデオ入力、高度な編集 |
| Pro | $35/月 | 月25回 | シーン拡張、商用権利 |
| Max | $95/月 | 月75回 | すべての機能、最大生成数 |
無料プランでは、技術を評価できます。商用権利が必要な本格的な制作作業には、月額35ドルのProプランが、この斬新な機能に対する合理的なエントリー価格と言えるでしょう。
空間知能が重要な理由
「空間知能は、次の10年間を定義する課題です。」- Fei-Fei Li
Liは、現在のAIには根本的な制限があると主張しています。それは3D空間について十分に推論できないということです。言語モデルは物理法則を幻視します。ビデオモデルは不可能なジオメトリを作成します。画像生成モデルは一貫した空間関係に苦労します。
ロボティクスにとって、これは非常に重要です。キッチンをナビゲートするロボットには、フレーム予測ではなく空間理解が必要です。VFXでは、監督は固定カメラパスではなく、探索可能な環境を必要とします。
形になりつつある使用事例
ゲーム開発 周辺環境や背景空間を生成します。インディー開発者は、従来のアート制作では数か月かかる探索エリアを作成できます。
視覚効果 プレビジュアライゼーションがインタラクティブになります。空間的にシーンをブロック化し、ショットを確定する前にカメラアングルを探索します。
建築 間取り図を探索可能なウォークスルーに変換します。クライアントは建設が始まる前に空間を体験できます。
教育 Liは、学生が細胞の内部を歩き、外科医が解剖学的シミュレーションの中で練習することを構想しています。
ワールド拡張とコンポーザーモード
スケールの制限に対処する2つの機能があります。
ワールド拡張により、生成された世界を一度拡張し、品質が通常低下するエッジ領域に詳細を追加できます。これにより、初期生成の限界を超えて探索可能な空間の境界が押し広げられます。
コンポーザーモードは、複数の世界をより大きな環境に結合します。個々の部屋を生成し、それらを完全な建物につなぎ合わせます。
これらのツールは、現在の制約を認識しながら、実用的な回避策を提供しています。
競争環境
Marbleは混雑した分野に参入します。
| 製品 | アプローチ | 差別化要因 |
|---|---|---|
| Decart Oasis | リアルタイムゲーム生成 | インタラクティブだが、探索中に世界が変化 |
| Google Genie | ゲーム世界生成 | 真の3Dなしのフレーム予測 |
| Odyssey | 永続的ワールドモデル | エンタープライズ重視 |
| World Labs Marble | 静的3D生成 | ダウンロード可能、編集可能、VR対応 |
トレードオフは明確です。Oasisのようなリアルタイムモデルは即時性を提供しますが、不安定です。Marbleはインタラクティブ性よりも永続性と編集可能性を優先します。
ビデオ生成との関連
空間AIで使用される拡散アーキテクチャの背景については、拡散トランスフォーマーの技術概要をご覧ください。
3Dワールド生成はビデオとどのように関連しているのでしょうか。両者は拡散モデルにおける数学的基礎を共有していますが、異なる問題を解決します。
ビデオ生成は時間的シーケンスを作成し、フレームごとに生成します。空間AIは幾何学的表現、表面とボリュームを作成します。ビデオは「次に何が起こるか」に答えます。空間AIは「ここに何が存在するか」に答えます。
収束点はナビゲート可能なビデオです。3D世界を生成し、その中を移動しながらビデオをレンダリングします。このアプローチは、純粋なビデオ生成では不可能なカメラ制御を提供します。
考慮すべき制限事項
Marbleは完全なソリューションではありません。
- ○アニメーションキャラクターや動的要素なし
- ○生成上限が制作ワークフローを制限する可能性
- ○エッジの劣化には拡張パスが必要
- ○静的環境のみ
アニメーションコンテンツには、依然としてビデオ生成モデルが必要です。Marbleは、アクターやアクションではなく、環境と空間に優れています。
より大きな展望
Fei-Fei Liは、空間知能をAIの進歩に不可欠なものと見ています。
「私たちは皆、AIがより強力になるにつれて、それをより良い状態に導く責任があると思います。私たちは皆、人類が勝利し繁栄することを望むべきです。」
彼女のビジョンはエンターテインメントを超えて広がっています。学生が解剖学を探索する医療シミュレーション。研究者が分子構造をナビゲートする科学的可視化。オンデマンドで生成されるロボットトレーニング環境。
Marbleはステップ1、商用概念実証です。研究は、より動的で、インタラクティブで、物理的に正確なワールド生成に向けて続いています。
はじめに
World Labsは、月4回の生成が可能な無料プランを提供しています。技術を評価し、その制約を理解するには十分です。
すでに3Dで作業しているクリエイターにとって、メッシュエクスポート機能は既存のパイプラインと統合されます。ビデオプロデューサーにとって、ビデオエクスポートは他では利用できないプレビジュアライゼーション機能を提供します。
関連記事:AIビデオキャラクター一貫性ガイドでは、生成されたコンテンツ全体で一貫性を維持するテクニックを扱っています。これはMarbleが永続的な3D表現を通じて対処している課題です。
2D生成から3Dワールド作成への移行は、AIが生成できるものの根本的な変化を表しています。Marbleは、その変化をアクセス可能にします。
この記事は役に立ちましたか?

Alexis
AIエンジニアローザンヌ出身のAIエンジニアで、研究の深さと実践的なイノベーションを組み合わせています。モデルアーキテクチャとアルプスの頂に時間を分けています。
関連記事
これらの関連投稿で探索を続けてください

Runway GWM-1:リアルタイムで現実を再現する汎用ワールドモデル
RunwayのGWM-1は、動画生成から世界シミュレーションへのパラダイムシフトを示しています。この自己回帰モデルが、探索可能な環境、フォトリアリスティックなアバター、そしてロボットのトレーニングシミュレーションをどのように実現するのかをご紹介します。

YouTubeがVeo 3 FastをShortsに導入:25億人のユーザーに無料AI動画生成を提供
GoogleがVeo 3 Fastモデルを直接YouTube Shortsに統合し、世界中のクリエイターに音声付きテキストから動画への生成を無料で提供します。この機能がプラットフォームとAI動画のアクセシビリティにどのような意味を持つのかをご紹介します。

ビデオ言語モデル:LLMとAIエージェントの次なるフロンティア
ワールドモデルはAIに物理的現実の理解を教えています。これにより、ロボットはアクチュエータを動かす前に行動を計画し、結果をシミュレーションできるようになります。