World Labs Marble: Fei-Fei Liが描く空間知能の未来

機械に視覚を与えた研究者が、今度は世界全体を想像する力を教えようとしています。World Labs Marbleにより、Fei-Fei Liはビデオ生成の先へと進み、永続的で探索可能な3D環境という新たな段階に到達しました。

ImageNetからワールドモデルへ

💡

ワールドモデルがAIビデオの進化にどのように位置づけられるかについては、次世代のフロンティアとしてのワールドモデルの概要をご覧ください。

Fei-Fei Liは、現代のディープラーニングを可能にしたデータセットであるImageNetでコンピュータビジョンに革命をもたらしました。そして今、2億3000万ドルの資金調達を経て1年間World Labsを構築した後、同社初の商用製品であるMarbleを発表しました。

その理論はシンプルです。AIはテキスト、次に画像、そしてビデオを征服しました。次のフロンティアは空間知能、つまり3D世界を知覚し、生成し、対話する能力です。

$230M

調達資金

価格プラン

ネイティブ出力

Marbleができること

Marbleは、複数の入力タイプから永続的でダウンロード可能な3D環境を生成します。

✓テキストプロンプト
✓単一画像
✓ビデオ
✓パノラマ
✓3Dレイアウト

DecartのOasisやGoogleのGenieのような競合他社のリアルタイムワールドモデルとは異なり、Marbleは変形を最小限に抑えた安定した世界を作成します。一度生成すれば、AIが作成したものを「忘れる」ことなく自由に探索できます。

Chiselエディタ

🔨

AI統合型3D編集

Chiselは空間構造と視覚スタイルを分離します。まずレイアウトをブロック化し、その後テキストベースのスタイリングガイダンスを適用します。

このハイブリッドアプローチは、Marbleをテキストからシーンへのモデルと差別化します。AIが空間的な意図を理解することを期待するのではなく、ジオメトリを明示的に定義します。AIは美学、素材、照明を処理します。

インテリアデザイナーに装飾を依頼する前に、間取り図をスケッチするようなものだとお考えください。空間的な関係性の制御は、あなたの手に残ります。

エクスポート形式と互換性

生成された世界は3つの形式でエクスポートされます。

形式	用途
Gaussian Splats	リアルタイムレンダリング、新規視点
メッシュ	ゲームエンジン、CAD統合
ビデオ	コンテンツ制作、プリビズ

💡

すべてのMarble世界は、Vision ProおよびQuest 3ヘッドセットとすぐに使用できるVR互換性を備えています。

価格体系

World Labsは4つのプランを提供しています。

プラン	価格	生成数	主な機能
Free	$0	月4回	テキスト、画像、またはパノラマ入力
Standard	$20/月	月12回	複数画像/ビデオ入力、高度な編集
Pro	$35/月	月25回	シーン拡張、商用権利
Max	$95/月	月75回	すべての機能、最大生成数

無料プランでは、技術を評価できます。商用権利が必要な本格的な制作作業には、月額35ドルのProプランが、この斬新な機能に対する合理的なエントリー価格と言えるでしょう。

空間知能が重要な理由

「空間知能は、次の10年間を定義する課題です。」- Fei-Fei Li

Liは、現在のAIには根本的な制限があると主張しています。それは3D空間について十分に推論できないということです。言語モデルは物理法則を幻視します。ビデオモデルは不可能なジオメトリを作成します。画像生成モデルは一貫した空間関係に苦労します。

✗現在のアプローチ

ビデオモデルは真の3D理解なしにフレームシーケンスを生成します。カメラの動きは不整合を明らかにします。オブジェクトが位置を変えたり消えたりします。

✓空間知能

ネイティブ3D表現により、物理的に一貫した世界が可能になります。カメラを自由に動かせます。環境は、ピクセルではなくジオメトリとして存在するため、持続します。

ロボティクスにとって、これは非常に重要です。キッチンをナビゲートするロボットには、フレーム予測ではなく空間理解が必要です。VFXでは、監督は固定カメラパスではなく、探索可能な環境を必要とします。

形になりつつある使用事例

ゲーム開発 周辺環境や背景空間を生成します。インディー開発者は、従来のアート制作では数か月かかる探索エリアを作成できます。

視覚効果 プレビジュアライゼーションがインタラクティブになります。空間的にシーンをブロック化し、ショットを確定する前にカメラアングルを探索します。

建築間取り図を探索可能なウォークスルーに変換します。クライアントは建設が始まる前に空間を体験できます。

教育 Liは、学生が細胞の内部を歩き、外科医が解剖学的シミュレーションの中で練習することを構想しています。

ワールド拡張とコンポーザーモード

スケールの制限に対処する2つの機能があります。

ワールド拡張により、生成された世界を一度拡張し、品質が通常低下するエッジ領域に詳細を追加できます。これにより、初期生成の限界を超えて探索可能な空間の境界が押し広げられます。

コンポーザーモードは、複数の世界をより大きな環境に結合します。個々の部屋を生成し、それらを完全な建物につなぎ合わせます。

これらのツールは、現在の制約を認識しながら、実用的な回避策を提供しています。

競争環境

Marbleは混雑した分野に参入します。

製品	アプローチ	差別化要因
Decart Oasis	リアルタイムゲーム生成	インタラクティブだが、探索中に世界が変化
Google Genie	ゲーム世界生成	真の3Dなしのフレーム予測
Odyssey	永続的ワールドモデル	エンタープライズ重視
World Labs Marble	静的3D生成	ダウンロード可能、編集可能、VR対応

トレードオフは明確です。Oasisのようなリアルタイムモデルは即時性を提供しますが、不安定です。Marbleはインタラクティブ性よりも永続性と編集可能性を優先します。

ビデオ生成との関連

💡

空間AIで使用される拡散アーキテクチャの背景については、拡散トランスフォーマーの技術概要をご覧ください。

3Dワールド生成はビデオとどのように関連しているのでしょうか。両者は拡散モデルにおける数学的基礎を共有していますが、異なる問題を解決します。

ビデオ生成は時間的シーケンスを作成し、フレームごとに生成します。空間AIは幾何学的表現、表面とボリュームを作成します。ビデオは「次に何が起こるか」に答えます。空間AIは「ここに何が存在するか」に答えます。

収束点はナビゲート可能なビデオです。3D世界を生成し、その中を移動しながらビデオをレンダリングします。このアプローチは、純粋なビデオ生成では不可能なカメラ制御を提供します。

考慮すべき制限事項

Marbleは完全なソリューションではありません。

○アニメーションキャラクターや動的要素なし
○生成上限が制作ワークフローを制限する可能性
○エッジの劣化には拡張パスが必要
○静的環境のみ

アニメーションコンテンツには、依然としてビデオ生成モデルが必要です。Marbleは、アクターやアクションではなく、環境と空間に優れています。

より大きな展望

Fei-Fei Liは、空間知能をAIの進歩に不可欠なものと見ています。

「私たちは皆、AIがより強力になるにつれて、それをより良い状態に導く責任があると思います。私たちは皆、人類が勝利し繁栄することを望むべきです。」

彼女のビジョンはエンターテインメントを超えて広がっています。学生が解剖学を探索する医療シミュレーション。研究者が分子構造をナビゲートする科学的可視化。オンデマンドで生成されるロボットトレーニング環境。

Marbleはステップ1、商用概念実証です。研究は、より動的で、インタラクティブで、物理的に正確なワールド生成に向けて続いています。

はじめに

World Labsは、月4回の生成が可能な無料プランを提供しています。技術を評価し、その制約を理解するには十分です。

すでに3Dで作業しているクリエイターにとって、メッシュエクスポート機能は既存のパイプラインと統合されます。ビデオプロデューサーにとって、ビデオエクスポートは他では利用できないプレビジュアライゼーション機能を提供します。

💡

関連記事：AIビデオキャラクター一貫性ガイドでは、生成されたコンテンツ全体で一貫性を維持するテクニックを扱っています。これはMarbleが永続的な3D表現を通じて対処している課題です。

2D生成から3Dワールド作成への移行は、AIが生成できるものの根本的な変化を表しています。Marbleは、その変化をアクセス可能にします。