ビデオを超えた世界モデル：ゲームとロボットがAGIの真の実験場である理由

次のAI革命は言語モデルからは生まれない。それは物理世界を真に理解するシステムから生まれ、最初の戦場は研究室ではなく、ビデオゲームである。

Yann LeCunがMetaを離れ、5億ユーロの資金支援を受けてAMI Labsを立ち上げることを発表した時、彼は多くの研究者が何年も静かに信じていたことを表現していた。大規模言語モデルはその印象的な能力にもかかわらず、人工汎用知能への道において袋小路である。それらは現実を理解することなく、トークンを予測する。

では代替案は何か、世界モデルである。物理世界がどのように機能するかをシミュレートすることを学ぶシステムである。

言語モデルの根本的な限界

💡

世界モデルはテキストの次の単語ではなく、視覚環境で次に何が起こるかを予測することを学ぶ。これは物理、物体の永続性、および因果関係の理解が必要である。

言語モデルはテキスト全体でのパターンマッチングに優れている。詩を書いたり、コードをデバッグしたり、非常に人間らしく感じる会話をすることができる。しかしGPT-4にボールを落とした時に何が起こるかを予測するよう求めると、本当の物理的直感ではなく、記憶された説明に依存する。

これが重要である理由は、生物学的世界で私たちが経験する知能は本質的に物理的現実に基づいているからである。ブロックをスタックすることを学んでいる幼児は、言語を学ぶずっと前に、重力、バランス、および材料特性の直感的な理解を発達させる。この具体的認識、この世界がどのように機能するかの感覚は、現在のAIシステムが欠けているものである。

世界モデルはこのギャップを埋めることを目指している。それらは次のトークンではなく、次のフレーム、次の物理状態、アクションの次の結果を予測する。

世界理解への3つのアプローチ

世界理解AIを構築する競争は3つの異なるパラダイムに分裂しており、それぞれが異なる強みを持っている。

✓ビデオ予測モデル

大規模なビデオデータセットで訓練され、暗黙の物理を学ぶ。例にはSoraとVeoが含まれる。もっともらしい継続を生成するのに優れているが、インタラクティブなシナリオでは苦労している。

✗シミュレーションベースのモデル

明示的な物理エンジンを構築し、AIがそれを操作するよう訓練する。環境の高価な手動構造が必要であるが、正確な物理精度を提供する。

3番目のアプローチ、おそらく最も有望なものは、両方を組み合わせる：ビデオから世界の動力学を学習しながら、環境と相互作用し操作する能力を維持する。これがゲームが不可欠になる場所である。

ゲーム：完璧な訓練場

ビデオゲームは独特のものを提供する：一貫した物理ルール、無限のバリエーション、明確な成功指標を持つインタラクティブな環境。高価なハードウェアが必要であり安全上の懸念がある実世界のロボット工学とは異なり、ゲームは結果なしで無限の失敗を提供する。

5000億ドル+

2030年までのゲーム市場

5億ユーロ

AMI Labs資金調達

12%

年成長率

DeepMindはこの可能性を早期に認識した。彼らのGenieシステムは単一の画像から完全に新しいプレイ可能な環境を生成することができる。プラットフォーマーレベルのスケッチを与えると、キャラクターがジャンプしたり落ちたり、物体と適切に相互作用したりできる一貫した物理を持つ世界を作成する。

Genieが注目に値する理由は、生成だけでなく理解である。システムは異なる視覚スタイルとゲームタイプ全体で転移可能な物理概念を学習する。Marioスタイルのプラットフォーマーで訓練されたモデルは、手描きのインディーゲームと現実的な3D環境に等しく適用される重力と衝突についての直感を開発する。

ゲームからロボットへ

ゲームからロボットへのパイプラインは理論的ではない。企業はすでにそれを使用している。

2024

シミュレーションギャップの特定

研究は純粋にシミュレーションで訓練されたモデルが実世界の混乱で苦労することを示している：変化する照明、不完全なセンサー、予期しないオブジェクト。

2025

ハイブリッドアプローチの出現

チームはゲーム訓練された世界モデルと限定的な実世界の微調整を組み合わせ、ロボット訓練に必要なデータを劇的に削減する。

2026

商業展開の開始

世界モデルのバックボーンを使用する最初の倉庫ロボットが生産に入り、明示的なプログラミングなしに新しいオブジェクトを処理する。

この転換を駆動する洞察は単純である：物理は物理である。ビデオゲーム内でオブジェクトがどのように落ち、滑り、衝突するかを真に理解するモデルは、適切な適応で、実世界で同じ原理を理解する必要がある。視覚的な外観は変わるが、基礎となる動力学は一定のままである。

Teslaは彼らのOptimus ロボットでこの戦略のバージョンを追求し、最初にシミュレーションで訓練してから制御された工場環境に配置した。制限要因は常にシミュレートされた物理と実際の物理の間のギャップであった。多様なビデオデータで訓練された世界モデルはついにそのギャップを埋めるかもしれない。

AMI Labsの賭け

Yann LeCunの新しいベンチャーであるAMI Labsは、世界モデル研究における最大単一投資を表している。5億ユーロのヨーロッパ資金調達とMeta、DeepMind、およびアカデミック研究室から採用されたチームで、彼らはLeCunが「目的駆動AI」と呼ぶものを追求している。

💡

トークンを予測するLLMとは異なり、AMIのアプローチは世界の表現を学習することに焦点を当てており、計画と物理的な結果についての推論を可能にする。

技術的な基礎は共同埋め込み予測アーキテクチャ（JEPA）の上に構築されており、これはLeCunが長年提唱してきたフレームワークである。JEPAはピクセルレベルの予測を生成する（これには膨大な計算リソースが必要）代わりに、物理システムの本質的な構造をキャプチャする抽象的な表現を学習する。

それはこのようなものだと考えてください：ボールが崖に向かってローリングするのを見ている人間は、ボールの軌跡のすべてのピクセルをシミュレートしない。代わりに、私たちは抽象的な状況（ボール、端、重力）を認識し、結果（落下）を予測する。JEPAは、この効率的な抽象的な推論をキャプチャすることを目指している。

AI動画生成への影響

この研究軌道は創造的なアプリケーションに深刻な影響を与える。現在のAI動画生成器は印象的な結果を生成するが、時間的な不一貫性に悩んでいる。キャラクターが変形し、物理が壊れ、オブジェクトが表示されたり消えたりする。

世界モデルは潜在的な解決策を提供する。物理を真に理解する生成器は、オブジェクトが一貫したルールに従う動画、落下したアイテムが予測可能に落ちる、反射が正しく動作する動画を生成する必要がある。

✗現在の状態

モデルは物理的な一貫性を強制することなく視覚的に合理的なフレームを生成する。短いクリップでは機能するが、より長い時間で崩壊する。

✓世界モデルの未来

物理的な一貫性は学習された世界の動力学から出現する。モデルが世界の内部状態を維持するため、より長くより一貫性のある動画が可能になる。

私たちはすでにこの転換の初期の兆候を見ている。RunwayのGWM-1は世界モデルへの彼らの賭けを表しており、Veo 3.1の改善された物理シミュレーションはGoogleが同様の原理を組み込んでいることを示唆している。

AGIへの接続

これらすべてが人工汎用知能になぜ重要なのか、本物の知能は言語操作以上を必要とするからである。原因と結果を理解し、結果を予測し、物理世界で行動を計画する必要がある。

🧠

具体的認識

真の知能は、テキストの統計パターンだけでなく、物理的現実に基礎を置く必要があるかもしれない。

🎮

インタラクティブ学習

ゲームは完璧なテストベッドを提供する：豊かな物理、明確なフィードバック、無限の反復。

🤖

ロボット応用

ゲームで訓練された世界モデルは、最小限の適応で実世界のロボット工学に転移される可能性がある。

この研究を推進している研究者たちは、彼らがAGIを構築していると主張しないよう注意深くしている。しかし、彼らは説得力をもって、世界の理解なしに、単にオートコンプリートするのではなく、真に思考するシステムを構築することはできないと主張している。

次はどうなるか

次の2年は重要であろう。観察するいくつかの発展：

○AMI Labsの最初の公開デモンストレーション（2026年中期予定）
○主要動画生成器への世界モデルの統合
○ゲームエンジン企業（Unity、Unreal）が世界モデルAPIを追加
○ゲーム訓練の世界モデルを使用する最初のコンシューマロボット

2030年までに5000億ドルを超えると予想されるゲーム市場は、世界モデル配置の肥沃な地を表している。投資家は世界モデルを研究の好奇心だけでなく、インタラクティブエンターテイメント、シミュレーション、およびロボット工学の基礎技術と見ている。

静かな革命

ChatGPTの周りの爆発的なハイプとは異なり、世界モデルの革命は研究室とゲームスタジオで静かに起こっている。ウイルス的なデモはなく、最新のブレークスルーについての日常的なニュースサイクルはない。

しかし、その影響はより深刻かもしれない。言語モデルはテキストとの相互作用の方法を変えた。世界モデルはAIが現実と相互作用する方法を変える可能性がある。

AI動画生成に携わる私たちにとって、この研究は脅威と機会の両方を表している。私たちの現在のツールは回顧的に見ると原始的に見えるかもしれない、初期のCGIが現代の視覚効果と比較されるようなものである。しかし、学習されたモデルを通じて視覚的なコンテンツを生成するという基礎となる原理は、これらのモデルが彼らが作成する世界を真に理解し始めるにつれて、より強力になるだけである。

💡

参考資料：拡散トランスフォーマーが多くの世界モデルのアーキテクチャ基礎をどのように提供するかを探索するか、またはリアルタイムインタラクティブ生成が世界モデル原理に基づいて構築する方法について学ぶ。

ビデオゲーム物理から人工汎用知能への道は迂回しているように見えるかもしれない。しかし知能、それがどこで見つかろうとも、その環境を理解し、その行動の結果を予測することができるシステムから現れる。ゲームは私たちがそのようなシステムを構築し、テストするための安全な空間を与えてくれる。ロボット、創造的なツール、そしておそらく本当の機械的理解が続くであろう。

ビデオを超えた世界モデル：ゲームとロボットがAGIの真の実験場である理由

言語モデルの根本的な限界

世界理解への3つのアプローチ

ゲーム：完璧な訓練場

ゲームからロボットへ

シミュレーションギャップの特定

ハイブリッドアプローチの出現

商業展開の開始

AMI Labsの賭け

AI動画生成への影響

AGIへの接続

具体的認識

インタラクティブ学習

ロボット応用

次はどうなるか

静かな革命

Alexis

Like what you read?

関連記事

Runway GWM-1：リアルタイムで現実を再現する汎用ワールドモデル

ビデオ言語モデル：LLMとAIエージェントの次なるフロンティア

AI動画における物理シミュレーション：モデルがついに現実の法則を理解した理由

この記事はお楽しみいただけましたか？