Runway GWM-1：リアルタイムで現実を再現する汎用ワールドモデル

もしAIが動画を生成するだけでなく、探索できる世界全体をシミュレートし、会話できるキャラクターを作成し、リアルタイムでロボットをトレーニングできるとしたら、どうでしょうか。

それがRunwayが2025年12月に発表した初の汎用ワールドモデルGWM-1の約束する未来です。これは単なるマーケティング用語ではなく、AI動画技術に対する考え方の根本的な転換を意味しています。

動画生成から世界シミュレーションへ

従来の動画生成器はクリップを作成します。プロンプトを入力し、待機すると、事前に決定されたフレームのシーケンスが得られます。GWM-1は異なる方法で動作します。環境の内部表現を構築し、それを使用してその環境内の将来のイベントをシミュレートします。

💡

GWM-1は自己回帰型で、リアルタイムでフレームごとに生成します。バッチ動画生成とは異なり、入力に応じて即座に応答します。

その意味を考えてみてください。GWM-1によって作成された仮想空間を探索する際、振り返ったときにオブジェクトはあるべき場所に留まっています。物理法則は一貫性を保ち、照明はカメラの動きに応答します。これは事前レンダリングされた動画ではなく、リアルタイムで実行されるシミュレーションです。

GWM-1の三つの柱

Runwayは、GWM-1を三つの専門化されたバリアントに分割しており、それぞれが異なる領域を対象としています。現在は別々のモデルですが、同社はこれらを統一されたシステムに統合する計画です。

🌍

GWM Worlds

ジオメトリ、照明、物理特性を持つ探索可能な環境で、ゲーム、VR、エージェントトレーニングに適しています。

👤

GWM Avatars

リップシンク、目の動き、ジェスチャーを備えたオーディオ駆動のキャラクターで、長時間の会話が可能です。

🤖

GWM Robotics

ロボットポリシー用の合成トレーニングデータ生成器で、物理ハードウェアのボトルネックを解消します。

GWM Worlds：歩き回れる無限の空間

Worldsバリアントは、インタラクティブに探索できる環境を作成します。手続き的に一貫した空間をナビゲートすると、モデルは空間的な整合性を維持します。前に進み、左に曲がり、振り返ると、期待通りの景色が見えます。

これにより、AI動画における最も困難な問題の一つ、拡張されたシーケンスにわたる一貫性が解決されます。従来のアプローチでは、時間の経過とともにオブジェクトの位置とシーンの整合性を維持することが困難でした。GWM Worldsは、環境を切り離されたフレームのシーケンスではなく、永続的な状態として扱います。

使用例は、ゲーム、仮想現実体験、AIエージェントのトレーニングにまたがります。強化学習アルゴリズムに、手動で構築することなく、何千もの手続き的に生成された環境を探索させることを想像してみてください。

GWM Avatars：聴くことのできるフォトリアリスティックなキャラクター

Avatarsバリアントは、非常に詳細なレベルでオーディオ駆動のキャラクターを生成します。基本的なリップシンクを超えて、以下をレンダリングします。

✓自然な表情
✓リアルな目の動きと視線の方向
✓音声とのリップシンク
✓話している時と聴いている時のジェスチャー

「聴く」という部分が重要です。ほとんどのアバターシステムは、キャラクターが話しているときにのみアニメーションを行います。GWM Avatarsは、キャラクターが話していないときでも、自然なアイドル動作、微妙な動き、応答的な表情を維持し、録音と会話しているような感覚を軽減します。

Runwayは、このシステムが「品質の低下なく長時間の会話を実行できる」と主張しており、長時間のアバター生成を悩ませていた時間的一貫性の問題に対処したことを示しています。

GWM Robotics：大規模な思考実験

おそらく最も実用的なアプリケーションは、ロボットのトレーニングです。物理的なロボットは高価で、故障し、一度に一つの実験しか実行できません。GWM Roboticsは合成トレーニングデータを生成し、開発者が実際のハードウェアに触れる前にシミュレーションでポリシーをテストできるようにします。

💡

このモデルは反事実的生成をサポートしているため、物理的な介入なしに「ロボットが別の方法でオブジェクトを掴んでいたらどうなるか」というシナリオを探索できます。

ここでのSDKアプローチが重要です。RunwayはGWM RoboticsをPythonインターフェースを通じて提供し、消費者製品ではなくロボティクス企業向けのインフラストラクチャとして位置付けています。同社は、ロボティクス企業とエンタープライズ展開について協議中です。

技術仕様

720p

解像度

24 fps

フレームレート

2分

最大長

リアルタイム

生成速度

GWM-1は、RunwayのビデオモデルであるGen-4.5の上に構築されており、最近Video ArenaリーダーボードでGoogleとOpenAIの両方を上回りました。自己回帰アーキテクチャは、シーケンス全体をバッチ処理するのではなく、フレームごとに生成することを意味します。

アクション条件付けは、カメラポーズの調整、イベントベースのコマンド、ロボットポーズパラメータ、音声/オーディオ入力など、複数の入力タイプを受け入れます。これにより、ワンショット生成器ではなく、真のインタラクティブシステムとなっております。

競合他社との比較

Runwayは、GWM-1がGoogleのGenie-3や他のワールドモデルの試みよりも「汎用的」であると明確に主張しています。この区別は重要です。Genie-3がゲームのような環境に焦点を当てているのに対し、RunwayはGWM-1を、ロボティクスから生命科学まで、ドメインを超えてシミュレートできるモデルとして位置付けています。

✗従来の動画生成器

固定シーケンスを生成します。インタラクション、探索、入力へのリアルタイム応答はありません。

✓GWM-1ワールドモデル

永続的な環境をシミュレートします。リアルタイムでアクションに応答し、空間的および時間的一貫性を維持します。

ロボティクスの角度は特に興味深いものです。ほとんどのAI動画企業がクリエイティブプロフェッショナルやマーケターを追いかけている中、Runwayは産業用アプリケーション向けのインフラストラクチャを構築しています。これは、ワールドモデルがエンターテインメントを超えて重要であるという賭けです。

クリエイターにとっての意味

AI動画分野で活動している私たちにとって、GWM-1はより広範な変化を示しています。私たちは何年もかけて、より良いプロンプトを作成し、クリップを連鎖させる方法を学んできました。ワールドモデルは、空間をデザインし、ルールを設定し、シミュレーションを実行させる未来を示唆しています。

これは、私たちが追跡してきたワールドモデルの議論と関連しています。AIはピクセルをパターンマッチングするだけでなく、物理法則と因果関係を理解すべきであるという論点が、製品の現実になりつつあります。

ゲーム開発者の方々は注目すべきです。探索可能な3D環境の作成には、通常、アーティスト、レベルデザイナー、UnityやUnrealなどのエンジンが必要です。GWM Worldsは、空間を説明し、AIにジオメトリを埋めさせる未来を示唆しています。

Gen-4.5もオーディオを獲得

GWM-1の発表と同時に、Runwayは、ネイティブオーディオ生成を追加してGen-4.5を更新しました。同期された音声を含む動画を直接生成できるようになり、後処理でオーディオを追加する必要がありません。また、一貫したキャラクターを持つ1分間のクリップを作成するためのオーディオ編集機能とマルチショット動画編集も追加されています。

オーディオがAI動画をどのように変革しているかについての詳細は、AI動画のサイレント時代がどのように終わるかに関する弊社の報道をご覧ください。

今後の展望

三つのGWM-1バリアント、Worlds、Avatars、Roboticsは、最終的に単一のモデルに統合される予定です。目標は、あらゆるタイプの環境、キャラクター、または物理システムをシミュレートできる統一されたシステムです。

💡

GWM Avatarsと強化されたWorld機能は「近日公開予定」です。GWM Robotics SDKはリクエストにより利用可能です。

私が最も興奮しているのは、単一の機能ではなく、フレーミングです。Runwayはもはや動画クリップを販売していません。シミュレーションインフラストラクチャを販売しています。これは全く異なる製品カテゴリです。

問題は、ワールドモデルが動画生成器に取って代わるかどうかではなく、「動画を作成すること」と「世界をシミュレートすること」の区別がどれほど早く曖昧になるかです。GWM-1に基づき、Runwayは後ではなく早期に賭けています。

RunwayのGWM-1はリサーチプレビューで提供されており、2026年初頭により広範なアクセスが期待されています。他の主要なAI動画ツールとの比較については、弊社のSora 2 vs Runway vs Veo 3の分析をご参照ください。