Світові моделі поза відео: чому ігри та робототехніка є справжнім полігоном для AGI
Від DeepMind Genie до AMI Labs, світові моделі поступово стають основою для ШІ, який справді розуміє фізику. Ринок відеоігор вартістю 500 млрд доларів може стати місцем їхнього першого доведення.

Коли Янн ЛеКун оголосив про свій вихід з Meta для запуску AMI Labs із фінансуванням 500 млн євро, він сформулював те, що багато дослідників тихо вірили роками. Великі мовні моделі, попри всю їхню вражаючу потужність, представляють тупик на шляху до штучного загального інтелекту. Вони передбачають токени без розуміння дійсності.
Альтернатива? Світові моделі. Системи, які вчаться моделювати, як працює фізичний світ.
Фундаментальне обмеження мовних моделей
Світові моделі вчаться передбачати, що станеться далі у візуальних середовищах, а не просто які слова прийдуть далі в тексті. Це вимагає розуміння фізики, постійності об'єктів та причинно-наслідкових зв'язків.
Мовні моделі відмінно розпізнають закономірності в тексті. Вони можуть писати поезію, налагоджувати код та вести розмови, які здаються дивовижно людськими. Але якщо запитати GPT-4 передбачити, що станеться, коли ви кидаєте м'яч, вона покладається на запам'ятовані описи, а не на справжню фізичну інтуїцію.
Це важливо, тому що інтелект, як ми його переживаємо у біологічному світі, принципово укорінений у фізичній реальності. Малюк, який вчиться будувати вежі з кубиків, розвиває інтуїтивне розуміння гравітації, рівноваги та властивостей матеріалів задовго до вивчення мови. Це втілене пізнання, це відчуття того, як функціонує світ, представляє саме те, чого не вистачає сучасним системам ШІ.
Світові моделі прагнуть заповнити цю прогалину. Замість передбачення наступного токена вони передбачають наступний кадр, наступний фізичний стан, наслідок дії.
Три підходи до розуміння світу
Гонка за створення ШІ, який розуміє світ, розділилася на три різні парадигми, кожна зі своїми перевагами.
Навчання на масивних наборах відеоданих для вивчення неявної фізики. Приклади включають Sora та Veo. Добре генерують правдоподібні продовження, але мають труднощі з інтерактивними сценаріями.
Побудова явних фізичних двигунів та навчання ШІ їхній навігації. Потребує дорогої ручної побудови середовищ, але забезпечує точну фізичну точність.
Третій підхід, і можливо найперспективніший, поєднує обидва: вивчення динаміки світу з відео, зберігаючи при цьому здатність взаємодіяти з середовищем та маніпулювати ним. Саме тут ігри стають необхідними.
Ігри: ідеальний полігон для навчання
Відеоігри надають щось унікальне: інтерактивні середовища з узгодженими правилами фізики, нескінченне різноманіття та чіткі показники успіху. На відміну від робототехніки у реальному світі, яка вимагає дорогого обладнання та створює проблеми безпеки, ігри пропонують безмежні помилки без наслідків.
DeepMind рано усвідомив цей потенціал. Їхня система Genie може генерувати абсолютно нові ігрові середовища з одного зображення. Дайте їй ескіз рівня платформера, і вона створює світ з узгодженою фізикою, де персонажі можуть стрибати, падати та належним чином взаємодіяти з об'єктами.
Примітним у Genie є не лише генерація, а й розуміння. Система вивчає узагальнені концепції фізики, які переносяться на різні візуальні стилі та типи ігор. Модель, навчена на платформерах у стилі Mario, розвиває інтуїцію про гравітацію та зіткнення, що однаково застосовується до намальованих інді-ігор та реалістичних 3D середовищ.
Від ігор до роботів
Конвеєр від ігор до робототехніки не теоретичний. Компанії вже його використовують.
Виявлений розрив симуляції
Дослідження показують, що моделі, навчені виключно в симуляції, мають труднощі з реальним хаосом: різним освітленням, недосконалими датчиками, неочікуваними об'єктами.
Виникають гібридні підходи
Команди поєднують світові моделі, навчені на іграх, з обмеженою доводкою в реальному світі, різко зменшуючи дані, необхідні для навчання роботів.
Починається комерційне розгортання
Перші складські роботи, що використовують основи світових моделей, потрапляють у виробництво та обробляють нові об'єкти без явного програмування.
Ідея, що рухає цей перехід, проста: фізика це фізика. Модель, яка справді розуміє, як об'єкти падають, ковзають та зіштовхуються в відеоігрі, повинна, при надлежній адаптації, розуміти ті самі принципи у реальному світі. Візуальний вигляд змінюється, але базова динаміка залишається постійною.
Tesla використовувала версію цієї стратегії зі своїми роботами Optimus, спочатку навчаючи їх у симуляції перед розгортанням у контрольованих заводських середовищах. Обмежуючий фактор завжди був розрив між змодельованою та реальною фізикою. Світові моделі, навчені на різноманітних відеоданих, можуть нарешті закрити цей розрив.
Ставка AMI Labs
Нове підприємство Янна ЛеКуна, AMI Labs, представляє найбільше окреме інвестування в дослідження світових моделей на даний момент. Зі 500 млн євро європейського фінансування та командою, набраною з Meta, DeepMind та академічних лабораторій, вони переслідують те, що ЛеКун називає "цілеспрямованим ШІ".
На відміну від LLM, які передбачають токени, підхід AMI сконцентрований на вивченні представлень світу, які дозволяють планування та міркування про фізичні наслідки.
Технічна основа побудована на Joint Embedding Predictive Architecture (JEPA), фреймворку, який ЛеКун захищав роками. Замість генерування передбачень на рівні пікселів, що вимагає величезних обчислювальних ресурсів, JEPA вивчає абстрактні представлення, які захоплюють суттєву структуру фізичних систем.
Думайте про це так: людина, яка спостерігає, як м'яч котиться до скелі, не моделює кожен піксель траєкторії м'яча. Натомість ми розпізнаємо абстрактну ситуацію (м'яч, край, гравітація) та передбачаємо результат (падіння). JEPA прагне захопити це ефективне, абстрактне мислення.
Наслідки для відеогенерації ШІ
Ця траєкторія досліджень глибоко важлива для творчих застосувань. Сучасні генератори відео ШІ виробляють вражаючі результати, але страждають від часової нестійкості. Персонажи трансформуються, фізика порушується, об'єкти з'являються та зникають.
Світові моделі пропонують потенційне рішення. Генератор, який справді розуміє фізику, повинен виробляти відео, де об'єкти дотримуються узгоджених правил, де предмети, що падають, падають передбачувано, де відображення ведуть себе правильно.
Моделі генерують візуально правдоподібні кадри без забезпечення фізичної узгодженості. Працює для коротких кліпів, але порушується при збільшенні тривалості.
Фізична узгодженість виникає з вивченої динаміки світу. Довші, більш связні відео стають можливими, оскільки модель підтримує внутрішній стан світу.
Ми вже бачимо ранні ознаки цього переходу. GWM-1 Runway представляє їхню ставку на світові моделі, а поліпшена фізична симуляція Veo 3.1 пропонує, що Google включає подібні принципи.
Зв'язок з AGI
Чому все це має значення для штучного загального інтелекту? Тому що справжній інтелект вимагає більше ніж маніпуляція мовою. Він вимагає розуміння причини та наслідку, передбачення наслідків та планування дій у фізичному світі.
Втілене пізнання
Справжній інтелект може вимагати укорінення у фізичній реальності, а не просто статистичних закономірностях у тексті.
Інтерактивне навчання
Ігри надають ідеальний полігон: багата фізика, чітка зворотна інформація, нескінченна ітерація.
Роботичне застосування
Світові моделі, навчені на іграх, можуть передаватися робототехніці в реальному світі з мінімальною адаптацією.
Дослідники, які рухають цю роботу, обережні, щоб не стверджувати, що вони будують AGI. Але вони переконливо стверджують, що без розуміння світу ми не можемо побудувати системи, які справді мислять, а не просто автодоповнюють.
Що далі
Наступні два роки будуть критичними. Кілька подій, на які варто звернути увагу:
- ○Перші публічні демонстрації AMI Labs (очікуються середина 2026)
- ○Інтеграція світових моделей у основні видеогенератори
- ○Компанії ігрових двигунів (Unity, Unreal) додають API світових моделей
- ○Перші споживчі роботи, що використовують світові моделі, навчені на іграх
Ринок ігор, проектований перевищити 500 мільярдів доларів до 2030 року, представляє плідне поле для розгортання світових моделей. Інвестори бачать світові моделі не лише як наукові цікавості, а як фундаментальну технологію для інтерактивних розваг, симуляції та робототехніки.
Тиха революція
На відміну від вибухового шуму навколо ChatGPT, революція світових моделей розгортається тихо в дослідницьких лабораторіях та ігрових студіях. Немає вірусних демо, немає щоденних новин про найновіші прориви.
Але наслідки можуть бути більш глибокими. Мовні моделі змінили те, як ми взаємодіємо з текстом. Світові моделі могли б змінити те, як ШІ взаємодіє з дійсністю.
Для тих з нас, хто працює в відеогенерації ШІ, це дослідження представляє як загрозу, так і можливість. Наші нинішні інструменти можуть здатися примітивними в ретроспективі, як ранній CGI порівняно з сучасними візуальними ефектами. Але основний принцип, генерування візуального вмісту через вивчені моделі, буде лише ставати потужнішим, коли ці моделі почнуть справді розуміти світи, які вони створюють.
Подальше читання: Дослідіть, як дифузійні трансформери забезпечують архітектурну основу для багатьох світових моделей, або дізнайтеся про реальну інтерактивну генерацію, яка базується на принципах світових моделей.
Шлях від фізики відеоігор до штучного загального інтелекту може здатися звивистим. Але інтелект, де б ми його не знаходили, виникає з систем, які розуміють своє середовище та можуть передбачити наслідки своїх дій. Ігри дають нам безпечний простір для побудови та тестування таких систем. Роботи, творчі інструменти та можливо справжнє машинне розуміння будуть слідувати.
Ця стаття була корисною?

Alexis
Інженер ШІІнженер ШІ з Лозанни, що поєднує глибину досліджень з практичними інноваціями. Ділить час між архітектурами моделей та альпійськими вершинами.
Схожі статті
Продовжуйте дослідження з цими схожими публікаціями

Янн ЛеКун залишає Meta заради ставки у $3,5 мільярди на моделі світу
Лауреат премії Тюрінга запускає AMI Labs, новий стартап, зосереджений на моделях світу замість LLM, з фокусом на робототехніку, охорону здоров'я та розуміння відео.

Runway GWM-1: універсальна модель світу з симуляцією реальності в реальному часі
GWM-1 від Runway, це перехід від генерації відео до симуляції світів. Дізнайтесь, як ця авторегресивна модель створює досліджувані середовища, фотореалістичні аватари та симуляції для навчання роботів.

Відео мовні моделі: Наступний рубіж після LLM та AI агентів
Світові моделі навчають штучний інтелект розуміти фізичну реальність, дозволяючи роботам планувати дії та симулювати результати перед тим, як зрушити хоча б один актуатор.