Meta Pixel
AlexisAlexis
7 min read
1365 слов

Мировые модели за пределами видео: почему игры и робототехника - это истинный полигон для AGI

От DeepMind Genie к AMI Labs, мировые модели становятся основой для ИИ, который действительно понимает физику. Рынок видеоигр стоимостью 500 млрд долларов может стать местом их первого доказательства.

Мировые модели за пределами видео: почему игры и робототехника - это истинный полигон для AGI

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Следующая революция в искусственном интеллекте не будет исходить от языковых моделей. Она придет из систем, которые понимают физический мир, и первым полем битвы будет не исследовательские лаборатории, а видеоигры.

Когда Янн ЛеКун объявил об уходе из Meta для запуска AMI Labs с финансированием в 500 млн евро, он сформулировал то, что многие исследователи тихо верили годами. Большие языковые модели, несмотря на всю их впечатляющую мощь, представляют тупик на пути к искусственному общему интеллекту. Они предсказывают токены, не понимая реальность.

Альтернатива? Мировые модели. Системы, которые учатся моделировать, как работает физический мир.

Фундаментальное ограничение языковых моделей

💡

Мировые модели учатся предсказывать, что произойдет дальше в визуальных окружениях, а не просто какие слова придут дальше в тексте. Это требует понимания физики, постоянства объектов и причинно-следственных связей.

Языковые модели превосходны в поиске закономерностей в тексте. Они могут писать стихи, отлаживать код и вести разговоры, которые кажутся поразительно человеческими. Но если попросить GPT-4 предсказать, что произойдет, когда вы бросите мяч, она опирается на запомненные описания, а не на подлинную физическую интуицию.

Это важно, потому что интеллект, как мы его испытываем в биологическом мире, фундаментально укоренен в физической реальности. Малыш, учащийся строить башни из кубиков, развивает интуитивное понимание гравитации, баланса и свойств материалов задолго до изучения языка. Это воплощенное познание, это ощущение того, как работает мир, представляет именно то, чего не хватает современным системам ИИ.

Мировые модели стремятся заполнить этот пробел. Вместо предсказания следующего токена они предсказывают следующий кадр, следующее физическое состояние, следующее следствие действия.

Три подхода к пониманию мира

Гонка по созданию ИИ, способного понимать мир, разделилась на три различные парадигмы, каждая с собственными преимуществами.

Модели предсказания видео

Обучение на массивных наборах видеоданных для изучения неявной физики. Примеры включают Sora и Veo. Хороши в генерации правдоподобных продолжений, но испытывают трудности с интерактивными сценариями.

Модели на основе симуляции

Построение явных физических двигателей и обучение ИИ их навигации. Требует дорогостоящего ручного построения окружений, но обеспечивает точную физическую точность.

Третий подход, и, возможно, наиболее перспективный, сочетает оба: изучение динамики мира из видео, сохраняя при этом способность взаимодействовать с окружением и манипулировать им. Именно здесь игры становятся необходимыми.

Игры: идеальный полигон для обучения

Видеоигры предоставляют что-то уникальное: интерактивные окружения с согласованными правилами физики, бесконечное разнообразие и четкие метрики успеха. В отличие от робототехники в реальном мире, которая требует дорогостоящего оборудования и создает проблемы безопасности, игры предлагают неограниченные ошибки без последствий.

500 млрд долл.
Рынок игр к 2030 году
500 млн евро
Финансирование AMI Labs
12%
Годовой темп роста

DeepMind рано осознал этот потенциал. Их система Genie может генерировать полностью новые игровые окружения с одного изображения. Дайте ей эскиз уровня платформера, и она создает мир с согласованной физикой, где персонажи могут прыгать, падать и надлежащим образом взаимодействовать с объектами.

Примечательность Genie не только в генерации, но и в понимании. Система изучает обобщаемые концепции физики, которые переносятся на различные визуальные стили и типы игр. Модель, обученная на платформерах в стиле Mario, развивает интуицию о гравитации и столкновениях, которая в равной степени применима к рисованным инди-играм и реалистичным 3D окружениям.

От игр к роботам

Конвейер от игр к робототехнике не теоретичен. Компании уже его используют.

2024

Выявлен разрыв симуляции

Исследования показывают, что модели, обученные исключительно в симуляции, испытывают трудности с реальной беспорядочностью: различным освещением, несовершенными датчиками, неожиданными объектами.

2025

Появляются гибридные подходы

Команды объединяют мировые модели, обученные на играх, с ограниченной доводкой в реальном мире, резко сокращая данные, необходимые для обучения роботов.

2026

Начинается коммерческое развертывание

Первые складские роботы, использующие основы мировых моделей, поступают в производство и обрабатывают новые объекты без явного программирования.

Идея, движущая этим переходом, проста: физика есть физика. Модель, которая действительно понимает, как объекты падают, скользят и сталкиваются в видеоигре, должна, при надлежащей адаптации, понимать те же принципы в реальном мире. Визуальное оформление меняется, но основная динамика остается постоянной.

Tesla использовала версию этой стратегии со своими роботами Optimus, сначала обучая их в симуляции перед развертыванием в контролируемых заводских окружениях. Ограничивающий фактор всегда был разрывом между смоделированной и реальной физикой. Мировые модели, обученные на разнообразных видеоданных, могут наконец закрыть этот разрыв.

Ставка AMI Labs

Новое предприятие Янна ЛеКуна, AMI Labs, представляет наибольшее инвестирование в исследования мировых моделей на сегодняшний день. Со 500 млн евро европейского финансирования и командой, набранной из Meta, DeepMind и академических лабораторий, они преследуют то, что ЛеКун называет "целеустремленным ИИ".

💡

В отличие от LLM, которые предсказывают токены, подход AMI сосредоточен на изучении представлений мира, которые обеспечивают планирование и рассуждение о физических последствиях.

Технический фундамент основан на Joint Embedding Predictive Architecture (JEPA), фреймворке, который ЛеКун защищал годами. Вместо генерации предсказаний на уровне пикселей, что требует огромных вычислительных ресурсов, JEPA изучает абстрактные представления, которые захватывают существенную структуру физических систем.

Думайте об этом так: человек, смотрящий, как мяч катится к обрыву, не моделирует каждый пиксель траектории мяча. Вместо этого мы узнаем абстрактную ситуацию (мяч, край, гравитация) и предсказываем результат (падение). JEPA стремится захватить это эффективное, абстрактное рассуждение.

Последствия для видео-генерации ИИ

Эта траектория исследований глубоко важна для творческих применений. Нынешние генераторы видео ИИ производят впечатляющие результаты, но страдают от временной несогласованности. Персонажи трансформируются, физика нарушается, объекты появляются и исчезают.

Мировые модели предлагают потенциальное решение. Генератор, который действительно понимает физику, должен производить видео, где объекты следуют согласованным правилам, где падающие предметы падают предсказуемо, где отражения ведут себя правильно.

Текущее состояние

Модели генерируют визуально правдоподобные кадры без обеспечения физической согласованности. Работает для коротких клипов, но нарушается при увеличении продолжительности.

Будущее мировой модели

Физическая согласованность вытекает из изученной динамики мира. Более длинные, более связные видео становятся возможны, поскольку модель поддерживает внутреннее состояние мира.

Мы уже видим ранние признаки этого перехода. GWM-1 Runway представляет их ставку на мировые модели, а улучшенная физическая симуляция Veo 3.1 предполагает, что Google включает подобные принципы.

Связь с AGI

Почему все это имеет значение для искусственного общего интеллекта? Потому что подлинный интеллект требует больше, чем манипуляцию языком. Он требует понимания причины и следствия, предсказания последствий и планирования действий в физическом мире.

🧠

Воплощенное познание

Подлинный интеллект может требовать укоренения в физической реальности, а не просто статистических закономерностей в тексте.

🎮

Интерактивное обучение

Игры предоставляют идеальный полигон: насыщенная физика, четкая обратная связь, неограниченная итерация.

🤖

Роботическое применение

Мировые модели, обученные в играх, могут переноситься на робототехнику в реальном мире с минимальной адаптацией.

Исследователи, движущие эту работу, осторожны, чтобы не утверждать, что они строят AGI. Но они убедительно утверждают, что без понимания мира мы не можем построить системы, которые действительно думают, а не просто автодополняют.

Что дальше

Следующие два года будут критическими. Несколько событий, на которые стоит обратить внимание:

  • Первые публичные демонстрации AMI Labs (ожидается середина 2026)
  • Интеграция мировых моделей в основные видеогенераторы
  • Компании игровых движков (Unity, Unreal) добавляют API мировых моделей
  • Первые потребительские роботы, использующие мировые модели, обученные на играх

Рынок игр, который к 2030 году превысит 500 миллиардов долларов, представляет плодородную почву для развертывания мировых моделей. Инвесторы видят мировые модели не только как научные курьезы, но как основополагающую технологию для интерактивного развлечения, симуляции и робототехники.

Тихая революция

В отличие от взрывной шумихи вокруг ChatGPT, революция мировых моделей разворачивается тихо в исследовательских лабораториях и игровых студиях. Нет вирусных демо, нет ежедневных новостей о последних прорывах.

Но последствия могут быть более глубокими. Языковые модели изменили то, как мы взаимодействуем с текстом. Мировые модели могли бы изменить то, как ИИ взаимодействует с реальностью.

Для тех из нас, кто работает в видеогенерации ИИ, это исследование представляет как угрозу, так и возможность. Наши нынешние инструменты могут показаться примитивными в ретроспективе, как ранняя компьютерная графика по сравнению с современными визуальными эффектами. Но основной принцип, генерация визуального содержания через изученные модели, будет только становиться более мощным, когда эти модели начнут действительно понимать миры, которые они создают.

💡

Дальнейшее чтение: Изучите, как диффузионные трансформеры обеспечивают архитектурный фундамент для многих мировых моделей, или узнайте о реальной интерактивной генерации, которая основана на принципах мировых моделей.

Путь от физики видеоигр к искусственному общему интеллекту может показаться извилистым. Но интеллект, где бы мы его ни находили, возникает из систем, которые понимают свое окружение и могут предсказать последствия своих действий. Игры дают нам безопасное пространство для построения и тестирования таких систем. Роботы, творческие инструменты и, возможно, подлинное машинное понимание будут следовать.

Была ли эта статья полезной?

Alexis

Alexis

Инженер ИИ

Инженер ИИ из Лозанны, сочетающий глубину исследований с практическими инновациями. Делит время между архитектурами моделей и альпийскими вершинами.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Похожие статьи

Продолжите изучение с этими статьями

Понравилась статья?

Откройте для себя больше идей и будьте в курсе наших последних публикаций.

Мировые модели за пределами видео: почему игры и робототехника - это истинный полигон для AGI