Световни модели отвъд видеото: защо игрите и робототехниката са истинското доказателство за AGI
От DeepMind Genie до AMI Labs, световните модели тихо се превръщат в основата на ИИ, който наистина разбира физиката. Пазарът на видеоигри от 500 млрд долара може да бъде място на първото им доказателство.

Когато Ян ЛеКун обяви своя отход от Meta за запускане на AMI Labs с финансиране от 500 милиона евро, той формулира това, в което много изследователи мълчаливо вярваха в течение на години. Големите езикови модели, при всичката им впечатляваща мощ, представляват задънена улица по пътя към изкуствен общ интелект. Те прогнозират токени без разбиране на реалността.
Алтернативата? Световни модели. Системи, които се учат да симулират как работи физическият свят.
Фундаментално ограничение на езиковите модели
Световните модели се учат да прогнозират какво ще се случи след това в визуални среди, не просто кои думи ще дойдат след това в текст. Това изисква разбиране на физиката, постоянство на обекти и причинно-следствени връзки.
Езиковите модели са отлични в намирането на закономерности в текста. Могат да пишат поезия, отлаждат код и водят разговори, които звучат удивително човешки. Но попитайте GPT-4 да предскаже какво ще се случи, когато хвърлите топка, и то разчита на запомнени описания, а не на истинска физическа интуиция.
Това е важно, защото интелигентността, както я преживяваме в биологичния свят, е фундаментално вкоренена в физическата реалност. Малко дете, което се научава да прави кули от кубчета, развива интуитивно разбиране на гравитацията, равновесието и свойствата на материалите много преди да научи езика. Това въплътено познание, това чувство как функционира светът, представлява именно това, което липсва на съвременните AI системи.
Световните модели имат за цел да запълнят този пропуск. Вместо да прогнозират следващия токен, те прогнозират следния кадър, следното физическо състояние, следствието от дейност.
Три подхода към разбирането на света
Състезанието за изграждане на AI, който разбира света, се разделило на три различни парадигми, всяка със своите силни страни.
Обучение на масивни набори от видеоданни за научаване на неявна физика. Примерите включват Sora и Veo. Добри при генериране на правдоподобни продължения, но се затрудняват с интерактивни сценарии.
Изграждане на явни физически двигатели и обучение на AI навигация в тях. Изисква скъпо ръчно конструиране на среди, но осигурява точна физическа точност.
Третият подход, и може би най-обещаващ, комбинира и двата: научаване на световната динамика от видео, докато се запазва способността за взаимодействие със средата и манипулация на нея. Тук игрите стават незаменими.
Игри: Идеалният полигон за обучение
Видеоигрите осигуряват нещо уникално: интерактивни среди с последователни физически правила, безкрайно разнообразие и ясни мерки за успех. За разлика от робототехниката в реалния свят, което изисква скъпо оборудване и създава проблеми с безопасността, игрите предлагат неограничени неудачи без последствия.
DeepMind рано разпозна този потенциал. Тяхната система Genie може да генерира абсолютно нови играни среди от един образ. Дайте й скица на платформен ниво и тя създава свят с последователна физика, където персонажи могат да скачат, падат и надлежно взаимодействат с обекти.
Забележително при Genie е не само генериране, но и разбиране. Системата учи обобщими концепции за физика, които се прехвърлят в различни визуални стилове и типове игри. Модел, обучен на платформи в стила Mario, развива интуиция за гравитацията и сблъсъци, която се прилага еквивалентно както на ръчно рисувани инди игри, така и на реалистични 3D среди.
От игри към роботи
Тръбопроводът от игри към робототехника не е теоретичен. Компанииите вече го използват.
Выявен пропускът при симулация
Изследванията показват, че модели, обучени чисто в симулация, се затрудняват с реална неопрятност: различно осветление, несъвършени сензори, неочаквани обекти.
Появяват се хибридни подходи
Екипи комбинират световни модели, обучени на игри, с ограничена фина настройка в реалния свят, драстично намалявайки данните, необходими за обучение на роботи.
Начало на търговска експлоатация
Първи складови роботи, използващи световни модели, влизат в производство и обработват нови обекти без явно програмиране.
Идеята, която движи този преход, е проста: физиката е физика. Модел, който наистина разбира как обектите падат, пълзят и се сблъскват в видеоигра, трябва, при надлежна адаптация, да разбира същите принципи в реалния свят. Визуалният външен вид се променя, но базовата динамика остава константна.
Tesla е използвала версия на тази стратегия със своите роботи Optimus, първо обучавайки ги в симулация, преди да ги разгърне в контролирани фабрични среди. Ограничаващият фактор винаги е бил пропастта между симулирана и реална физика. Световни модели, обучени на разнообразни видеоданни, могат най-накрай да преодолеят тази пропаст.
Залогът на AMI Labs
Новото предприятие на Ян ЛеКун, AMI Labs, представлява най-голямото единично инвестиране в изследването на световни модели досега. С 500 милиона евро европейско финансиране и екип, набран от Meta, DeepMind и академични лаборатории, те преследват това, което ЛеКун нарича "целеустремен AI".
За разлика от LLM, които прогнозират токени, подходът на AMI се фокусира върху научаването на представяния на света, които позволяват планиране и разсъждение относно физическите последствия.
Техническата основа се изгражда на Joint Embedding Predictive Architecture (JEPA), фреймворк, който ЛеКун защищава в течение на години. Вместо да генерира предсказания на нивото на пиксели, което изисква огромни изчислителни ресурси, JEPA учи абстрактни представяния, които улавят съществената структура на физическите системи.
Мислете за това така: човек, наблюдаващ топка, коталяща се към стръмнина, не симулира всеки пиксел на траекторията на топката. Вместо това признаваме абстрактната ситуация (топка, ръб, гравитация) и предсказваме резултата (падане). JEPA стремеше да улови това ефективно, абстрактно мислене.
Последствия за видеогенерирането на AI
Тази траектория на изследване е дълбоко важна за творчески приложения. Сегашните генератори на видео AI произвеждат впечатляващи резултати, но страдат от временна непостоянство. Персонажи се трансформират, физиката се нарушава, обектите се появяват и изчезват.
Световните модели предлагат потенциално решение. Генератор, който наистина разбира физиката, трябва да произвеждат видеозапис, където обектите спазват последователни правила, където падащите предмети падат предсказуемо, където отражението се държа правилно.
Модели генерират визуално правдоподобни кадри без налагане на физическа последователност. Работи за кратки клипове, но се нарушава при по-дълги продължителност.
Физическата последователност възникнала от научената световна динамика. По-дълги, по-кохерентни видеозаписи се делают възможни, тъй като моделът поддържа вътрешното състояние на света.
Вече виждаме ранни признаци на този преход. GWM-1 на Runway представлява тяхния залог на световни модели, а подобрената физическа симулация на Veo 3.1 предполага, че Google включва подобни принципи.
Връзката с AGI
Защо всичко това е важно за изкуствения общ интелект? Защото истинският интелект изисква повече от манипулиране на езика. Изисква разбиране на причина и последствие, предсказване на резултатите и планиране на действия във физически свят.
Въплътено познание
Истинският интелект може да изисква вкореняване в физическа реалност, а не просто статистически закономерности в текст.
Интерактивно обучение
Игрите осигуряват идеалния полигон: богата физика, ясна обратна информация, безкраен повтор.
Роботично приложение
Световни модели, обучени на игри, могат да бъдат прехвърлени на робототехника в реалния свят с минимална адаптация.
Изследователите, които водят тази работа, са внимателни да не твърдят, че строят AGI. Но те убедително твърдят, че без разбиране на света не можем да изградим системи, които наистина мислят, а не просто автодопълват.
Какво идва следующо
Следващите две години ще бъдат критични. Няколко разработки, които трябва да наблюдаваме:
- ○Първи публични демонстрации на AMI Labs (очаквани средина 2026)
- ○Интеграция на световни модели в основни видеогенератори
- ○Компании за игрови двигатели (Unity, Unreal) добавят API за световни модели
- ○Първи потребителски роботи, използващи световни модели, обучени на игри
Пазарът на игри, проектиран да надвиши 500 милиарда долара до 2030 г., представлява плодородно поле за разгръщане на световни модели. Инвеститорите виждат световни модели не просто като научни курйози, а като основна технология за интерактивна забава, симулация и робототехника.
Тихата революция
За разлика от взривовата шумиха около ChatGPT, революцията на световните модели се разгръща тихо в изследователските лаборатории и студиата за игри. Няма вирусни демонстрации, няма дневни новини за последния пробив.
Но последствията могат да бъдат по-дълбоки. Езиковите модели променихме как взаимодействаме с текста. Световните модели биха могли да променят как AI взаимодействува с реалността.
За тези от нас, които работят в генериране на видео AI, това изследване представлява както заплаха, така и възможност. Нашите текущи инструменти могат да изглеждат примитивни в ретроспекция, като ранния CGI в сравнение с модерните визуални ефекти. Но основния принцип, генериране на визуално съдържание чрез научени модели, ще бъде само все по-мощен, тъй като тези модели започват наистина да разбират световете, които създават.
Допълнително четене: Изследвайте как дифузионните трансформери осигуряват архитектурната основа за много световни модели, или научете за генериране в реално време интерактивно, което се базира на принципите на световния модел.
Пътят от физиката на видеоигрите към изкуствено общ интелект може да изглежда извилист. Но интелигентността, където ни я намеря, възникнала от системи, които разбират своята среда и могат да предскажат последствията от своите действия. Игрите ни дават безопасно място за изграждане и тестване на такива системи. Роботите, творческите инструменти и може би истинско машинно разбиране ще следват.
Беше ли полезна тази статия?

Alexis
Инженер по изкуствен интелектИнженер по изкуствен интелект от Лозана, съчетаващ изследователска дълбочина с практични иновации. Разделя времето си между модели архитектури и алпийски върхове.
Свързани статии
Продължете да изследвате със свързаните публикации

Ян ЛеКун напуска Meta, за да заложи 3,5 милиарда долара на световни модели
Носителят на наградата Тюринг стартира AMI Labs, нов стартъп, фокусиран върху световни модели вместо LLM, насочен към роботика, здравеопазване и разбиране на видео.

Runway GWM-1: Общият световен модел, който симулира реалността в реално време
GWM-1 на Runway означава промяна в парадигмата от генериране на видеоклипове към симулиране на светове. Открийте как този авторегресивен модел създава изследваеми среди, фотореалистични аватари и симулации за обучение на роботи.

Видео езикови модели: следващата граница след LLM и AI агентите
Световните модели учат AI да разбира физическата реалност, позволявайки на роботите да планират действия и симулират резултати преди първото движение.