Сусветныя модэлі па-за відэа: чому гульні і робатэхніка - гэта сапраўдны полігон для AGI
Ад DeepMind Genie да AMI Labs, сусветныя модэлі становяцца асновай для ШІ, які сапраўды разумеюць фізіку. Рынак відэаігр вартасцю 500 млрд долараў можа стаць месцем іх першага даказаньня.

Калі Янн ЛеКун абвясцьіў пра свой выход з Meta для запуску AMI Labs з фінансаваннем 500 млн еўра, ён сфармуляваў тое, у што многія даследчыкі цьіхо верылі радамі. Вялікія мовныя модэлі, пры ўсёй іх вразьліваючай магутнасьці, прадстаўляюць тупік на шляху да штучнага ўсеагульнага інтэлекта. Яны прадказваюць токены без разуменьня рэальнасьці.
Альтэрнатыва? Сусветныя модэлі. Сістэмы, якія вучацца мадэляваць, як працуе фізічны свят.
Фундамэнтальнае абмежаванне мовных модэляў
Сусветныя модэлі вучацца прадказваць, што станецца далей у візуальных асяроддзях, а не проста якія словы прыйдуць далей у тэксьце. Гэта патрабуе разуменьня фізікі, пастаяннасьці абьектаў і прычынна-наслідковых сувязяў.
Мовныя модэлі адзлічаны ў пошуку закономернасьцяў у тэксьце. Яны могуць пісаць паэзію, наладжваць код і весьці разьмовы, якія здаюцца дзівоснасна чалавечымі. Але калі запытаць GPT-4 прадказаць, што станецца, калі вы кінуеце мяч, яна апіраецца на запамятаныя апісаньні, а не на сапраўдную фізічную інтуіцыю.
Гэта важна, тамуста інтэлект, як мы яго перажываем у біялагічным свеце, фундамэнтальна укаранены ў фізічнай рэальнасьці. Немаўля, якое вучыцца будаваць вежы з кубікаў, развівае інтуітыўнае разуменьне гравітацыі, раўнавагі і ўласцівасьцяў матэрыяляў задоўга да вывучэньня мовы. Гэтае ўтеленае пазнаньне, гэтае адчуванне таго, як функцыянуе свят, прадстаўляе сакаму тое, чаго не хапае сучасным сістэмам ШІ.
Сусветныя модэлі прагнуць запоўніць гэтую прагалу. Замест прадказаньня наступнага токена яны прадказваюць наступны кадр, наступны фізічны стан, наслідак дзеяньня.
Тры падыходы да разуменьня свету
Гонка па стварэньню ШІ, які разумее свят, разьдзелілася на тры розныя парадыгмы, кожная з сваімі перавагамі.
Навучанне на масіўных набарах відэададзеных для вывучэньня неяўнай фізікі. Прыклады ўключаюць Sora і Veo. Добра генерыруюць правдаподобныя прадоўжэньні, але мають цяжкасьці з інтэрактыўнымі сцэнарыямі.
Пабудова явных фізічных рухавіков і навучанне ШІ іх навігацыі. Патрабуе дарогастойнага ручнога пабудовы асяроддзяў, але забяспечвае пакуль точную фізічную пакуль точнасьць.
Трэцяе падыход, і можліва найпэрспэктыўніш, паёднывае оба: вывучэньне дынамікі свету з відэа, захоўваючы пры гэтым здольнасьць узаемадзейнічаць з асяроддзем і маніпуляваць ім. Менавіта тут гульні становяцца неабходнымі.
Гульні: ідэальны полігон для навучаньня
Відэаігры надаюць штось унікальнае: інтэрактыўныя асяроддзі з узгоднёнымі правіламі фізікі, бесканечнае разнаманітьё і чёткія показчыкі поспеху. На адрозьненьне ад робатэхніки ў рэальным свеце, якая патрабуе дарагосьцёнага абсталяваньня і ствараць праблемы бяспекі, гульні прапаноўваюць бесьмежныя памылкі без наслідкаў.
DeepMind рана адчуў гэты потэнцыял. Іх сістэма Genie можа генерыраваць абсалютна новыя ігравыя асяроддзі з адной выявы. Дайце ёй эскіз узроўня платформера, і яна ствара свят з узгоднёнай фізікай, дзе персанажы могуць скачаць, падаць і надлежным чынам узаемадзейнічаць з абьектамі.
Примечаниямі ў Genie з'яўляюцца не толькі генерацыя, але і разуменьне. Сістэма вывучае узагульненыя канцэпцыі фізікі, якія пераносяцца на розныя візуальныя стылі і тыпы гуль. Модэль, навучаная на платформерах у стылі Mario, развівае інтуіцыю пра гравітацыю і зітканьні, якая ў роўнай ступені прымяняецца да намаляваных інді-гуль і рэалістычных 3D асяроддзяў.
Ад гуль да робатаў
Кльконвеер ад гуль да робатэхніки не тэарэтычны. Кампаніі ўжо яго ўжываюць.
Выявлены разрыў сімуляцыі
Даслідчаньня паказваюць, што модэлі, навучаныя выключна ў сімуляцыі, мають цяжкасьці з рэальным хаосам: розным асьвеціленьнем, недасканаламі датчыкамі, непрадбачанымі абьектамі.
Узнікаюць гібрыдныя падыходы
Камандыпаёднываюць сусветныя модэлі, навучаныя на гульнях, з абмежаванай дадоўкай у рэальным свеце, рэзка зменшаючы дадзеныя, неабходныя для навучаньня робатаў.
Пачынаецца камерцыйнае разгортванне
Першыя складскія робаты, якія выкарыстоўваюць асновы сусветных модэляў, патрапляюць у вытворчасьць і адпрацоўваюць новыя абьекты без явнага праграміраваньня.
Ідэя, якая рухае гэты пераход, простая: фізіка гэта фізіка. Модэль, якая сапраўды разумее, як абьекты падаюць, слізаюць і зітыкаюцца ў відэаігры, павінна, пры надлежным адаптыраваньні, разумець тыя ж прынцыпы ў рэальным свеце. Візуальны вяскок змяняецца, але базавая дынаміка застаецца пастаяннай.
Tesla выкарыстоўвала версію гэтай стратэгіі са сваімі робатамі Optimus, спачатку навучаючы іх у сімуляцыі перад разгортаньнем у кантралюемых завадскіх асяроддзях. Абмежаваючы фактар заўсёды быў разрыў між змадэльаванай і рэальнай фізікай. Сусветныя модэлі, навучаныя на разнаманітных відэададзеных, могуць нарэшце закрыць гэты разрыў.
Ставка AMI Labs
Новае прыпінеманне Янна ЛеКуна, AMI Labs, прадстаўляе найбольшае адзінае інвеставанне ў даслідчаньне сусветных модэляў на дадзены момант. Зі 500 млн еўра еўрапейскага фінансаваньня і камандай, набранай з Meta, DeepMind і акадэмічных лабараторыяў, яны ідуць за тым, што ЛеКун называе "целевым ШІ".
На адрозьненьне ад LLM, якія прадказваюць токены, падыход AMI сканцэнтравам на вывучэньні ўяўленьняў свету, якія дазваляюць плянаванне і разважаньне пра фізічныя наслідкі.
Тэхнічная аснова пабудавана на Joint Embedding Predictive Architecture (JEPA), фрэймворку, які ЛеКун абараняў радамі. Замест генерыраваньня прадказаньняў на узроўні піксэляў, што патрабуе велізарных вылічальных рэсурсаў, JEPA вывучае абстрактныя ўяўленьні, якія захопляюць суцэльную структуру фізічных сістэм.
Думайце пра гэта так: чалавек, які назіраў, як мяч котыцца да скалы, не мадэлюе кожны піксэль траекторыі мяча. Замест гэтага мы прыпыняем абстрактную ситуацыю (мяч, край, гравітацыя) і прадказваем вынік (паданьне). JEPA прагне захаваць гэтае эфектыўнае, абстрактнае мышленьне.
Наслідкі для відэагенерацыі ШІ
Гэта траекторыя даслідчаньня глыбока важна для творчых ужыванкаў. Сучасныя генератары відэа ШІ вырабляюць вразьліваючыя вынікі, але хворюць ад часовай нёстабільнасьці. Персанажы трансформуюцца, фізіка парушаецца, абьекты з'яўляюцца і зьнікаюць.
Сусветныя модэлі прапаноўваюць пацэнцыйнае рашэньне. Генератар, які сапраўды разумее фізіку, павінен вырабляць відэа, дзе абьекты прытрымліваюцца узгоднёных правіл, дзе прадметы, якія падаюць, падаюць прадказальна, дзе адбіцці паводзяць сябе правільна.
Модэлі генерыруюць візуальна правдаподобныя кадры без забяспячэньня фізічнай узгоднёнасьці. Працуе для коротких кліпаў, але парушаецца пры пажадленьні трывалясьці.
Фізічная узгоднёнасьць ўзнікае з вывучанай дынамікі свету. Доўжэйшыя, больш сувязныя відэа становяцца магчымымі, бо модэль трымае внутрішнага стан свету.
Мы ўжо бачым раннія прыкметы гэтага переходу. GWM-1 Runway прадстаўляе іх ставку на сусветныя модэлі, а палепшаная фізічная сімуляцыя Veo 3.1 прапаноўвае, што Google ўключае падобныя прынцыпы.
Сувязь з AGI
Чамуста ўсё гэта мае значэньне для штучнага ўсеагульнага інтэлекта? Таму што сапраўдны інтэлект патрабуе больш чым маніпуляцыя мовай. Ён патрабуе разуменьня прычыны і наслідку, прадказаньня наслідкаў і плянаваньня дзеяньняў у фізічным свеце.
Утеленае пазнаньне
Сапраўдны інтэлект можа патрабаваць укаранэньня ў фізічнай рэальнасьці, а не проста статыстычных закономернасьцяў у тэксьце.
Інтэрактыўнае навучаньне
Гульні надаюць ідэальны полігон: багатую фізіку, чёткую зваротную інфармацыю, беськанечную ітэрацыю.
Робатычнае ужыванне
Сусветныя модэлі, навучаныя на гульнях, могуць перадавацца робатэхніцы ў рэальным свеце з мінімальным адаптыраньнем.
Даследчыкі, якія рухаюць гэту работу, аж уся ў боку каб не стаўяць на адзіну, што яны будуюць AGI. Але яны убяўляючы стаўяць, што без разуменьня свету мы не можамм пабудаваць сістэмы, якія сапраўды мыслят, а не проста аўтадоўрабляюць.
Што далей
Наступныя два годы будуць крытычнымі. Некалькі подзеяў, на якія варта звярнуць ўвагу:
- ○Першыя публічныя дэманстрацыі AMI Labs (чэкаюцца сярэдзіна 2026)
- ○Інтэграцыя сусветных модэляў у аснаўныя відэагенератары
- ○Кампаніі ігравых рухавіков (Unity, Unreal) дадаюць API сусветных модэляў
- ○Першыя спажывацкія робаты, якія выкарыстоўваюць сусветныя модэлі, навучаныя на гульнях
Рынак гуль, праектаваны перавышыць 500 мільярдаў долараў да 2030 года, прадстаўляе плодную пляцаўку для разгортаньня сусветных модэляў. Інвэстары бачаць сусветныя модэлі не толькі як навуковыя цікаўнасьці, але як фундамэнтальную тэхналогію для інтэрактыўных разваг, сімуляцыі і робатэхніки.
Тыхая рэвалюцыя
На адрозьненьне ад выбўхаўска шуму вакол ChatGPT, рэвалюцыя сусветных модэляў разгортаецца цьіхо ў даследчыя лабараторыія і ігравыя студыі. Няма вірусных дэма, няма штодзённых навін пра найноўшыя прарывы.
Але наслідкі могуць быць глыбшымі. Мовныя модэлі змяніли, як мы узаемадзейнічаем з тэксьцем. Сусветныя модэлі гліво змяніць, як ШІ узаемадзейнічае з рэальнасьцю.
Для тых з нас, хто працуе ў відэагенерацыі ШІ, гэтае даслідчаньне прадстаўляе як загрозу, так і магчымасьць. Наша цяперашнія інструменты могуць здацца прымітыўнымі ў ретраспектыве, як ранні CGI у параўнаньні з сучаснымі візуальнымі эфектамі. Але аснаўны прынцып, генерыванне візуальнага змесьцева праз вывучаныя модэлі, будзе толькі ставаць магутнішым, калі гэтыя модэлі пачнуць сапраўды разумець святы, якія яны ствараюць.
Далейшае чытаньне: Даслідуйце, як дыфузійныя трансформатары забяспечваюць архітэктурную асноў для многіх сусветных модэляў, або дахоўлеся пра сапраўдны-часавую інтэрактыўную генерацыю, якая базуецца на прынцыпах сусветных модэляў.
Шлях ад фізікі відэаігр да штучнага ўсеагульнага інтэлекта можа здацца звіліны. Але інтэлект, дзе б мы яго не знаходзіліся, ўзнікае з сістэм, якія разумеюць своё асяроддзе і могуць прадказаць наслідкі сваіх дзеяньняў. Гульні дадаюць нам бяспечны простор для пабудовы і тэставаньня такіх сістэм. Робаты, творчыя інструменты і, можліва, сапраўдная машыннае разуменьне будуць наступаць.
Гэты артыкул быў карысны?

Alexis
Інжынер ШІІнжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

Ян ЛеКун пакідае Meta дзеля стаўкі ў $3,5 мільярды на мадэлі свету
Лаўрэат прэміі Цьюрынга запускае AMI Labs, новы стартап, арыентаваны на мадэлі свету замест LLM, з фокусам на робататэхніку, аховы здароўя і разуменне відэа.

Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе
GWM-1 ад Runway, гэта пераход ад генерацыі відэа да сімуляцыі светаў. Вывучыце, як гэтая аўтарэгрэсіўная мадэль стварае даследуемыя асяроддзі, фотарэалістычныя аватары і сімуляцыі для навучання робатаў.

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў
Мадэлі свету вучаць AI разумець фізічную рэальнасць, дазваляючы робатам планаваць дзеянні і мадэляваць вынікі яшчэ да першага руху.