Сусветныя модэлі па-за відэа: чому гульні і робатэхніка

Наступная рэвалюцыя ў штучным інтэлекце не будзе прыходзіць з мовных модэляў. Яна прыйдзе з сістэм, якія разумеюць фізічны свят, і першым полем бітвы будуць не даследчыя лабараторыі, а відэаігры.

Калі Янн ЛеКун абвясцьіў пра свой выход з Meta для запуску AMI Labs з фінансаваннем 500 млн еўра, ён сфармуляваў тое, у што многія даследчыкі цьіхо верылі радамі. Вялікія мовныя модэлі, пры ўсёй іх вразьліваючай магутнасьці, прадстаўляюць тупік на шляху да штучнага ўсеагульнага інтэлекта. Яны прадказваюць токены без разуменьня рэальнасьці.

Альтэрнатыва? Сусветныя модэлі. Сістэмы, якія вучацца мадэляваць, як працуе фізічны свят.

Фундамэнтальнае абмежаванне мовных модэляў

💡

Сусветныя модэлі вучацца прадказваць, што станецца далей у візуальных асяроддзях, а не проста якія словы прыйдуць далей у тэксьце. Гэта патрабуе разуменьня фізікі, пастаяннасьці абьектаў і прычынна-наслідковых сувязяў.

Мовныя модэлі адзлічаны ў пошуку закономернасьцяў у тэксьце. Яны могуць пісаць паэзію, наладжваць код і весьці разьмовы, якія здаюцца дзівоснасна чалавечымі. Але калі запытаць GPT-4 прадказаць, што станецца, калі вы кінуеце мяч, яна апіраецца на запамятаныя апісаньні, а не на сапраўдную фізічную інтуіцыю.

Гэта важна, тамуста інтэлект, як мы яго перажываем у біялагічным свеце, фундамэнтальна укаранены ў фізічнай рэальнасьці. Немаўля, якое вучыцца будаваць вежы з кубікаў, развівае інтуітыўнае разуменьне гравітацыі, раўнавагі і ўласцівасьцяў матэрыяляў задоўга да вывучэньня мовы. Гэтае ўтеленае пазнаньне, гэтае адчуванне таго, як функцыянуе свят, прадстаўляе сакаму тое, чаго не хапае сучасным сістэмам ШІ.

Сусветныя модэлі прагнуць запоўніць гэтую прагалу. Замест прадказаньня наступнага токена яны прадказваюць наступны кадр, наступны фізічны стан, наслідак дзеяньня.

Тры падыходы да разуменьня свету

Гонка па стварэньню ШІ, які разумее свят, разьдзелілася на тры розныя парадыгмы, кожная з сваімі перавагамі.

✓Модэлі прадказаньня відэа

Навучанне на масіўных набарах відэададзеных для вывучэньня неяўнай фізікі. Прыклады ўключаюць Sora і Veo. Добра генерыруюць правдаподобныя прадоўжэньні, але мають цяжкасьці з інтэрактыўнымі сцэнарыямі.

✗Модэлі на аснове сімуляцыі

Пабудова явных фізічных рухавіков і навучанне ШІ іх навігацыі. Патрабуе дарогастойнага ручнога пабудовы асяроддзяў, але забяспечвае пакуль точную фізічную пакуль точнасьць.

Трэцяе падыход, і можліва найпэрспэктыўніш, паёднывае оба: вывучэньне дынамікі свету з відэа, захоўваючы пры гэтым здольнасьць узаемадзейнічаць з асяроддзем і маніпуляваць ім. Менавіта тут гульні становяцца неабходнымі.

Гульні: ідэальны полігон для навучаньня

Відэаігры надаюць штось унікальнае: інтэрактыўныя асяроддзі з узгоднёнымі правіламі фізікі, бесканечнае разнаманітьё і чёткія показчыкі поспеху. На адрозьненьне ад робатэхніки ў рэальным свеце, якая патрабуе дарагосьцёнага абсталяваньня і ствараць праблемы бяспекі, гульні прапаноўваюць бесьмежныя памылкі без наслідкаў.

500 млрд дал.

Рынак гуль да 2030 года

500 млн еўра

Фінансаванне AMI Labs

12%

Гадавы тэмп ростве

DeepMind рана адчуў гэты потэнцыял. Іх сістэма Genie можа генерыраваць абсалютна новыя ігравыя асяроддзі з адной выявы. Дайце ёй эскіз узроўня платформера, і яна ствара свят з узгоднёнай фізікай, дзе персанажы могуць скачаць, падаць і надлежным чынам узаемадзейнічаць з абьектамі.

Примечаниямі ў Genie з'яўляюцца не толькі генерацыя, але і разуменьне. Сістэма вывучае узагульненыя канцэпцыі фізікі, якія пераносяцца на розныя візуальныя стылі і тыпы гуль. Модэль, навучаная на платформерах у стылі Mario, развівае інтуіцыю пра гравітацыю і зітканьні, якая ў роўнай ступені прымяняецца да намаляваных інді-гуль і рэалістычных 3D асяроддзяў.

Ад гуль да робатаў

Кльконвеер ад гуль да робатэхніки не тэарэтычны. Кампаніі ўжо яго ўжываюць.

2024

Выявлены разрыў сімуляцыі

Даслідчаньня паказваюць, што модэлі, навучаныя выключна ў сімуляцыі, мають цяжкасьці з рэальным хаосам: розным асьвеціленьнем, недасканаламі датчыкамі, непрадбачанымі абьектамі.

2025

Узнікаюць гібрыдныя падыходы

Камандыпаёднываюць сусветныя модэлі, навучаныя на гульнях, з абмежаванай дадоўкай у рэальным свеце, рэзка зменшаючы дадзеныя, неабходныя для навучаньня робатаў.

2026

Пачынаецца камерцыйнае разгортванне

Першыя складскія робаты, якія выкарыстоўваюць асновы сусветных модэляў, патрапляюць у вытворчасьць і адпрацоўваюць новыя абьекты без явнага праграміраваньня.

Ідэя, якая рухае гэты пераход, простая: фізіка гэта фізіка. Модэль, якая сапраўды разумее, як абьекты падаюць, слізаюць і зітыкаюцца ў відэаігры, павінна, пры надлежным адаптыраваньні, разумець тыя ж прынцыпы ў рэальным свеце. Візуальны вяскок змяняецца, але базавая дынаміка застаецца пастаяннай.

Tesla выкарыстоўвала версію гэтай стратэгіі са сваімі робатамі Optimus, спачатку навучаючы іх у сімуляцыі перад разгортаньнем у кантралюемых завадскіх асяроддзях. Абмежаваючы фактар заўсёды быў разрыў між змадэльаванай і рэальнай фізікай. Сусветныя модэлі, навучаныя на разнаманітных відэададзеных, могуць нарэшце закрыць гэты разрыў.

Ставка AMI Labs

Новае прыпінеманне Янна ЛеКуна, AMI Labs, прадстаўляе найбольшае адзінае інвеставанне ў даслідчаньне сусветных модэляў на дадзены момант. Зі 500 млн еўра еўрапейскага фінансаваньня і камандай, набранай з Meta, DeepMind і акадэмічных лабараторыяў, яны ідуць за тым, што ЛеКун называе "целевым ШІ".

💡

На адрозьненьне ад LLM, якія прадказваюць токены, падыход AMI сканцэнтравам на вывучэньні ўяўленьняў свету, якія дазваляюць плянаванне і разважаньне пра фізічныя наслідкі.

Тэхнічная аснова пабудавана на Joint Embedding Predictive Architecture (JEPA), фрэймворку, які ЛеКун абараняў радамі. Замест генерыраваньня прадказаньняў на узроўні піксэляў, што патрабуе велізарных вылічальных рэсурсаў, JEPA вывучае абстрактныя ўяўленьні, якія захопляюць суцэльную структуру фізічных сістэм.

Думайце пра гэта так: чалавек, які назіраў, як мяч котыцца да скалы, не мадэлюе кожны піксэль траекторыі мяча. Замест гэтага мы прыпыняем абстрактную ситуацыю (мяч, край, гравітацыя) і прадказваем вынік (паданьне). JEPA прагне захаваць гэтае эфектыўнае, абстрактнае мышленьне.

Наслідкі для відэагенерацыі ШІ

Гэта траекторыя даслідчаньня глыбока важна для творчых ужыванкаў. Сучасныя генератары відэа ШІ вырабляюць вразьліваючыя вынікі, але хворюць ад часовай нёстабільнасьці. Персанажы трансформуюцца, фізіка парушаецца, абьекты з'яўляюцца і зьнікаюць.

Сусветныя модэлі прапаноўваюць пацэнцыйнае рашэньне. Генератар, які сапраўды разумее фізіку, павінен вырабляць відэа, дзе абьекты прытрымліваюцца узгоднёных правіл, дзе прадметы, якія падаюць, падаюць прадказальна, дзе адбіцці паводзяць сябе правільна.

✗Цяперашні стан

Модэлі генерыруюць візуальна правдаподобныя кадры без забяспячэньня фізічнай узгоднёнасьці. Працуе для коротких кліпаў, але парушаецца пры пажадленьні трывалясьці.

✓Будучыня сусветнай модэлі

Фізічная узгоднёнасьць ўзнікае з вывучанай дынамікі свету. Доўжэйшыя, больш сувязныя відэа становяцца магчымымі, бо модэль трымае внутрішнага стан свету.

Мы ўжо бачым раннія прыкметы гэтага переходу. GWM-1 Runway прадстаўляе іх ставку на сусветныя модэлі, а палепшаная фізічная сімуляцыя Veo 3.1 прапаноўвае, што Google ўключае падобныя прынцыпы.

Сувязь з AGI

Чамуста ўсё гэта мае значэньне для штучнага ўсеагульнага інтэлекта? Таму што сапраўдны інтэлект патрабуе больш чым маніпуляцыя мовай. Ён патрабуе разуменьня прычыны і наслідку, прадказаньня наслідкаў і плянаваньня дзеяньняў у фізічным свеце.

🧠

Утеленае пазнаньне

Сапраўдны інтэлект можа патрабаваць укаранэньня ў фізічнай рэальнасьці, а не проста статыстычных закономернасьцяў у тэксьце.

🎮

Інтэрактыўнае навучаньне

Гульні надаюць ідэальны полігон: багатую фізіку, чёткую зваротную інфармацыю, беськанечную ітэрацыю.

🤖

Робатычнае ужыванне

Сусветныя модэлі, навучаныя на гульнях, могуць перадавацца робатэхніцы ў рэальным свеце з мінімальным адаптыраньнем.

Даследчыкі, якія рухаюць гэту работу, аж уся ў боку каб не стаўяць на адзіну, што яны будуюць AGI. Але яны убяўляючы стаўяць, што без разуменьня свету мы не можамм пабудаваць сістэмы, якія сапраўды мыслят, а не проста аўтадоўрабляюць.

Што далей

Наступныя два годы будуць крытычнымі. Некалькі подзеяў, на якія варта звярнуць ўвагу:

○Першыя публічныя дэманстрацыі AMI Labs (чэкаюцца сярэдзіна 2026)
○Інтэграцыя сусветных модэляў у аснаўныя відэагенератары
○Кампаніі ігравых рухавіков (Unity, Unreal) дадаюць API сусветных модэляў
○Першыя спажывацкія робаты, якія выкарыстоўваюць сусветныя модэлі, навучаныя на гульнях

Рынак гуль, праектаваны перавышыць 500 мільярдаў долараў да 2030 года, прадстаўляе плодную пляцаўку для разгортаньня сусветных модэляў. Інвэстары бачаць сусветныя модэлі не толькі як навуковыя цікаўнасьці, але як фундамэнтальную тэхналогію для інтэрактыўных разваг, сімуляцыі і робатэхніки.

Тыхая рэвалюцыя

На адрозьненьне ад выбўхаўска шуму вакол ChatGPT, рэвалюцыя сусветных модэляў разгортаецца цьіхо ў даследчыя лабараторыія і ігравыя студыі. Няма вірусных дэма, няма штодзённых навін пра найноўшыя прарывы.

Але наслідкі могуць быць глыбшымі. Мовныя модэлі змяніли, як мы узаемадзейнічаем з тэксьцем. Сусветныя модэлі гліво змяніць, як ШІ узаемадзейнічае з рэальнасьцю.

Для тых з нас, хто працуе ў відэагенерацыі ШІ, гэтае даслідчаньне прадстаўляе як загрозу, так і магчымасьць. Наша цяперашнія інструменты могуць здацца прымітыўнымі ў ретраспектыве, як ранні CGI у параўнаньні з сучаснымі візуальнымі эфектамі. Але аснаўны прынцып, генерыванне візуальнага змесьцева праз вывучаныя модэлі, будзе толькі ставаць магутнішым, калі гэтыя модэлі пачнуць сапраўды разумець святы, якія яны ствараюць.

💡

Далейшае чытаньне: Даслідуйце, як дыфузійныя трансформатары забяспечваюць архітэктурную асноў для многіх сусветных модэляў, або дахоўлеся пра сапраўдны-часавую інтэрактыўную генерацыю, якая базуецца на прынцыпах сусветных модэляў.

Шлях ад фізікі відэаігр да штучнага ўсеагульнага інтэлекта можа здацца звіліны. Але інтэлект, дзе б мы яго не знаходзіліся, ўзнікае з сістэм, якія разумеюць своё асяроддзе і могуць прадказаць наслідкі сваіх дзеяньняў. Гульні дадаюць нам бяспечны простор для пабудовы і тэставаньня такіх сістэм. Робаты, творчыя інструменты і, можліва, сапраўдная машыннае разуменьне будуць наступаць.

Сусветныя модэлі па-за відэа: чому гульні і робатэхніка - гэта сапраўдны полігон для AGI

Фундамэнтальнае абмежаванне мовных модэляў

Тры падыходы да разуменьня свету

Гульні: ідэальны полігон для навучаньня

Ад гуль да робатаў

Выявлены разрыў сімуляцыі

Узнікаюць гібрыдныя падыходы

Пачынаецца камерцыйнае разгортванне

Ставка AMI Labs

Наслідкі для відэагенерацыі ШІ

Сувязь з AGI

Утеленае пазнаньне

Інтэрактыўнае навучаньне

Робатычнае ужыванне

Што далей

Тыхая рэвалюцыя

Alexis

Like what you read?

Звязаныя артыкулы

Ян ЛеКун пакідае Meta дзеля стаўкі ў $3,5 мільярды на мадэлі свету

Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў

Спадабаўся гэты артыкул?