Meta Pixel
HenryHenry
7 min read
1306 слоў

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў

Мадэлі свету вучаць AI разумець фізічную рэальнасць, дазваляючы робатам планаваць дзеянні і мадэляваць вынікі яшчэ да першага руху.

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў

Вялікія моўныя мадэлі апанавалі тэкст. Мадэлі зроку асвоілі выявы. AI-агенты навучыліся карыстацца інструментамі. Цяпер з'яўляецца новая катэгорыя, якая можа затміць усе папярэднія: відэамоўныя мадэлі, або, як іх усё часцей называюць даследчыкі, "мадэлі свету".

Апошнія гады мы вучылі AI чытаць, пісаць і нават разважаць над складанымі задачамі. Але вось у чым справа: усё гэта адбываецца ў лічбавай прасторы. ChatGPT можа напісаць вам верш пра прагулку па лесе, але ён не ўяўляе, як гэта насамрэч, пераступіць праз упаўшае дрэва ці прыгнуцца пад нізкай галіной.

Мадэлі свету прыйшлі, каб гэта змяніць.

Што такое відэамоўныя мадэлі?

💡

Відэамоўныя мадэлі (VLM) апрацоўваюць візуальныя паслядоўнасці і мову адначасова, дазваляючы AI разумець не толькі змесціва кадра, але і тое, як сцэны развіваюцца з цягам часу і што можа здарыцца далей.

Уявіце іх як эвалюцыю мадэляў зрок-мова, але з ключавым дадаткам: часавым разуменнем. Калі звычайная VLM глядзіць на адну выяву і адказвае на пытанні пра яе, відэамоўная мадэль назірае за паслядоўнасцямі і вывучае законы, якія кіруюць фізічнай рэальнасцю.

Гэта не проста акадэмічная цікавасць. Практычныя наступствы ўражваюць.

Калі робату трэба ўзяць кубак кавы, ён не можа проста распазнаць "кубак" на выяве. Ён павінен разумець:

  • Як аб'екты паводзяць сябе пры штурханні або падыманні
  • Што адбываецца, калі вадкасць плёскаецца
  • Як яго ўласныя рухі ўплываюць на сцэну
  • Якія дзеянні фізічна магчымыя, а якія немагчымыя

Тут і ўступаюць у гульню мадэлі свету.

Ад сімуляцыі да дзеяння

🤖

Фізічны інтэлект

Мадэлі свету генеруюць відэападобныя сімуляцыі магчымых варыянтаў будучыні, дазваляючы робатам "ўявіць" вынікі перад тым, як пачаць дзейнічаць.

Канцэпцыя элегантная: замест жорсткага праграмавання фізічных законаў вы трэніруеце AI на мільёнах гадзін відэа, якое паказвае, як свет насамрэч працуе. Мадэль вывучае гравітацыю, трэнне, сталасць аб'ектаў і прычынна-выніковыя сувязі не з раўнанняў, а з назіранняў.

NVIDIA Cosmos уяўляе сабой адну з самых амбіцыйных спробаў у гэтым накірунку. Іх прапрыетарная мадэль свету распрацавана спецыяльна для робататэхнічных прымянення, дзе разуменне фізічнай рэальнасці не апцыянальнае. Гэта выжыванне.

Google DeepMind Genie 3 выкарыстоўвае іншы падыход, засяроджваючыся на інтэрактыўнай генерацыі свету, дзе ў мадэль можна "гуляць" як у відэагульнявое асяроддзе.

Традыцыйная робататэхніка

Ручное кадзіраванне фізічных законаў, нестабільныя крайнія выпадкі, дарагія сенсарныя масівы, павольная адаптацыя да новых асяроддзяў

Падыход мадэлі свету

Набытая фізічная інтуіцыя, плаўная дэградацыя, прасцейшыя апаратныя патрабаванні, хуткі перанос на новыя сцэнарыі

Эксперымент PAN

Даследчыкі з Універсітэта імя Мухамеда бін Заеда нядаўна прадставілі PAN, агульную мадэль свету, якая правоіць тое, што яны называюць "уяўнымі эксперыментамі" ў кантраляваных сімуляцыях.

🧪

Як працуе PAN

Выкарыстоўваючы генератыўнае латэнтнае прадказанне (GLP) і архітэктуру Causal Swin-DPM, PAN падтрымлівае кагерэнтнасць сцэны на працягу доўгіх паслядоўнасцей, прадказваючы фізічна верагодныя вынікі.

Ключавая інавацыя палягае ў тым, каб разглядаць мадэляванне свету як задачу генератыўнага відэа. Замест яўнага праграмавання фізікі мадэль вучыцца генераваць працягі відэа, якія паважаюць фізічныя законы. Калі ёй даюць пачатковую сцэну і прапанаванае дзеянне, яна можа "ўявіць", што здарыцца далей.

Гэта мае глыбокія наступствы для робататэхнікі. Перш чым гуманоідны робат пацягнецца за кубкам кавы, ён можа правесці сотні сімуляваных спробаў, вывучаючы, якія куты падыходу працуюць, а якія скончацца кавай на падлозе.

Будучыня з мільярдам робатаў

1B
Прагнозуемая колькасць гуманоідных робатаў да 2050
3x
Рост інвестыцый у AI для робататэхнікі з 2023

Гэта не адвольныя лічбы для драматычнага эфекту. Галіновыя прагнозы сапраўды ўказваюць на будучыню, дзе гуманоідныя робаты стануць такімі ж распаўсюджанымі, як смартфоны. І кожнаму з іх спатрэбяцца мадэлі свету для бяспечнага функцыянавання побач з людзьмі.

Прымяненні выходзяць за межы гуманоідных робатаў:

Цяпер

Фабрычныя сімуляцыі

Навучанне работнікаў у віртуальных асяроддзях перад разгортваннем на рэальных вытворчых паверхах

2025

Аўтаномныя транспартныя сродкі

Сістэмы бяспекі, якія прадказваюць аварыйныя сцэнарыі і прымаюць прэвентыўныя меры

2026

Навігацыя на складах

Робаты, якія разумеюць складаныя прасторы і адаптуюцца да зменлівых планіровак

2027+

Хатнія памочнікі

Робаты, якія бяспечна перамяшчаюцца па жылых памяшканнях і маніпулююць штодзённымі прадметамі

Дзе генерацыя відэа сустракаецца з разуменнем свету

Калі вы сачылі за AI-генерацыяй відэа, вы маглі заўважыць пэўнае перасячэнне. Такія інструменты, як Sora 2 і Veo 3, ужо генеруюць надзвычай рэалістычнае відэа. Ці не з'яўляюцца яны таксама мадэлямі свету?

І так, і не.

OpenAI яўна пазіцыянуе Sora як мадэль з магчымасцямі сімуляцыі свету. Мадэль відавочна разумее нешта пра фізіку. Паглядзіце на любую генерацыю Sora, і вы ўбачыце рэалістычнае асвятленне, праўдападобны рух і аб'екты, якія паводзяць сябе ў асноўным правільна.

Але ёсць важная розніца паміж генерацыяй праўдападобна выглядаючага відэа і сапраўдным разуменнем фізічнай прычыннасці. Цяперашнія відэагенератары аптымізаваны для візуальнага рэалізму. Мадэлі свету аптымізаваны для дакладнасці прадказанняў.

💡

Тэст не ў тым, "ці выглядае гэта рэальна?", а ў тым, "пры дзеянні X, ці правільна мадэль прадказвае вынік Y?" Гэта значна вышэйшая планка.

Праблема галюцынацый

Вось непрыемная праўда: мадэлі свету пакутуюць ад тых жа праблем з галюцынацыямі, што і LLM.

Калі ChatGPT ўпэўнена сцвярджае ілжывы факт, гэта раздражняе. Калі мадэль свету ўпэўнена прадказвае, што робат можа прайсці праз сцяну, гэта небяспечна.

⚠️

Галюцынацыі мадэляў свету ў фізічных сістэмах могуць прычыніць рэальную шкоду. Абмежаванні бяспекі і ўзроўні верыфікацыі неабходныя перад разгортваннем побач з людзьмі.

Цяперашнія сістэмы дэградуюць на больш доўгіх паслядоўнасцях, губляючы кагерэнтнасць, чым далей яны праецыруюць у будучыню. Гэта стварае фундаментальную напружанасць: найбольш карысныя прадказанні даўгатэрміновыя, але яны таксама найменш надзейныя.

Даследчыкі атакуюць гэту праблему з розных бакоў. Адны засяроджваюцца на лепшых навучальных дадзеных. Іншыя працуюць над архітэктурнымі інавацыямі, якія падтрымліваюць узгодненасць сцэны. Трэція выступаюць за гібрыдныя падыходы, якія спалучаюць набытыя мадэлі свету з яўнымі фізічнымі абмежаваннямі.

Прарыў Qwen 3-VL

На боку зрок-мова, Qwen 3-VL ад Alibaba прадстаўляе цяперашні стан мастацтва для мадэляў з адкрытым зыходным кодам.

Флагманская мадэль Qwen3-VL-235B канкуруе з вядучымі прапрыетарнымі сістэмамі па мультымадальных тэстах, якія ахопліваюць агульныя пытанні-адказы, 3D-заземленне, разуменне відэа, OCR і разуменне дакументаў.

Што робіць Qwen 3-VL асабліва цікавай, гэта яе "агентныя" магчымасці. Мадэль можа кіраваць графічнымі інтэрфейсамі, распазнаваць элементы карыстальніцкага інтэрфейсу, разумець іх функцыі і выконваць рэальныя задачы праз выклік інструментаў.

Гэта мост паміж разуменнем і дзеяннем, які патрэбны мадэлям свету.

Чаму гэта важна для стваральнікаў

Калі вы відэастваральнік, кінематаграфіст ці аніматар, мадэлі свету могуць здавацца далёкімі ад вашай штодзённай працы. Але наступствы бліжэй, чым вы думаеце.

Цяперашнія AI-інструменты для відэа маюць праблемы з фізічнай узгодненасцю. Аб'екты праходзяць адзін праз аднаго. Гравітацыя паводзіць сябе непаслядоўна. Прычына і вынік блытаюцца. Усё гэта сімптомы мадэляў, якія могуць генераваць рэалістычныя пікселі, але не разумеюць сапраўды фізічных законаў, што ляжаць у аснове таго, што яны адлюстроўваюць.

Мадэлі свету, навучаныя на масіўных наборах відэададзеных, маглі б у рэшце рэшт ўплываць на генерацыю відэа, ствараючы AI-інструменты, якія ўнутрана паважаюць фізічныя законы. Уявіце відэагенератар, дзе вам не трэба пісаць у промпце "рэалістычная фізіка", таму што мадэль ужо ведае, як працуе рэальнасць.

💡

Звязанае чытанне: Каб даведацца больш пра эвалюцыю генерацыі відэа, глядзіце нашы глыбокія аналізы па дыфузійных трансформарах і мадэлях свету ў генерацыі відэа.

Шлях наперад

Мадэлі свету прадстаўляюць, магчыма, самую амбіцыйную мэту ў AI: навучыць машыны разумець фізічную рэальнасць так, як гэта робяць людзі. Не праз яўнае праграмаванне, а праз назіранне, вывад і ўяўленне.

Мы яшчэ на пачатку шляху. Цяперашнія сістэмы, гэта ўражлівыя дэманстрацыі, а не гатовыя да вытворчасці рашэнні. Але траекторыя зразумелая.

Што мы маем цяпер:

  • Абмежаваная кагерэнтнасць паслядоўнасцей
  • Даменна-спецыфічныя мадэлі
  • Высокія вылічальныя выдаткі
  • Разгортванні на стадыі даследаванняў

Што наступае:

  • Пашыранае часавае разуменне
  • Універсальныя мадэлі свету
  • Разгортванне на краявых прыладах
  • Інтэграцыя ў камерцыйную робататэхніку

Кампаніі, якія актыўна інвестуюць у гэту сферу, NVIDIA, Google DeepMind, OpenAI і шматлікія стартапы, робяць стаўку на тое, што фізічны інтэлект, гэта наступная мяжа пасля лічбавага інтэлекту.

Улічваючы, наколькі трансфармацыйнымі былі LLM для працы з тэкстам, уявіце ўплыў, калі AI зможа разумець і ўзаемадзейнічаць з фізічным светам гэтак жа свабодна.

У гэтым абяцанне відэамоўных мадэляў. Таму гэтая мяжа мае значэнне.

💡

Дадатковае чытанне: Даведайцеся, як AI-відэа ўжо трансфармуе творчыя працоўныя працэсы, у нашым агляде натыўнай генерацыі аўдыё і карпаратыўнага ўкаранення.

Гэты артыкул быў карысны?

Henry

Henry

Творчы тэхнолаг

Творчы тэхнолаг з Лазаны, які даследуе сутыкненне ШІ і мастацтва. Эксперыментуе з генератыўнымі мадэлямі паміж сеансамі электроннай музыкі.

Звязаныя артыкулы

Працягвайце даследаванне з гэтымі звязанымі допісамі

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

Відэамоўныя мадэлі: новая мяжа пасля LLM і AI-агентаў