Фізіка ў AI-відэа: як мадэлі нарэшце навучыліся паважаць рэальнасць
Ад баскетбольных мячоў, што тэлепартуюцца, да рэалістычных адскокаў. AI-мадэлі цяпер разумеюць гравітацыю, імпульс і дынаміку матэрыялаў. Разбіраем тэхнічныя прарывы, якія гэта зрабілі магчымым.

Гадамі AI-відэа мелі праблему з фізікай. Баскетбольныя мячы прамахваліся міма кальца і тэлепартаваліся ў яго. Вада цякла ўверх. Абʼекты праходзілі праз адзін аднаго як прывіды. У 2025 і на пачатку 2026 года ўсё змянілася. Апошняе пакаленне відэамадэляў навучылася паважаць фундаментальныя законы фізічнага свету.
Праблема баскетбольнага мяча
OpenAI апісалі гэта дакладна пры запуску Sora 2: у ранніх мадэлях, калі мяч прамахваўся міма кальца, ён проста матэрыялізаваўся ў сетцы. Мадэль ведала наратыўны вынік (мяч трапляе ў кошык), але не мела паняцця пра фізічныя абмежаванні, што павінны кіраваць траекторыяй.
Гэта не быў дробны баг. Гэта было сімптомам фундаментальнага архітэктурнага абмежавання. Раннія мадэлі генерацыі відэа выдатна спраўляліся з візуальным супастаўленнем патэрнаў, вучыліся генераваць кадры, якія выглядалі праўдападобна паасобку, але заставаліся фізічна нязвязнымі пры праглядзе паслядоўнасці.
OpenAI яўна ўказалі абмежаванні "трансфармацыі абʼектаў" як ключавую праблему, якую Sora 2 павінна была вырашыць. Гэты архітэктурны прабел расчароўваў і даследчыкаў, і стваральнікаў кантэнту.
Тры слупы фізічнага разумення
Прарыў у сімуляцыі фізікі абапіраецца на тры ўзаемазвязаныя дасягненні: мадэляванне свету, ланцуговае разважанне і палепшаныя механізмы тэмпаральнай увагі.
Мадэлі свету vs прадказанне кадраў
Традыцыйная генерацыя відэа разглядала задачу як паслядоўнае прадказанне кадраў: дадзена кадры з 1 па N, прадкажы кадр N+1. Гэты падыход спрадвеку дрэнна спраўляецца з фізікай, бо не мае яўнага прадстаўлення базавага фізічнага стану.
Мадэлі свету выкарыстоўваюць фундаментальна іншы падыход. Замест прамога прадказання пікселяў яны спачатку будуюць унутранае прадстаўленне фізічнага стану сцэны: пазіцыі абʼектаў, хуткасці, матэрыялы і ўзаемадзеянні. Толькі потым яны рэндэраць гэты стан у візуальныя кадры. Гэты падыход, дэталёва даследаваны ў нашым аналізе мадэляў свету, прадстаўляе парадыгмальны зрух у разуменні генерацыі відэа.
Прадказвае пікселі з пікселяў. Без яўнай фізікі. Схільнае да тэлепартацыі, праходу праз абʼекты і парушэнняў гравітацыі. Хутка, але фізічна нязвязна.
Спачатку сімулюе фізічны стан. Яўнае адсочванне абʼектаў. Прытрымліваецца законаў захавання і дынамікі сутыкненняў. Вылічальна цяжэй, але фізічна абгрунтавана.
Ланцуг разважанняў для відэа
Kling O1, выпушчаны ў канцы 2025 года, укараніў ланцуговае разважанне ў генерацыю відэа. Перад генерацыяй кадраў мадэль яўна разважае пра тое, што фізічна павінна адбыцца ў сцэне.
Для сцэны шклянкі, што падае са стала, мадэль спачатку разважае:
- Шклянка мае пачатковую хуткасць нуль, пазіцыя на краі стала
- Гравітацыя паскарае шклянку ўніз з хуткасцю 9.8 м/с²
- Шклянка кантактуе з падлогай прыблізна праз 0.45 секунды
- Матэрыял шклянкі крохкі, падлога цвёрдая
- Удар перавышае парог разбурэння, шклянка разбіваецца
- Абломкі разлятаюцца з захаваннем імпульсу
Гэты этап яўнага разважання адбываецца ў латэнтнай прасторы мадэлі да генерацыі пікселяў. Вынік: відэа, якое паважае не толькі візуальную эстэтыку, але і прычынна-следчыя ланцужкі.
Тэмпаральная ўвага ў маштабе
Архітэктурнай асновай гэтых дасягненняў зʼяўляецца тэмпаральная ўвага, механізм, з дапамогай якога відэамадэлі падтрымліваюць узгодненасць паміж кадрамі. Архітэктура дыфузійных трансформераў, на якой працуюць сучасныя відэамадэлі, апрацоўвае відэа як прасторава-часавыя патчы, дазваляючы ўвазе цячы як прасторава ўнутры кадраў, так і тэмпаральна паміж імі.
Сучасныя відэамадэлі апрацоўваюць мільёны прасторава-часавых патчаў на відэа, са спецыялізаванымі галовамі ўвагі, выдзеленымі для фізічнай узгодненасці. Гэты маштаб дазваляе мадэлям адсочваць ідэнтычнасць абʼектаў і фізічны стан на працягу сотняў кадраў, падтрымліваючы звязнасць, якая была немагчымай з ранейшымі архітэктурамі.
Рэальныя бенчмаркі фізікі
Як мы насамрэч вымяраем якасць сімуляцыі фізікі? У галіне распрацаваны некалькі стандартызаваных тэстаў:
| Бенчмарк | Што тэстуе | Лідары |
|---|---|---|
| Пастаянства абʼектаў | Абʼекты захоўваюцца пры перакрыцці | Sora 2, Veo 3 |
| Узгодненасць гравітацыі | Паскарэнне свабоднага падзення раўнамернае | Kling O1, Runway Gen-4.5 |
| Рэалізм сутыкненняў | Абʼекты адскокваюць, дэфармуюцца ці ламаюцца правільна | Sora 2, Veo 3.1 |
| Дынаміка вадкасцей | Вада, дым і тканіна сімулююцца рэалістычна | Kling 2.6 |
| Захаванне імпульсу | Рух перадаецца карэктна паміж абʼектамі | Sora 2 |
Мадэлі Kling стабільна пераўзыходзяць у дынаміцы вадкасцей, з асабліва ўражлівай сімуляцыяй вады і фізікі тканіны. Sora 2 ад OpenAI лідзіруе ў рэалізме сутыкненняў і захаванні імпульсу, апрацоўваючы складаныя шматабʼектныя ўзаемадзеянні з уражлівай дакладнасцю.
Для сімуляцыі вады, дыму і тканіны мадэлі Kling зараз прапануюць найрэалістычнейшую фізіку. Для складаных шматцельных сутыкненняў і спартовых сцэнарыяў Sora 2 мацнейшая.
Тэст гімнаста
Адзін з найпатрабавальнейшых фізічных бенчмаркаў уключае алімпійскую гімнастыку. Гімнаст у перакідзе падвяргаецца складанай вярчальнай дынаміцы: захаванне вуглавога моманту, пераменны момант інерцыі пры выцягванні і згінанні канечнасцей, дакладны тайминг прыкладання сілы пры адштурхоўваннях і прызямленнях.
Ранніе відэамадэлі генеравалі ўражлівыя асобныя кадры гімнастаў у паветры, але катастрафічна правальваліся на фізіцы. Вярчэнні выпадкова паскараліся ці запавольваліся. Прызямленні адбываліся ў немагчымых пазіцыях. Цела дэфармавалася спосабамі, якія парушалі анатамічныя абмежаванні.
Sora 2 яўна вылучыла алімпійскую гімнастыку як бенчмарк, які яна цяпер апрацоўвае карэктна. Мадэль адсочвае вуглавы момант гімнаста праз увесь нумар, паскараючы вярчэнне пры групоўцы (эфект вярчэння фігурыста) і запавольваючы пры выпрамленні.
Разуменне матэрыялаў
Сімуляцыя фізікі выходзіць за межы руху да ўласцівасцей матэрыялаў. Адкуль мадэль ведае, што шкло разбіваецца, а гума адскоквае? Што вада разбрызгваецца, а алей расцякаецца? Што метал дэфармуецца пластычна, а дрэва ламаецца?
Адказ у навучальных дадзеных і вывучаных мадэллю апрыёрных ведах. Навучаючыся на мільёнах відэа, якія паказваюць узаемадзеянне матэрыялаў са светам, мадэлі развіваюць няяўнае разуменне матэрыялаў. Шклянка, што падае на бетон, дае іншы вынік, чым шклянка, што падае на дыван, і сучасныя мадэлі ўлоўліваюць гэтую розніцу.
Класіфікацыя матэрыялаў
Мадэлі цяпер няяўна класіфікуюць абʼекты па ўласцівасцях матэрыялаў: крохкія vs пластычныя, пругкія vs пластычныя, сціскальныя vs несціскальныя.
Тыпы вадкасцей
Розныя вязкасці вадкасцей і паверхневыя нацягі апрацоўваюцца карэктна: вада разбрызгваецца, мёд сцякае, дым клубіцца.
Фізіка гарэння
Агонь і выбухі ідуць за рэалістычным распаўсюджваннем цяпла і газавай дынамікай, а не простымі эфектамі часціц.
Абмежаванні і крайнія выпадкі
Нягледзячы на гэтыя дасягненні, сімуляцыя фізікі ў AI-відэа застаецца недасканалай. Некалькі вядомых абмежаванняў захоўваюцца:
Доўгатэрміновая стабільнасць: Фізіка застаецца дакладнай 5-10 секунд, але можа дрэйфаваць на даўжэйшых адрэзках. Пашыраныя відэа могуць паступова парушаць законы захавання.
Складаныя шматцельныя сістэмы: Хоць сутыкненне двух абʼектаў працуе добра, сцэны з дзясяткамі ўзаемадзейнічаючых абʼектаў (як вежа Джэнга, што падае) могуць даваць памылкі.
Незвычайныя матэрыялы: Зрушэнні навучальных дадзеных азначаюць, што звычайныя матэрыялы (вада, шкло, метал) сімулююцца лепш за экзатычныя (неньютанаўскія вадкасці, магнітныя матэрыялы).
Экстрэмальныя ўмовы: Фізіка на вельмі малых маштабах (малекулярных), вельмі вялікіх (астранамічных) ці ў экстрэмальных умовах (каля хуткасці святла) часта дае збоі.
Дакладнасць сімуляцыі фізікі значна зніжаецца для відэа даўжэй за 30 секунд. Для доўгага кантэнту разгледзьце выкарыстанне тэхнік пашырэння відэа з увагай да фізічнай бесперапыннасці на межах.
Наступствы для стваральнікаў
Што палепшаная сімуляцыя фізікі азначае для стваральнікаў відэа?
Па-першае, яна рэзка зніжае патрэбу ў постпрадакшн-праўках. Сцэны, якія раней патрабавалі старанага рэдагавання для выпраўлення фізічных немагчымасцей, цяпер генеруюцца карэктна з першага разу.
Па-другое, яна адкрывае новыя творчыя магчымасці. Дакладная сімуляцыя фізікі азначае, што машыны Руба Голдберга, спартовыя эпізоды і экшн-сцэны можна генераваць без карпатлівай ручной карэкцыі.
Па-трэцяе, яна паляпшае ўспрыманне гледачом. Гледачы падсвядома заўважаюць парушэнні фізікі, і фізічна дакладныя відэа ўспрымаюцца рэальнейшымі, нават калі розніцу складана сфармуляваць.
Шлях наперад
Сімуляцыя фізікі працягне паляпшацца па некалькіх напрамках:
Больш працяглая тэмпаральная ўзгодненасць: Бягучыя мадэлі падтрымліваюць фізіку секунды, будучыя мадэлі падтрымліваюць хвіліны.
Складанейшыя ўзаемадзеянні: Сцэны з сотнямі ўзаемадзейнічаючых абʼектаў стануць здзяйсняльнымі.
Навучаныя фізічныя рухавікі: Замест няяўнай фізікі з навучальных дадзеных будучыя мадэлі могуць уключаць яўную сімуляцыю фізікі як кампанент.
Фізіка ў рэальным часе: Зараз фізічна-свядомая генерацыя павольная, але аптымізацыя можа забяспечыць генерацыю ў рэальным часе з фізічнай дакладнасцю.
Шлях ад баскетбольных мячоў, што тэлепартуюцца, да рэалістычных адскокаў прадстаўляе адно з найзначнейшых дасягненняў у генерацыі AI-відэа. Мадэлі навучыліся, калі не разумець фізіку так, як людзі, то прынамсі паважаць яе абмежаванні. Для стваральнікаў гэта азначае менш выпраўленняў, больш магчымасцей і відэа, якія проста адчуваюцца рэальнейшымі.
Паспрабуйце самі: Bonega.ai выкарыстоўвае Veo 3, які ўключае прасунутую сімуляцыю фізікі для рэалістычнай дынамікі абʼектаў. Генеруйце сцэны са складанай фізікай і паглядзіце, як мадэль спраўляецца з гравітацыяй, сутыкненнямі і ўзаемадзеяннем матэрыялаў.
Гэты артыкул быў карысны?

Alexis
Інжынер ШІІнжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

Мадэлі свету: наступны рубеж у генерацыі відэа з дапамогай ШІ
Чаму пераход ад генерацыі кадраў да сімуляцыі свету змяняе AI-відэа, і што рэліз Runway GWM-1 кажа пра тое, куды рухаецца тэхналогія.

Платформы AI Video Storytelling: як сэрыялізаваны кантэнт мяняе ўсё ў 2026
Ад асобных кліпаў да палнах серый, AI video эвалюцыёнуе ад інструменту генэрацыі ў мотар разказвання гісторый. Пазнаёміцца з платформамі, якія гэта ўцяляюць.

Сусветныя модэлі па-за відэа: чому гульні і робатэхніка - гэта сапраўдны полігон для AGI
Ад DeepMind Genie да AMI Labs, сусветныя модэлі становяцца асновай для ШІ, які сапраўды разумеюць фізіку. Рынак відэаігр вартасцю 500 млрд долараў можа стаць месцем іх першага даказаньня.