Мадэлі свету: наступны рубеж у генерацыі відэа з дапамогай ШІ

Гадамі генерацыя відэа з дапамогай ШІ азначала прадказанне пікселяў кадр за кадрам. Цяпер індустрыя павяртаецца да чагосьці значна больш амбіцыйнага: да сімуляцыі цэлых светаў. Рэліз Runway GWM-1 азначае пачатак гэтага зруху, і наступствы сур'ёзныя.

Ад кадраў да светаў

Традыцыйныя мадэлі генерацыі відэа працуюць як дасведчаныя мультыплікатары. Яны прадказваюць, як павінен выглядаць наступны кадр на аснове папярэдніх, кіруючыся тэкставым запытам. Гэта працуе, але мае фундаментальныя абмежаванні.

💡

Прадказальнік кадраў ведае, як агонь выглядае. Мадэль свету ведае, што агонь робіць: ён распаўсюджваецца, паглынае паліво, кідае танцуючыя ценіі і выпускае жар, які скрыўляе паветра над сабой.

Мадэлі свету выкарыстоўваюць іншы падыход. Замест пытання "як павінен выглядаць наступны кадр?" яны задаюць пытанне "як паводзіць сябе гэта асяроддзе?" Адрозненне гучыць тонка, але змяняе ўсё.

Калі вы кажаце прадказальніку кадраў згенераваць мяч, які коціцца з гары, ён прыблізна паказвае, як гэта можа выглядаць на аснове навучальных даных. Калі вы кажаце тое ж самае мадэлі свету, яна сімулюе фізіку: гравітацыя паскарае мяч, трэнне аб траву запавольвае яго, інерцыя нясе яго ўгару па супрацьлеглым схілу.

Што на самой справе робіць Runway GWM-1

Runway выпусцілі GWM-1 (General World Model 1) у снежні 2025 года, і гэта іх першы публічны крок у сімуляцыю свету. Мадэль стварае тое, што яны называюць "дынамічнымі сімуляцыйнымі асяроддзямі" — сістэмамі, якія разумеюць не проста як рэчы выглядаюць, а як яны эвалюцыянуюць у часе.

1,247

Elo рэйтынг (Gen-4.5)

Месца ў Video Arena

100

Памер каманды Runway

Час мае значэнне. Гэты рэліз выйшаў разам з тым, як Gen-4.5 заняў #1 у Video Arena, зрушыўшы OpenAI Sora 2 на 4-е месца. Гэтыя дасягненні звязаны. Паляпшэнні Gen-4.5 у фізічнай дакладнасці, дзе аб'екты рухаюцца з рэалістычнай вагой, інерцыяй і сілай, верагодна, паходзяць з даследаванняў мадэляў свету, якія паўплывалі на архітэктуру.

🌍

Прадказанне кадраў супраць сімуляцыі свету

Прадказанне кадраў: "Мяч на траве" → супастаўленне з патэрнамі з навучальных даных. Сімуляцыя свету: "Мяч на траве" → фізічны рухавік вызначае траекторыю, трэнне, адскок.

Чаму гэта змяняе ўсё

1. Фізіка, якая сапраўды працуе

Сучасныя відэамадэлі змагаюцца з фізікай, таму што яны толькі бачылі фізіку, але ніколі не выпрабоўвалі яе. Яны ведаюць, що ўпалы аб'ект падае, але прыблізна вылічваюць траекторыю, а не разлічваюць яе. Мадэлі свету перавяртваюць гэтае суадносіны.

✗Прадказанне кадраў

Прыблізна вылічвае фізіку з візуальных патэрнаў. Біліярдны шар можа пракаціцца праз іншы шар, бо мадэль не вывучыла сутыкненне цвёрдых цел.

✓Сімуляцыя свету

Сімулюе правілы фізікі. Вызначэнне сутыкнення, перадача імпульсу і трэнне разлічваюцца, а не ўгадваюцца.

Вось чаму фізічныя сімуляцыі Sora 2 уразілі людзей: OpenAI сур'ёзна інвеставалі ў разуменне фізікі. Мадэлі свету фармалізуюць гэты падыход.

2. Часавая ўзгодненасць без трукаў

Самая балючая кропка ў AI-відэа — узгодненасць у часе. Персанажы змяняюць знешнасць, аб'екты тэлепартуюцца, асяроддзі выпадкова змяняюцца. Мы вывучалі як мадэлі вучацца запамінаць твары праз архітэктурныя інавацыі накшталт увагі паміж кадрамі.

Мадэлі свету прапаноўваюць больш элегантнае рашэнне: калі сімуляцыя адсочвае сутнасці як пастаянныя аб'екты ў віртуальнай прасторы, яны не могуць выпадкова змяніцца або знікнуць. Мяч існуе ў сімуляваным свеце. У яго ёсць уласцівасці (памер, колер, пазіцыя, хуткасць), якія захоўваюцца, пакуль што-небудзь у сімуляцыі іх не зменіць.

3. Больш доўгія відэа становяцца магчымымі

Сучасныя мадэлі дэградуюць з часам. Двунакіраваная дыфузія CraftStory прасоўваецца да 5-хвілінных відэа, дазваляючы позніх кадрам уплываць на ранія. Мадэлі свету падыходзяць да той жа праблемы інакш: калі сімуляцыя стабільная, вы можаце запускаць яе колькі заўгодна.

2024

Секунды

Стандартнае AI-відэа: 4-8 секунд да дэградацыі якасці

Пачатак 2025

Хвіліны

Спецыялізаваныя тэхнікі дазваляюць відэа 1-5 хвілін

Канец 2025

Без абмежаванняў?

Мадэлі свету адвязваюць працягласць ад архітэктуры

Падступ (ён заўсёды ёсць)

Мадэлі свету гучаць як рашэнне ўсіх праблем генерацыі відэа. Але не, прынамсі пакуль не.

⚠️

Праверка рэальнасцю: Бягучыя мадэлі свету сімулююць стылізаваную фізіку, а не дакладную. Яны разумеюць, што ўпалыя рэчы падаюць, але не дакладныя ўраўненні руху.

Вылічальная кошт

Сімуляваць свет дорага. Прадказанне кадраў можа працаваць на спажывецкіх GPU дзякуючы працы праектаў накшталт LTX-2. Сімуляцыя свету патрабуе падтрымання стану, адсочвання аб'ектаў, разлікаў фізікі. Гэта значна павышае патрабаванні да жалеза.

Вывучыць правілы свету складана

Навучыць мадэль таму, як рэчы выглядаюць, проста: паказаць мільёны прыкладаў. Навучыць мадэль таму, як свет працуе, больш туманна. Фізіку можна вывучыць з відэаданых, але толькі да пэўнай ступені. Мадэль бачыць, што ўпалыя аб'екты падаюць, але не можа вывесці гравітацыйныя канстанты з прагляду кадраў.

Гібрыднае будучае: Большасць даследчыкаў чакаюць, што мадэлі свету аб'яднаюць вывучаныя фізічныя набліжэнні з яўнымі правіламі сімуляцыі, атрымліваючы лепшае ад абодвух падыходаў.

Пытанні творчага кантролю

Калі мадэль сімулюе фізіку, хто вырашае якую фізіку? Часам вы хочаце рэалістычную гравітацыю. Часам вы хочаце, каб персанажы лятзелі. Мадэлям свету патрэбныя механізмы для перавызначэння сімуляцый, калі стваральнікі хочуць нерэалістычных вынікаў.

Куды рухаецца індустрыя

Runway не адзінокія ў гэтым кірунку. Архітэктурныя артыкулы за дыфузійнымі трансфармерамі намякалі на гэты зрух месяцамі. Пытанне заўсёды было калі, а не ці.

Ужо адбываецца

Runway GWM-1 выпушчаны
Gen-4.5 паказвае генерацыю на аснове фізікі
Даследчыя артыкулы множацца
Праграмы ранняга доступу для кампаній

Неўзабаве

Адкрытыя рэалізацыі мадэляў свету
Гібрыдныя кадравыя/светавыя архітэктуры
Спецыялізаваныя мадэлі свету (фізіка, біялогія, надвор'е)
Сімуляцыя свету ў рэальным часе

Карпаратыўны інтарэс паказальны. Runway далі ранні доступ Ubisoft, Disney інвеставалі мільярд долараў з OpenAI для інтэграцыі Sora. Гэта не кампаніі, зацікаўленыя ў генерацыі хуткіх кліпаў для соцсетак. Ім патрэбен ШІ, здольны сімуляваць гульнявыя асяроддзі, генераваць узгодненых анімаваных персанажаў, вырабляць кантэнт, які вытрымлівае прафесійную праверку.

Што гэта азначае для стваральнікаў

✓Узгодненасць відэа драматычна паляпшыцца
✓Кантэнт з фізікай стане жыццяздольным
✓Больш доўгая генерацыя без дэградацыі якасці
○Кошт спачатку будзе вышэй за прадказанне кадраў
○Механізмы творчага кантролю ўсё яшчэ развіваюцца

Калі вы вырабляеце AI-відэа сёння, мадэлі свету — не тое, што вам трэба ўкараняць неадкладна. Але за гэтым варта сачыць. Параўнанне паміж Sora 2, Runway і Veo 3, якое мы апублікавалі раней у гэтым годзе, будзе патрабаваць абнаўлення па меры выкачвання магчымасцей мадэляў свету на гэтых платформах.

Для практычнага выкарыстання прама зараз адрозненні важныя для канкрэтных выпадкаў:

Візуалізацыя прадукту: Мадэлі свету будуць пераважаць тут. Дакладная фізіка для аб'ектаў, якія ўзаемадзейнічаюць адзін з адным.
Абстрактнае мастацтва: Прадказанне кадраў можа быць лепшым. Вы хочаце нечаканых візуальных вынікаў, а не сімуляванай рэальнасці.
Анімацыя персанажаў: Мадэлі свету плюс тэхнікі захавання ідэнтычнасці маглі б нарэшце вырашыць праблему узгодненасці.

Агульная карціна

Мадэлі свету прадстаўляюць дарослішанне AI-відэа. Прадказанне кадраў было дастаткова для генерацыі кароткіх кліпаў, візуальных навінак, дэманстрацый канцэпцый. Сімуляцыя свету — гэта тое, што трэба для сапраўднай вытворчай працы, дзе кантэнт павінен быць узгодненым, фізічна праўдападобным і пашыральным.

💡

Захоўвайце перспектыву: Мы на стадыі GWM-1, эквівалент GPT-1 для сімуляцыі свету. Разрыў паміж гэтым і GWM-4 будзе велізарным, як разрыў паміж GPT-1 і GPT-4 трансфармаваў моўны ШІ.

Тое, што Runway абышлі Google і OpenAI у бенчмарках са 100-асобнай камандай, кажа нам нешта важнае: правільны архітэктурны падыход важнейшы за рэсурсы. Мадэлі свету могуць быць гэтым падыходам. Калі стаўка Runway акупіцца, яны вызначаць наступнае пакаленне відэа-ШІ.

А калі фізічныя сімуляцыі стануць дастаткова добрымі? Мы больш не проста генеруем відэа. Мы будуем віртуальныя светы, адну сімуляцыю за раз.

💡

Звязанае чытанне: Падрабязней пра тэхнічныя асновы, што робяць магчымым гэты зрух, глядзіце наш глыбокі разбор дыфузійных трансфармераў. Для бягучых параўнанняў інструментаў, праверце Sora 2 супраць Runway супраць Veo 3.