Meta Pixel
HenryHenry
7 min read
1364 думи

Модели на света: следващата граница в генерирането на видео с изкуствен интелект

Защо преходът от генериране на кадри към симулация на света променя AI видеото, и какво излизането на Runway GWM-1 ни казва за посоката на технологията.

Модели на света: следващата граница в генерирането на видео с изкуствен интелект

Години наред генерирането на видео с изкуствен интелект означаваше прогнозиране на пиксели кадър по кадър. Сега индустрията се обръща към нещо много по-амбициозно: симулиране на цели светове. Пускането на Runway GWM-1 отбелязва началото на този обрат, и последиците са сериозни.

От кадри към светове

Традиционните модели за генериране на видео работят като изтънчени художници на флипбук. Те прогнозират как трябва да изглежда следващият кадър въз основа на предишните, ръководейки се от текстовата подкана. Работи, но има фундаментални ограничения.

💡

Прогнозаторът на кадри знае как огънят изглежда. Моделът на света знае какво огънят прави: разпространява се, поглъща гориво, хвърля танцуващи сенки и излъчва топлина, която изкривява въздуха над него.

Моделите на света използват различен подход. Вместо да питат "как трябва да изглежда следващият кадър?", те питат "как се държи тази среда?" Разликата звучи фино, но променя всичко.

Когато кажете на прогнозатора на кадри да генерира топка, която се търкаля надолу по хълм, той приблизително показва как това може да изглежда въз основа на обучителните данни. Когато кажете същото на модела на света, той симулира физиката: гравитацията ускорява топката, триенето с тревата я забавя, инерцията я понася нагоре по противоположния склон.

Какво всъщност прави Runway GWM-1

Runway пуснаха GWM-1 (General World Model 1) през декември 2025 година, и това е тяхната първа публична стъпка в симулацията на света. Моделът създава това, което те наричат "динамични симулационни среди" — системи, които разбират не само как изглеждат нещата, но как се развиват във времето.

1,247
Elo рейтинг (Gen-4.5)
#1
Класиране във Video Arena
100
Размер на екипа на Runway

Времето има значение. Това издание излезе заедно с това, че Gen-4.5 зае #1 във Video Arena, изтласквайки OpenAI Sora 2 на 4-то място. Тези постижения не са несвързани. Подобренията на Gen-4.5 във физическата точност, където обектите се движат с реалистично тегло, инерция и сила, вероятно произтичат от изследвания на модели на света, влияещи на архитектурата.

🌍

Прогнозиране на кадри срещу симулация на света

Прогнозиране на кадри: "Топка на трева" → съпоставяне на образци от обучителни данни. Симулация на света: "Топка на трева" → физическият двигател определя траектория, триене, отскок.

Защо това променя всичко

1. Физика, която наистина работи

Съвременните видео модели се борят с физиката, защото са виждали само физика, никога не са я преживявали. Те знаят, че пуснатият обект пада, но приблизяват траекторията вместо да я изчисляват. Моделите на света обръщат това отношение.

Прогнозиране на кадри

Приблизява физиката от визуални образци. Билярдна топка може да се претъркали през друга топка, защото моделът никога не е научил сблъсък на твърди тела.

Симулация на света

Симулира правилата на физиката. Откриването на сблъсъци, прехвърлянето на импулс и триенето се изчисляват, не се отгатват.

Ето защо физическите симулации на Sora 2 впечатлиха хората: OpenAI инвестираха сериозно в разбирането на физиката. Моделите на света формализират този подход.

2. Времева кохерентност без трикове

Най-болезненото място в AI видеото е последователността във времето. Героите променят външност, обектите телепортират, средите се променят случайно. Изследвахме как моделите се учат да запомнят лица чрез архитектурни иновации като внимание между кадри.

Моделите на света предлагат по-елегантно решение: ако симулацията проследява обекти като постоянни предмети във виртуално пространство, те не могат случайно да се променят или изчезнат. Топката съществува в симулирания свят. Тя има свойства (размер, цвят, позиция, скорост), които се запазват, докато нещо в симулацията не ги промени.

3. По-дълги видеа стават възможни

Съвременните модели деградират с времето. Двупосочната дифузия на CraftStory се насочва към 5-минутни видеа, позволявайки на по-късните кадри да влияят на по-ранните. Моделите на света подхождат към същия проблем по различен начин: ако симулацията е стабилна, можете да я стартирате колкото искате.

2024

Секунди

Стандартно AI видео: 4-8 секунди преди деградация на качеството

Начало на 2025

Минути

Специализирани техники позволяват 1-5 минутни видеа

Край на 2025

Без ограничения?

Моделите на света отделят продължителността от архитектурата

Уловката (винаги има уловка)

Моделите на света звучат като решение на всеки проблем с генерирането на видео. Не са, поне засега не.

⚠️

Проверка на реалността: Настоящите модели на света симулират стилизирана физика, не точна. Те разбират, че пуснатите неща падат, но не точните уравнения на движението.

Изчислителна цена

Симулирането на свят е скъпо. Прогнозирането на кадри може да работи на потребителски GPU благодарение на работата на проекти като LTX-2. Симулацията на света изисква поддържане на състояние, проследяване на обекти, физически изчисления. Това значително повишава хардуерните изисквания.

Ученето на правилата на света е трудно

Да научиш модел как нещата изглеждат е просто: показваш милиони примери. Да научиш модел как светът работи е по-мътно. Физиката може да се научи от видео данни, но само до известна степен. Моделът вижда, че пуснатите обекти падат, но не може да изведе гравитационни константи от гледане на кадри.

Хибридно бъдеще: Повечето изследователи очакват моделите на света да комбинират научени физически приближения с изрични правила на симулация, получавайки най-доброто от двата подхода.

Въпроси за творчески контрол

Ако моделът симулира физика, кой решава каква физика? Понякога искате реалистична гравитация. Понякога искате героите ви да левитират. Моделите на света се нуждаят от механизми за замяна на симулациите им, когато създателите искат нереалистични резултати.

Накъде се насочва индустрията

Runway не е сам в тази посока. Архитектурните статии зад дифузионните трансформатори намекваха за този обрат от месеци. Въпросът винаги е бил кога, не дали.

Вече се случва

  • Runway GWM-1 пуснат
  • Gen-4.5 показва генериране базирано на физика
  • Изследователските статии се множат
  • Програми за ранен достъп за фирми

Скоро

  • Отворени имплементации на модели на света
  • Хибридни кадър/свят архитектури
  • Специализирани модели на света (физика, биология, време)
  • Симулация на света в реално време

Корпоративният интерес е показателен. Runway дадоха ранен достъп на Ubisoft, Disney инвестираха милиард долара с OpenAI за интеграция на Sora. Това не са компании, заинтересовани от генериране на бързи клипчета за социални мрежи. Те искат изкуствен интелект, който може да симулира игрови среди, да генерира последователни анимирани герои, да произвежда съдържание, издържащо на професионална проверка.

Какво означава това за създателите

  • Последователността на видеото ще се подобри драматично
  • Съдържанието с физика става жизнеспособно
  • По-дълго генериране без деградация на качеството
  • Разходите първоначално ще бъдат по-високи от прогнозирането на кадри
  • Механизмите за творчески контрол все още се развиват

Ако произвеждате AI видео днес, моделите на света не са нещо, което трябва да приемете веднага. Но са нещо, което си струва да наблюдавате. Сравнението между Sora 2, Runway и Veo 3, което публикувахме по-рано тази година, ще се нуждае от актуализация, докато възможностите на моделите на света се въвеждат на тези платформи.

За практическо използване точно сега разликите имат значение за конкретни случаи:

  • Визуализация на продукт: Моделите на света ще се справят отлично тук. Точна физика за обекти, взаимодействащи помежду си.
  • Абстрактно изкуство: Прогнозирането на кадри може да е за предпочитане. Искате неочаквани визуални резултати, не симулирана реалност.
  • Анимация на герои: Моделите на света плюс техники за запазване на идентичност могат най-накрая да решат проблема с последователността.

По-голямата картина

Моделите на света представляват узряването на AI видеото. Прогнозирането на кадри беше достатъчно за генериране на кратки клипове, визуални новости, демонстрации на концепции. Симулацията на света е това, от което се нуждаете за истинска производствена работа, където съдържанието трябва да е последователно, физически правдоподобно и разширяемо.

💡

Запазете перспектива: Ние сме на етапа GWM-1, еквивалентът на GPT-1 за симулация на света. Разликата между това и GWM-4 ще бъде огромна, както разликата между GPT-1 и GPT-4 трансформира езиковия изкуствен интелект.

Това, че Runway победиха Google и OpenAI в бенчмарки със 100-човешки екип, ни казва нещо важно: правилният архитектурен подход има по-голямо значение от ресурсите. Моделите на света може да са този подход. Ако залогът на Runway се изплати, те ще определят следващото поколение видео изкуствен интелект.

А ако физическите симулации станат достатъчно добри? Ние не просто генерираме видео. Ние строим виртуални светове, една симулация наведнъж.

💡

Свързано четиво: За повече за техническите основи, позволяващи този обрат, вижте нашия задълбочен анализ на дифузионните трансформатори. За настоящи сравнения на инструменти, проверете Sora 2 срещу Runway срещу Veo 3.

Беше ли полезна тази статия?

Henry

Henry

Творчески технолог

Творчески технолог от Лозана, който изследва къде изкуственият интелект среща изкуството. Експериментира с генеративни модели между сесии по електронна музика.

Свързани статии

Продължете да изследвате със свързаните публикации

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

Модели на света: следващата граница в генерирането на видео с изкуствен интелект