Meta Pixel
HenryHenry
7 min read
1394 зборови

Модели на светот: следната граница во генерирањето на видео со вештачка интелигенција

Зошто преодот од генерирање на кадри кон симулација на светот го менува AI видеото, и што изданието на Runway GWM-1 зборува за тоа каде оди технологијата.

Модели на светот: следната граница во генерирањето на видео со вештачка интелигенција

Години наред генерирањето на видео со вештачка интелигенција значеше предвидување на пиксели кадар по кадар. Сега индустријата се свртува кон нешто многу поамбициозно: симулирање на цели светови. Изданието на Runway GWM-1 го означува почетокот на оваа промена, а импликациите се сериозни.

От кадри кон светови

Традиционалните модели за генерирање на видео работат како искусни уметници на флипбук. Тие предвидуваат како треба да изгледа следниот кадар врз основа на претходните, водени од текстуалната побарување. Функционира, но има фундаментални ограничувања.

💡

Предвидувачот на кадри знае како огнот изгледа. Моделот на светот знае што огнот прави: се шири, го голта гориво, фрла танцувачки сенки и емитува топлина што го искривува воздухот над него.

Моделите на светот користат различен пристап. Наместо да прашуваат "како треба да изгледа следниот кадар?", тие прашуваат "како се однесува оваа средина?" Разликата звучи суптилно, но го менува сè.

Кога ќе му кажете на предвидувачот на кадри да генерира топка што се тркала низ рид, тој приближно прикажува како би тоа можело да изгледа врз основа на податоците за обука. Кога ќе му кажете истото на моделот на светот, тој симулира физика: гравитацијата ја забрзува топката, триењето со тревата ја забавува, инерцијата ја носи нагоре по спротивната падина.

Што Runway GWM-1 всушност прави

Runway го издаде GWM-1 (General World Model 1) во декември 2025, и тоа е нивниот прв јавен чекор во симулацијата на светот. Моделот создава тоа што тие го нарекуваат "динамични симулациони средини" — системи што разбираат не само како нештата изгледаат, туку како еволуираат низ времето.

1,247
Elo оценка (Gen-4.5)
#1
Позиција на Video Arena
100
Големина на тимот Runway

Времето е важно. Ова издание дојде заедно со тоа што Gen-4.5 зазеде #1 на Video Arena, турајќи го OpenAI Sora 2 на 4-то место. Овие достигнувања не се неповрзани. Подобрувањата на Gen-4.5 во физичката точност, каде што објектите се движат со реалистична тежина, инерција и сила, веројатно потекнуваат од истражувањата на моделите на светот што влијаат на архитектурата.

🌍

Предвидување на кадри наспроти симулација на светот

Предвидување на кадри: "Топка на трева" → совпаѓање на обрасци од податоците за обука. Симулација на светот: "Топка на трева" → физичкиот мотор ја одредува траекторијата, триењето, одбивањето.

Зошто ова го менува сè

1. Физика што навистина функционира

Сегашните видео модели се борат со физиката бидејќи тие само ја виделе физиката, никогаш не ја искусиле. Тие знаат дека испуштениот објект паѓа, но ја апроксимираат траекторијата наместо да ја пресметаат. Моделите на светот го преврнуваат тој однос.

Предвидување на кадри

Апроксимира физика од визуелни обрасци. Билијардска топка може да се тркала низ друга топка бидејќи моделот никогаш не научи судир на цврсти тела.

Симулација на светот

Симулира правила на физиката. Детекцијата на судир, преносот на инерција и триењето се пресметуваат, не се погодуваат.

Затоа физичките симулации на Sora 2 импресионираа луѓе: OpenAI сериозно инвестираше во разбирањето на физиката. Моделите на светот го формализираат тој пристап.

2. Временска кохеренција без трикови

Најболната точка во AI видеото беше конзистентноста низ времето. Ликовите ја менуваат појавата, објектите се телепортираат, средините се менуваат случајно. Истражувавме како моделите учат да ги запомнуваат лицата преку архитектонски иновации како вниманието помеѓу кадри.

Моделите на светот нудат поелегантно решение: ако симулацијата ги следи ентитетите како постојани објекти во виртуален простор, тие не можат случајно да се променат или исчезнат. Топката постои во симулираниот свет. Има својства (големина, боја, позиција, брзина) што траат додека нешто во симулацијата не ги промени.

3. Подолги видеа стануваат можни

Сегашните модели деградираат со времето. Двонасочната дифузија на CraftStory се насочува кон 5-минутни видеа дозволувајќи им на подоцнежните кадри да влијаат на поранешните. Моделите на светот пристапуваат кон истиот проблем различно: ако симулацијата е стабилна, можете да ја стартувате колку што сакате.

2024

Секунди

Стандардно AI видео: 4-8 секунди пред пад на квалитетот

Почеток на 2025

Минути

Специјализирани техники овозможуваат 1-5 минутни видеа

Крај на 2025

Неограничено?

Моделите на светот го одделуваат траењето од архитектурата

Заковката (секогаш има заковка)

Моделите на светот звучат како решение на секој проблем со генерирањето на видео. Не се, барем засега не се.

⚠️

Проверка на реалноста: Сегашните модели на светот симулираат стилизирана физика, не прецизна. Тие разбираат дека испуштените работи паѓаат, но не и прецизни равенки на движењето.

Пресметковни трошоци

Симулирањето на свет е скапо. Предвидувањето на кадри може да работи на потрошувачки GPU-а благодарение на работата на проекти како LTX-2. Симулацијата на светот бара одржување на состојбата, следење на објекти, физички пресметки. Тоа значително ги зголемува хардверските барања.

Учењето на правилата на светот е тешко

Да се научи модел како нештата изгледаат е едноставно: се покажуваат милиони примери. Да се научи модел како светот функционира е помаглено. Физиката може да се научи од видео податоци, но само до одредена мера. Моделот гледа дека испуштените објекти паѓаат, но не може да изведе гравитациони константи од гледањето на снимки.

Хибридна иднина: Повеќето истражувачи очекуваат дека моделите на светот ќе ги комбинираат научените физички апроксимации со експлицитни правила на симулација, добивајќи го најдоброто од двата пристапи.

Прашања за креативна контрола

Ако моделот симулира физика, кој одлучува каква физика? Понекогаш сакате реалистична гравитација. Понекогаш сакате вашите ликови да левитираат. Моделите на светот се потребни механизми за надгласување на нивните симулации кога креаторите сакаат нереалистични исходи.

Каде оди индустријата

Runway не е сам во оваа насока. Архитектонските трудови зад дифузиските трансформатори наговестуваа за оваа промена месеци наназад. Прашањето секогаш беше кога, не дали.

Веќе се случува

  • Runway GWM-1 издаден
  • Gen-4.5 покажува генерирање врз основа на физика
  • Истражувачките трудови се множат
  • Програми за ран пристап за компании

Наскоро

  • Отворени имплементации на модели на светот
  • Хибридни кадар/свет архитектури
  • Специјализирани модели на светот (физика, биologija, време)
  • Симулација на светот во реално време

Корпоративниот интерес е зборовен. Runway даде ран пристап на Ubisoft, Disney инвестираше милијарда долари со OpenAI за интеграција на Sora. Ова не се компании заинтересирани за генерирање на брзи клипови за социјалните мрежи. Тие сакаат вештачка интелигенција што може да симулира игрални средини, генерира конзистентни анимирани ликови, произведува содржина што издржува професионална проверка.

Што тоа значи за креаторите

  • Конзистентноста на видеото драматично ќе се подобри
  • Содржината со физика станува изводлива
  • Подолго генерирање без пад на квалитетот
  • Трошоците initially ќе бидат повисоки од предвидувањето на кадри
  • Механизмите за креативна контрола се́ уште еволуираат

Ако денес произведувате AI видео, моделите на светот не се нешто што морате веднаш да го усвоите. Но се нешто што вреди да се следи. Споредбата меѓу Sora 2, Runway и Veo 3 што ја објавивме порано годинава ќе треба ажурирање како што способностите на моделите на светот се воведуваат на тие платформи.

За практична употреба токму сега, разликите се важни за специфични случаи:

  • Визуелизација на производ: Моделите на светот ќе бидат одлични тука. Прецизна физика за објекти што интерагираат меѓу себе.
  • Апстрактна уметност: Предвидувањето на кадри може всушност да биде поповолно. Сакате неочекувани визуелни излези, не симулирана реалност.
  • Анимација на ликови: Моделите на светот плус техники за зачувување на идентитетот конечно би можеле да го решат проблемот со конзистентноста.

Поширока слика

Моделите на светот го претставуваат зреењето на AI видеото. Предвидувањето на кадри беше доволно за генерирање на кратки клипови, визуелни новости, демонстрации на концепти. Симулацијата на светот е тоа што ви треба за вистинска продукциска работа, каде што содржината мора да биде конзистентна, физички веродостојна и проширлива.

💡

Задржете ја перспективата: Сме на фазата GWM-1, еквивалентот на GPT-1 за симулација на светот. Јазот меѓу ова и GWM-4 ќе биде огромен, исто како што јазот меѓу GPT-1 и GPT-4 ја трансформираше јазичната вештачка интелигенција.

Тоа што Runway ги победи Google и OpenAI на мерења со 100-членски тим ни зборува нешто важно: вистинскиот архитектонски пристап е поважен од ресурсите. Моделите на светот би можеле да бидат тој пристап. Ако обложувањето на Runway се исплати, тие ќе ја дефинираат следната генерација на видео вештачка интелигенција.

А ако физичките симулации станат доволно добри? Ние не само генерираме видео. Градиме виртуелни светови, една симулација одеднаш.

💡

Поврзано читање: За повеќе за техничките основи што овозможуваат оваа промена, погледнете го нашиот длабок приказ на дифузиските трансформатори. За тековни споредби на алатки, проверете Sora 2 наспроти Runway наспроти Veo 3.

Дали оваа статија беше корисна?

Henry

Henry

Креативен технолог

Креативен технолог од Лозана кој истражува каде вештачката интелигенција се среќава со уметноста. Експериментира со генеративни модели помеѓу сесиите на електронска музика.

Поврзани статии

Продолжете со истражување со овие поврзани објави

Ви се допадна оваа статија?

Дознајте повеќе и бидете во тек со нашата најнова содржина.

Модели на светот: следната граница во генерирањето на видео со вештачка интелигенција