Meta Pixel
AlexisAlexis
8 min read
1506 зборови

Симулација на физика во AI видео: Како моделите конечно научија да ја почитуваат реалноста

Од телепортирачки кошаркарски топки до реалистични отскоци, AI видео моделите сега разбираат гравитација, моментум и динамика на материјали. Истражуваме технички пробиви што го овозможуваат ова.

Симулација на физика во AI видео: Како моделите конечно научија да ја почитуваат реалноста

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Со години, AI генерираните видеа имаа проблем со физиката. Кошаркарските топки ќе го промашеа кошот и ќе се телепортираа во него. Водата ќе течеше нагоре. Објектите ќе поминуваа едни низ други како духови. Во 2025 и почетокот на 2026, нешто се промени. Најновата генерација на видео модели научи да ги почитува фундаменталните закони на физичкиот свет.

Проблемот со кошаркарската топка

OpenAI го опиша ова совршено при лансирањето на Sora 2: во поранешните модели, ако кошаркарската топка го промаши кошот, едноставно ќе се материјализираше внатре во мрежата. Моделот го знаеше наративниот исход (топката влегува во кошот) но немаше концепт за физичките ограничувања што треба да го водат патувањето.

Ова не беше мала грешка. Беше симптом на фундаментално архитектурно ограничување. Раните модели за генерирање видео беа одлични во визуелно препознавање на обрасци, учејќи да генерираат кадри што изгледаат индивидуално веродостојни додека остануваат физички некохерентни кога се гледаат во секвенца.

💡

OpenAI експлицитно ги наведе ограничувањата за "морфирање објект" како клучен проблем што Sora 2 беше дизајнирана да го реши. Оваа архитектурна празнина ги фрустрираше и истражувачите и креаторите подеднакво.

Три столба на физичко разбирање

Пробивот во симулацијата на физика се потпира на три меѓусебно поврзани напредоци: моделирање на светот, синџирно размислување и подобрени механизми за темпорална внимателност.

Модели на светот наспроти предвидување на кадри

Традиционалното генерирање видео ја третираше задачата како секвенцијално предвидување на кадри: дадени кадри од 1 до N, предвиди кадар N+1. Овој пристап инхерентно се бори со физиката бидејќи нема експлицитна репрезентација на основната физичка состојба.

Моделите на светот заземаат фундаментално различен пристап. Наместо директно предвидување пиксели, тие прво конструираат интерна репрезентација на физичката состојба на сцената, вклучувајќи позиции на објекти, брзини, материјали и интеракции. Дури потоа ја рендерираат оваа состојба во визуелни кадри. Овој пристап, длабоко истражен во нашата анализа на модели на светот, претставува парадигматска промена во начинот на кој размислуваме за генерирање видео.

Предвидување на кадри

Предвидува пиксели од пиксели. Без експлицитна физика. Склоно кон телепортација, грешки на поминување низ објекти и прекршување на гравитација. Брзо но физички некохерентно.

Модели на светот

Прво симулира физичка состојба. Експлицитно следење на објекти. Ги почитува законите за зачувување и динамиката на судири. Пресметковно потешко но физички втемелено.

Синџир на мисли за видео

Kling O1, објавен кон крајот на 2025, воведе синџирно размислување во генерирањето видео. Пред генерирање кадри, моделот експлицитно размислува за тоа што физички треба да се случи во сцената.

За сцена на чаша што паѓа од маса, моделот прво размислува:

  • Чашата има почетна брзина нула, позиција на работ на масата
  • Гравитацијата ја забрзува чашата надолу со 9.8 m/s²
  • Чашата го допира подот по приближно 0.45 секунди
  • Материјалот на чашата е кршлив, подот е тврда површина
  • Ударот го надминува прагот на кршење, чашата се крши
  • Парчињата се распрснуваат со зачувување на моментумот

Овој експлицитен чекор на размислување се случува во латентниот простор на моделот пред да се генерира било кој пиксел. Резултатот е видео што ја почитува не само визуелната естетика туку и причинско-последичните синџири.

Темпорална внимателност во голем обем

Архитектурната основа што ги овозможува овие напредоци е темпоралната внимателност, механизмот со кој видео моделите одржуваат конзистентност низ кадрите. Архитектурата на дифузионен трансформер што ги погонува модерните видео модели го обработува видеото како просторно-временски закрпи, овозможувајќи внимателноста да тече и просторно внатре во кадрите и темпорално низ нив.

Модерните видео модели обработуваат милиони просторно-временски закрпи по видео, со специјализирани глави на внимателност посветени на физичка конзистентност. Овој обем им овозможува на моделите да го следат идентитетот на објектот и физичката состојба низ стотици кадри, одржувајќи кохеренција што беше невозможна со поранешните архитектури.

Бенчмаркови на физика од реалниот свет

Како всушност го мериме квалитетот на симулацијата на физика? Полето разви неколку стандардизирани тестови:

БенчмаркТестираЛидери
Постојаност на објектиОбјектите постојат кога се заклонетиSora 2, Veo 3
Конзистентност на гравитацијаЗабрзувањето при слободен пад е униформноKling O1, Runway Gen-4.5
Реализам на судириОбјектите се одбиваат, деформираат или кршат соодветноSora 2, Veo 3.1
Динамика на флуидиВодата, чадот и ткаенината се симулираат реалистичноKling 2.6
Зачувување на моментумДвижењето се пренесува правилно меѓу објектитеSora 2

Kling моделите конзистентно се истакнуваа во динамиката на флуиди, со особено импресивна симулација на вода и физика на ткаенина. OpenAI-евиот Sora 2 води во реализмот на судири и зачувувањето на моментум, справувајќи се со сложени интеракции на повеќе објекти со импресивна точност.

💡

За симулација на вода, чад и ткаенина, Kling моделите моментално нудат најреалистична физика. За сложени судири на повеќе тела и спортски сценарија, Sora 2 е посилен избор.

Тестот на гимнастичар

Еден од најзахтевните физички бенчмаркови вклучува олимписка гимнастика. Гимнастичар што се превртува минува низ сложена ротациона динамика: зачувување на аголен моментум, променлив момент на инерција додека екстремитетите се протегаат и собираат, и прецизно временско одредување на примена на сила за одскоци и доскоци.

Раните видео модели би генерирале импресивни индивидуални кадри на гимнастичари во воздух но би катастрофално пропаднале на физиката. Ротациите би се забрзувале или забавувале случајно. Доскоците би се случувале на невозможни позиции. Телото би се деформирало на начини што ги прекршуваат анатомските ограничувања.

Sora 2 експлицитно ја истакна олимписката гимнастика како бенчмарк што сега го справува правилно. Моделот го следи аголниот моментум на гимнастичарот низ целата рутина, забрзувајќи ја ротацијата кога екстремитетите се собираат (ефект на вртење лизгач) и забавувајќи кога се протегаат.

Разбирање на материјали

Симулацијата на физика се протега надвор од движењето до својствата на материјалите. Како моделот знае дека стаклото се крши додека гумата се одбива? Дека водата прска додека маслото се собира? Дека металот се деформира пластично додека дрвото пука?

Одговорот лежи во податоците за тренирање и научените приори на моделот. Со тренирање на милиони видеа што покажуваат материјали во интеракција со светот, моделите развиваат имплицитно разбирање на материјалите. Чаша што паѓа на бетон произведува различен исход од чаша што паѓа на тепих, и модерните модели ја фаќаат оваа разлика.

🧱

Класификација на материјали

Моделите сега имплицитно ги класифицираат објектите по својства на материјали: кршливо наспроти дуктилно, еластично наспроти пластично, компресибилно наспроти некомпресибилно.

💨

Типови на флуиди

Различни вискозности на флуиди и површински напнатости се справуваат правилно: водата прска, медот капе, чадот се бранува.

🔥

Физика на согорување

Оган и експлозии следат реалистична пропагација на топлина и динамика на гас наместо едноставни ефекти на честички.

Ограничувања и гранични случаи

И покрај овие напредоци, симулацијата на физика во AI видео останува несовршена. Неколку познати ограничувања постојат:

Долгорочна стабилност: Физиката останува точна 5-10 секунди но може да отстапува преку подолги траења. Продолжените видеа може постепено да ги прекршуваат законите за зачувување.

Сложени системи на повеќе тела: Додека два објекти што се судираат функционираат добро, сцени со дузини објекти во интеракција (како кула Јенга што паѓа) може да произведат грешки.

Необични материјали: Пристрасности во податоците за тренирање значат дека вообичаените материјали (вода, стакло, метал) се симулираат подобро од егзотичните (ненутновски флуиди, магнетни материјали).

Екстремни услови: Физиката на многу мали скали (молекуларни), многу големи скали (астрономски) или екстремни услови (близу брзината на светлината) често не успева.

⚠️

Точноста на симулацијата на физика значително опаѓа за видеа подолги од 30 секунди. За долгометражни содржини, разгледајте користење техники за продолжување видео со внимателна грижа за физичкиот континуитет на границите.

Импликации за креаторите

Што значи подобрената симулација на физика за видео креаторите?

Прво, драматично ја намалува потребата за поправки во пост-продукција. Сцени што претходно бараа внимателно уредување за корекција на физички невозможности сега се генерираат правилно од прв пат.

Второ, овозможува нови креативни можности. Точната симулација на физика значи дека Рубе Голдберг машини, спортски секвенци и акциски сцени може да се генерираат без макотрпна рачна корекција.

Трето, ја подобрува перцепцијата на гледачите. Гледачите потсвесно ги детектираат прекршувањата на физиката, правејќи физички точните видеа да изгледаат пореални дури и кога разликата е тешко да се артикулира.

Патот напред

Симулацијата на физика ќе продолжи да се подобрува по неколку оски:

Подолга темпорална конзистентност: Сегашните модели ја одржуваат физиката секунди, идните модели ќе ја одржуваат минути.

Посложени интеракции: Сцени со стотици објекти во интеракција ќе станат изводливи.

Научени физички мотори: Наместо имплицитна физика од податоци за тренирање, идните модели може да инкорпорираат експлицитна симулација на физика како компонента.

Физика во реално време: Моментално генерирањето свесно за физика е бавно, но оптимизацијата може да овозможи генерирање во реално време со физичка точност.

Патувањето од телепортирачки кошаркарски топки до реалистични отскоци претставува еден од најзначајните напредоци во генерирањето AI видео. Моделите научија, ако не да ја разберат физиката на начинот на кој луѓето тоа го прават, барем да ги почитуваат нејзините ограничувања. За креаторите, ова значи помалку корекции, повеќе можности и видеа што едноставно изгледаат пореални.

Пробајте сами: Bonega.ai користи Veo 3, кој инкорпорира напредна симулација на физика за реалистична динамика на објекти. Генерирајте сцени со сложена физика и видете како моделот се справува со гравитација, судири и интеракции на материјали.

Дали оваа статија беше корисна?

Alexis

Alexis

Инженер за вештачка интелигенција

Инженер за вештачка интелигенција од Лозана кој ја комбинира длабочината на истражувањето со практична иновација. Го дели времето помеѓу архитектури на модели и алпски врвови.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Поврзани статии

Продолжете со истражување со овие поврзани објави

Ви се допадна оваа статија?

Дознајте повеќе и бидете во тек со нашата најнова содржина.

Симулација на физика во AI видео: Како моделите конечно научија да ја почитуваат реалноста