Meta Pixel
AlexisAlexis
8 min read
1471 думи

Симулация на физика в AI видео: Как моделите най-накрая се научиха да уважават реалността

От телепортиращи се баскетболни топки до реалистични отскоци, AI видео моделите вече разбират гравитацията, инерцията и динамиката на материалите. Изследваме техническите пробиви, които правят това възможно.

Симулация на физика в AI видео: Как моделите най-накрая се научиха да уважават реалността

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

С години AI-генерираните видеа имаха проблем с физиката. Баскетболните топки пропускаха коша и все пак се телепортираха в него. Водата течеше нагоре. Обектите преминаваха един през друг като призраци. През 2025 и началото на 2026 нещо се промени. Най-новото поколение видео модели се научи да уважава фундаменталните закони на физическия свят.

Проблемът с баскетболната топка

OpenAI го описаха перфектно при пускането на Sora 2: в по-ранните модели, ако баскетболна топка пропуснеше коша, тя просто се материализираше в мрежата. Моделът знаеше наративния резултат (топката влиза в коша), но нямаше концепция за физическите ограничения, които трябва да управляват пътуването.

Това не беше малък бъг. Беше симптоматично за фундаментално архитектурно ограничение. Ранните модели за генериране на видео се справяха отлично с визуалното съпоставяне на модели, научавайки се да генерират кадри, които изглеждаха индивидуално правдоподобни, докато оставаха физически некохерентни при гледане в последователност.

💡

OpenAI изрично посочиха ограниченията за "трансформиране на обект" като ключов проблем, който Sora 2 беше проектиран да реши. Тази архитектурна празнина разочароваше изследователи и създатели.

Три стълба на физическото разбиране

Пробивът в симулацията на физика се основава на три взаимосвързани напредъка: моделиране на света, верижно разсъждение и подобрени механизми за времева внимателност.

Модели на света срещу предсказване на кадри

Традиционното генериране на видео третираше задачата като последователно предсказване на кадри: дадени кадри от 1 до N, предскажи кадър N+1. Този подход има вродени затруднения с физиката, защото няма явно представяне на основното физическо състояние.

Моделите на света имат фундаментално различен подход. Вместо да предсказват пиксели директно, те първо конструират вътрешно представяне на физическото състояние на сцената, включително позиции на обекти, скорости, материали и взаимодействия. Едва тогава те рендерират това състояние във визуални кадри. Този подход, разгледан в дълбочина в нашия анализ на моделите на света, представлява парадигмална промяна в начина, по който мислим за генериране на видео.

Предсказване на кадри

Предсказва пиксели от пиксели. Без явна физика. Склонен към телепортация, грешки при преминаване и нарушения на гравитацията. Бърз, но физически некохерентен.

Модели на света

Първо симулира физическото състояние. Явно проследяване на обекти. Уважава законите за запазване и динамиката на сблъсъците. По-тежък изчислително, но физически обоснован.

Верижно мислене за видео

Kling O1, пуснат в края на 2025, въведе верижното разсъждение в генерирането на видео. Преди да генерира кадри, моделът изрично разсъждава какво трябва физически да се случи в сцената.

За сцена с чаша, падаща от маса, моделът първо разсъждава:

  • Чашата има начална скорост нула, позиция на ръба на масата
  • Гравитацията ускорява чашата надолу с 9,8 m/s²
  • Чашата достига пода след приблизително 0,45 секунди
  • Материалът на чашата е чуплив, подът е твърда повърхност
  • Ударът надвишава прага на счупване, чашата се разбива
  • Парчетата се разпръскват със запазване на инерцията

Тази явна стъпка на разсъждение се случва в латентното пространство на модела преди да се генерират пиксели. Резултатът е видео, което уважава не само визуалната естетика, но и причинно-следствените вериги.

Времева внимателност в мащаб

Архитектурната основа, която позволява тези напредъци, е времевата внимателност, механизмът, чрез който видео моделите поддържат съгласуваност между кадрите. Архитектурата на дифузионен трансформатор, която захранва съвременните видео модели, обработва видеото като пространствено-времеви участъци, позволявайки на вниманието да тече пространствено в рамките на кадрите и времево между тях.

Съвременните видео модели обработват милиони пространствено-времеви участъци на видео, със специализирани глави на внимание, посветени на физическа съгласуваност. Този мащаб позволява на моделите да проследяват идентичността на обектите и физическото състояние през стотици кадри, поддържайки кохерентност, която беше невъзможна с по-ранните архитектури.

Бенчмаркове за физика от реалния свят

Как всъщност измерваме качеството на симулацията на физика? Областта е разработила няколко стандартизирани теста:

БенчмаркТестваЛидери
Постоянство на обектиОбектите остават при закриванеSora 2, Veo 3
Съгласуваност на гравитациятаУскорението при свободно падане е равномерноKling O1, Runway Gen-4.5
Реализъм на сблъсъциОбектите отскачат, деформират се или се чупят подходящоSora 2, Veo 3.1
Динамика на флуидиВодата, димът и тъканите се симулират реалистичноKling 2.6
Запазване на инерциятаДвижението се прехвърля правилно между обектитеSora 2

Моделите Kling постоянно се отличават в динамиката на флуидите, с особено впечатляваща симулация на вода и физика на тъкани. Sora 2 на OpenAI води в реализма на сблъсъци и запазването на инерцията, справяйки се с комплексни взаимодействия между множество обекти с впечатляваща точност.

💡

За симулация на вода, дим и тъкани, моделите Kling в момента предлагат най-реалистичната физика. За комплексни сблъсъци на множество тела и спортни сценарии Sora 2 е по-силният избор.

Тестът с гимнастичка

Един от най-взискателните бенчмаркове за физика включва олимпийска гимнастика. Гимнастичка, изпълняваща акробатики, преминава през комплексна ротационна динамика: запазване на ъгловия момент, променлив инерционен момент при разтягане и свиване на крайниците и прецизно засичане на прилагането на сила при отскоци и приземявания.

Ранните видео модели генерираха впечатляващи индивидуални кадри на гимнастички във въздуха, но се проваляха катастрофално във физиката. Ротациите се ускоряваха или забавяха произволно. Приземяванията се случваха в невъзможни позиции. Тялото се деформираше по начини, които нарушаваха анатомичните ограничения.

Sora 2 изрично подчерта олимпийската гимнастика като бенчмарк, който сега обработва правилно. Моделът проследява ъгловия момент на гимнастичката през цялата рутина, ускорявайки ротацията когато крайниците се прибират (ефектът на пируета на фигурист) и забавяйки когато се разтягат.

Разбиране на материалите

Симулацията на физика се простира отвъд движението към свойствата на материалите. Как един модел знае, че стъклото се чупи, докато гумата отскача? Че водата пръска, докато маслото се събира? Че металът се деформира пластично, докато дървото се чупи?

Отговорът се крие в данните за обучение и научените приоритети на модела. Обучавайки се на милиони видеа, показващи материали, взаимодействащи със света, моделите развиват имплицитно разбиране на материалите. Стъкло, падащо на бетон, произвежда различен резултат от стъкло, падащо на килим, и съвременните модели улавят това различие.

🧱

Класификация на материали

Моделите сега имплицитно класифицират обектите по свойства на материала: чупливи срещу пластични, еластични срещу пластични, свиваеми срещу несвиваеми.

💨

Типове флуиди

Различните вискозитети на флуидите и повърхностните напрежения се обработват правилно: водата пръска, медът се стича, димът се издига на вълни.

🔥

Физика на горенето

Огънят и експлозиите следват реалистично разпространение на топлина и динамика на газове вместо прости ефекти на частици.

Ограничения и гранични случаи

Въпреки тези напредъци симулацията на физика в AI видео остава несъвършена. Няколко известни ограничения продължават:

Дългосрочна стабилност: Физиката остава точна за 5-10 секунди, но може да се отклони при по-дълги продължителности. Разширените видеа могат постепенно да нарушават законите за запазване.

Комплексни системи с множество тела: Докато сблъсъкът на два обекта работи добре, сцени с десетки взаимодействащи обекти (като падаща кула Дженга) могат да произведат грешки.

Необичайни материали: Отклоненията в данните за обучение означават, че обичайните материали (вода, стъкло, метал) се симулират по-добре от екзотичните (ненютонови флуиди, магнитни материали).

Екстремни условия: Физиката при много малки мащаби (молекулярни), много големи мащаби (астрономически) или екстремни условия (близо до скоростта на светлината) често се проваля.

⚠️

Точността на симулацията на физика се влошава значително за видеа, по-дълги от 30 секунди. За дългоформатно съдържание обмислете използването на техники за удължаване на видео с внимателно внимание към физическата непрекъснатост на границите.

Последици за създателите

Какво означава подобрената симулация на физика за създателите на видео?

Първо, тя драматично намалява нуждата от постпродукционни корекции. Сцени, които преди изискваха внимателно редактиране за коригиране на физически невъзможности, сега се генерират правилно от първия път.

Второ, тя позволява нови творчески възможности. Точната симулация на физика означава, че машини на Руб Голдберг, спортни последователности и екшън сцени могат да бъдат генерирани без старателна ръчна корекция.

Трето, тя подобрява възприятието на зрителите. Зрителите подсъзнателно откриват нарушения на физиката, което прави физически точните видеа да изглеждат по-реални, дори когато разликата е трудна за формулиране.

Пътят напред

Симулацията на физика ще продължи да се подобрява по няколко оси:

По-дълга времева съгласуваност: Настоящите модели поддържат физика за секунди, бъдещите модели ще я поддържат за минути.

По-комплексни взаимодействия: Сцени със стотици взаимодействащи обекти ще станат възможни.

Научени физически двигатели: Вместо имплицитна физика от данни за обучение, бъдещите модели могат да включват явна симулация на физика като компонент.

Физика в реално време: В момента генерирането, осъзнаващо физиката, е бавно, но оптимизацията може да позволи генериране в реално време с физическа точност.

Пътуването от телепортиращи се баскетболни топки до реалистични отскоци представлява един от най-значителните напредъци в генерирането на AI видео. Моделите са се научили, ако не да разбират физиката по начина, по който хората го правят, поне да уважават нейните ограничения. За създателите това означава по-малко корекции, повече възможности и видеа, които просто изглеждат по-реални.

Опитайте сами: Bonega.ai използва Veo 3, което включва усъвършенствана симулация на физика за реалистична динамика на обекти. Генерирайте сцени с комплексна физика и вижте как моделът се справя с гравитацията, сблъсъците и взаимодействията на материалите.

Беше ли полезна тази статия?

Alexis

Alexis

Инженер по изкуствен интелект

Инженер по изкуствен интелект от Лозана, съчетаващ изследователска дълбочина с практични иновации. Разделя времето си между модели архитектури и алпийски върхове.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Свързани статии

Продължете да изследвате със свързаните публикации

Хареса ли Ви тази статия?

Открийте още полезна информация и следете най-новото ни съдържание.

Симулация на физика в AI видео: Как моделите най-накрая се научиха да уважават реалността