Meta Pixel
AlexisAlexis
7 min read
1268 слов

Физика в AI-видео: как модели наконец научились уважать реальность

От телепортирующихся баскетбольных мячей до реалистичных отскоков. AI-модели теперь понимают гравитацию, импульс и динамику материалов. Разбираем технические прорывы, которые это сделали возможным.

Физика в AI-видео: как модели наконец научились уважать реальность

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Годами AI-видео имели проблему с физикой. Баскетбольные мячи промахивались мимо кольца и телепортировались в него. Вода текла вверх. Объекты проходили сквозь друг друга как призраки. В 2025 и начале 2026 года всё изменилось. Последнее поколение видеомоделей научилось уважать фундаментальные законы физического мира.

Проблема баскетбольного мяча

OpenAI описали это точно при запуске Sora 2: в ранних моделях, если мяч промахивался мимо кольца, он просто материализовался в сетке. Модель знала нарративный исход (мяч попадает в корзину), но не имела понятия о физических ограничениях, которые должны управлять траекторией.

Это не был мелкий баг. Это было симптомом фундаментального архитектурного ограничения. Ранние модели генерации видео отлично справлялись с визуальным сопоставлением паттернов, учились генерировать кадры, которые выглядели правдоподобно по отдельности, но оставались физически несвязными при просмотре последовательности.

💡

OpenAI явно указали ограничения "трансформации объектов" как ключевую проблему, которую Sora 2 должна была решить. Этот архитектурный пробел разочаровывал и исследователей, и создателей контента.

Три столпа физического понимания

Прорыв в симуляции физики опирается на три взаимосвязанных достижения: моделирование мира, цепочечное рассуждение и улучшенные механизмы временного внимания.

Модели мира vs предсказание кадров

Традиционная генерация видео рассматривала задачу как последовательное предсказание кадров: дано кадры с 1 по N, предскажи кадр N+1. Этот подход изначально плохо справляется с физикой, потому что не имеет явного представления базового физического состояния.

Модели мира используют фундаментально другой подход. Вместо прямого предсказания пикселей они сначала строят внутреннее представление физического состояния сцены: позиции объектов, скорости, материалы и взаимодействия. Только потом они рендерят это состояние в визуальные кадры. Этот подход, подробно исследованный в нашем анализе моделей мира, представляет парадигмальный сдвиг в понимании генерации видео.

Предсказание кадров

Предсказывает пиксели из пикселей. Без явной физики. Склонно к телепортации, проходу сквозь объекты и нарушениям гравитации. Быстро, но физически несвязно.

Модели мира

Сначала симулирует физическое состояние. Явное отслеживание объектов. Соблюдает законы сохранения и динамику столкновений. Вычислительно тяжелее, но физически обосновано.

Цепочка рассуждений для видео

Kling O1, выпущенный в конце 2025 года, внедрил цепочечное рассуждение в генерацию видео. Перед генерацией кадров модель явно рассуждает о том, что физически должно произойти в сцене.

Для сцены падающего со стола стакана модель сначала рассуждает:

  • Стакан имеет начальную скорость ноль, позиция на краю стола
  • Гравитация ускоряет стакан вниз со скоростью 9.8 м/с²
  • Стакан контактирует с полом примерно через 0.45 секунды
  • Материал стакана хрупкий, пол твёрдый
  • Удар превышает порог разрушения, стакан разбивается
  • Осколки разлетаются с сохранением импульса

Этот этап явного рассуждения происходит в латентном пространстве модели до генерации пикселей. Результат: видео, которое уважает не только визуальную эстетику, но и причинно-следственные цепочки.

Временное внимание в масштабе

Архитектурной основой этих достижений является временное внимание, механизм, с помощью которого видеомодели поддерживают согласованность между кадрами. Архитектура диффузионных трансформеров, на которой работают современные видеомодели, обрабатывает видео как пространственно-временные патчи, позволяя вниманию течь как пространственно внутри кадров, так и темпорально между ними.

Современные видеомодели обрабатывают миллионы пространственно-временных патчей на видео, со специализированными головами внимания, выделенными для физической согласованности. Этот масштаб позволяет моделям отслеживать идентичность объектов и физическое состояние на протяжении сотен кадров, поддерживая связность, которая была невозможна с более ранними архитектурами.

Реальные бенчмарки физики

Как мы на самом деле измеряем качество симуляции физики? В отрасли разработаны несколько стандартизированных тестов:

БенчмаркЧто тестируетЛидеры
Постоянство объектовОбъекты сохраняются при перекрытииSora 2, Veo 3
Согласованность гравитацииУскорение свободного падения равномерноKling O1, Runway Gen-4.5
Реализм столкновенийОбъекты отскакивают, деформируются или ломаются правильноSora 2, Veo 3.1
Динамика жидкостейВода, дым и ткань симулируются реалистичноKling 2.6
Сохранение импульсаДвижение передаётся корректно между объектамиSora 2

Модели Kling стабильно превосходят в динамике жидкостей, с особенно впечатляющей симуляцией воды и физики ткани. Sora 2 от OpenAI лидирует в реализме столкновений и сохранении импульса, обрабатывая сложные многообъектные взаимодействия с впечатляющей точностью.

💡

Для симуляции воды, дыма и ткани модели Kling сейчас предлагают наиболее реалистичную физику. Для сложных многотельных столкновений и спортивных сценариев Sora 2 сильнее.

Тест гимнаста

Один из самых требовательных физических бенчмарков включает олимпийскую гимнастику. Гимнаст в кувырке подвергается сложной вращательной динамике: сохранение углового момента, переменный момент инерции при вытягивании и сгибании конечностей, точный тайминг приложения силы при отталкиваниях и приземлениях.

Ранние видеомодели генерировали впечатляющие отдельные кадры гимнастов в воздухе, но катастрофически проваливались на физике. Вращения случайно ускорялись или замедлялись. Приземления происходили в невозможных позициях. Тело деформировалось способами, нарушающими анатомические ограничения.

Sora 2 явно выделила олимпийскую гимнастику как бенчмарк, который она теперь обрабатывает корректно. Модель отслеживает угловой момент гимнаста через весь номер, ускоряя вращение при группировке (эффект вращения фигуриста) и замедляя при выпрямлении.

Понимание материалов

Симуляция физики выходит за рамки движения к свойствам материалов. Откуда модель знает, что стекло разбивается, а резина отскакивает? Что вода разбрызгивается, а масло растекается? Что металл деформируется пластично, а дерево ломается?

Ответ в обучающих данных и выученных моделью априорных знаниях. Обучаясь на миллионах видео, показывающих взаимодействие материалов с миром, модели развивают неявное понимание материалов. Стакан, падающий на бетон, даёт другой результат, чем стакан, падающий на ковёр, и современные модели улавливают это различие.

🧱

Классификация материалов

Модели теперь неявно классифицируют объекты по свойствам материалов: хрупкие vs пластичные, упругие vs пластические, сжимаемые vs несжимаемые.

💨

Типы жидкостей

Разные вязкости жидкостей и поверхностные натяжения обрабатываются корректно: вода разбрызгивается, мёд стекает, дым клубится.

🔥

Физика горения

Огонь и взрывы следуют реалистичному распространению тепла и газовой динамике, а не простым эффектам частиц.

Ограничения и крайние случаи

Несмотря на эти достижения, симуляция физики в AI-видео остаётся несовершенной. Несколько известных ограничений сохраняются:

Долгосрочная стабильность: Физика остаётся точной 5-10 секунд, но может дрейфовать на более длинных отрезках. Расширенные видео могут постепенно нарушать законы сохранения.

Сложные многотельные системы: Хотя столкновение двух объектов работает хорошо, сцены с десятками взаимодействующих объектов (как падающая башня Дженга) могут давать ошибки.

Необычные материалы: Смещения обучающих данных означают, что обычные материалы (вода, стекло, металл) симулируются лучше экзотических (неньютоновские жидкости, магнитные материалы).

Экстремальные условия: Физика на очень малых масштабах (молекулярных), очень больших (астрономических) или в экстремальных условиях (около скорости света) часто даёт сбои.

⚠️

Точность симуляции физики значительно снижается для видео длиннее 30 секунд. Для длинного контента рассмотрите использование техник расширения видео с вниманием к физической непрерывности на границах.

Последствия для создателей

Что улучшенная симуляция физики значит для создателей видео?

Во-первых, она резко снижает необходимость в постпродакшн-правках. Сцены, которые раньше требовали тщательного редактирования для исправления физических невозможностей, теперь генерируются корректно с первого раза.

Во-вторых, она открывает новые творческие возможности. Точная симуляция физики означает, что машины Руба Голдберга, спортивные эпизоды и экшн-сцены можно генерировать без кропотливой ручной коррекции.

В-третьих, она улучшает восприятие зрителем. Зрители подсознательно замечают нарушения физики, и физически точные видео воспринимаются более реальными, даже когда разницу сложно сформулировать.

Путь вперёд

Симуляция физики продолжит улучшаться по нескольким направлениям:

Более длительная временная согласованность: Текущие модели поддерживают физику секунды, будущие модели будут поддерживать минуты.

Более сложные взаимодействия: Сцены с сотнями взаимодействующих объектов станут осуществимыми.

Обученные физические движки: Вместо неявной физики из обучающих данных будущие модели могут включать явную симуляцию физики как компонент.

Физика в реальном времени: Сейчас физически-осознанная генерация медленная, но оптимизация может обеспечить генерацию в реальном времени с физической точностью.

Путь от телепортирующихся баскетбольных мячей до реалистичных отскоков представляет одно из самых значительных достижений в генерации AI-видео. Модели научились, если не понимать физику так, как люди, то по крайней мере уважать её ограничения. Для создателей это означает меньше исправлений, больше возможностей и видео, которые просто ощущаются более реальными.

Попробуйте сами: Bonega.ai использует Veo 3, который включает продвинутую симуляцию физики для реалистичной динамики объектов. Генерируйте сцены со сложной физикой и посмотрите, как модель справляется с гравитацией, столкновениями и взаимодействием материалов.

Была ли эта статья полезной?

Alexis

Alexis

Инженер ИИ

Инженер ИИ из Лозанны, сочетающий глубину исследований с практическими инновациями. Делит время между архитектурами моделей и альпийскими вершинами.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Похожие статьи

Продолжите изучение с этими статьями

Понравилась статья?

Откройте для себя больше идей и будьте в курсе наших последних публикаций.

Физика в AI-видео: как модели наконец научились уважать реальность