Meta Pixel
HenryHenry
5 min read
930 слов

Alibaba Wan2.6: Генерация видео по референсу помещает ваше лицо в миры, созданные ИИ

Новейшая модель видео на основе ИИ от Alibaba представляет генерацию по референсу, позволяя использовать собственную внешность и голос в контенте, созданном искусственным интеллектом. Вот что это означает для создателей контента.

Alibaba Wan2.6: Генерация видео по референсу помещает ваше лицо в миры, созданные ИИ

Забудьте о типичных ИИ-аватарах. Alibaba только что выпустила Wan2.6, и её главная особенность позволяет вставлять себя в сгенерированные ИИ видео, используя лишь референсное изображение или голосовой фрагмент. Последствия впечатляют.

Революция референсов

Текст-в-видео была стандартной парадигмой с первых дней ИИ-генерации видео. Вы вводите промпт, получаете видео. Просто, но ограниченно. Невозможно сделать видео с собой без обширного дообучения или LoRA-тренировки.

Wan2.6 полностью меняет это уравнение.

💡

Референс-в-видео означает, что ИИ использует вашу реальную внешность, голос или и то, и другое в качестве входных данных для кондиционирования наряду с текстовыми промптами. Вы становитесь персонажем генерации, а не запоздалой мыслью.

Выпущенная 16 декабря 2025 года, Wan2.6 представляет собой агрессивное продвижение Alibaba в сферу ИИ-видео. Модель доступна в нескольких размерах (1,3B и 14B параметров) и вводит три ключевые способности, которые отличают её от конкурентов.

Что реально делает Wan2.6

14B
Параметров
720p
Нативное разрешение
5-10с
Длительность видео

Модель работает в трёх режимах:

📝

Текст-в-видео

Стандартная генерация на основе промптов с улучшенным качеством движения и временной согласованностью.

🖼️

Изображение-в-видео

Анимируйте любое статичное изображение в связную видеопоследовательность.

👤

Референс-в-видео

Используйте свою внешность как постоянного персонажа в сгенерированном контенте.

Возможность референс-в-видео — это то, где начинается самое интересное. Загрузите чёткую фотографию себя (или любого объекта), и Wan2.6 извлечёт идентификационные признаки, которые сохраняются на протяжении всей сгенерированной последовательности. Ваше лицо остаётся вашим лицом, даже когда ИИ создаёт совершенно новые сценарии вокруг него.

Технический подход

Wan2.6 использует вариант архитектуры diffusion transformer, ставшей стандартом в ведущих моделях 2025 года. Однако реализация Alibaba включает специализированные эмбеддинги сохранения идентичности, похожие на те, что мы исследовали в нашем глубоком разборе согласованности персонажей.

💡

Кондиционирование по референсу работает через механизмы кросс-внимания, которые внедряют информацию об идентичности на нескольких уровнях процесса генерации. Это сохраняет стабильность черт лица, позволяя всему остальному варьироваться естественно.

Голосовой компонент использует отдельный аудиокодировщик, который захватывает ваши вокальные характеристики: тембр, паттерны высоты тона и ритм речи. В сочетании с визуальным референсом вы получаете синхронизированный аудиовизуальный вывод, который действительно звучит и выглядит как вы.

Этот подход отличается от стратегии world model Runway, которая фокусируется на физической симуляции и согласованности окружения. Wan2.6 отдаёт приоритет сохранению идентичности над точностью окружения — компромисс, который имеет смысл для целевого варианта использования.

Значение открытого кода

Пожалуй, самый значительный аспект Wan2.6 в том, что Alibaba выпустила её как open source. Веса доступны для скачивания, что означает возможность запуска локально на подходящем оборудовании.

Wan2.6 (Open)

Локальный запуск, никаких затрат на API, полный контроль над вашими данными

Sora 2 / Veo 3 (Closed)

Только API, оплата за генерацию, данные отправляются третьим сторонам

Это продолжает тенденцию, которую мы освещали в статье о революции открытого ИИ-видео, где китайские компании выпускают мощные модели, работающие на потребительском оборудовании. Версия 14B требует существенного объёма VRAM (24GB+), но вариант 1,3B может поместиться на RTX 4090.

Варианты использования, которые действительно имеют смысл

Референс-в-видео открывает сценарии, которые ранее были невозможны или непомерно дороги.

  • Персонализированный маркетинговый контент в масштабе
  • Создание кастомных аватаров без студийных съёмок
  • Быстрое прототипирование видеоконцепций
  • Доступность: аватары для языка жестов, персонализированное обучение

Представьте создание демо-видео продукта с вашим участием без необходимости становиться перед камерой. Или генерацию обучающего контента, где инструктор — это версия вашего генерального директора, созданная по референсу. Применения выходят далеко за рамки новизны.

Проблема приватности

Обратимся к очевидной проблеме: эта технология может быть использована для дипфейков.

Alibaba внедрила некоторые защитные меры. Модель включает водяные знаки, аналогичные подходу SynthID от Google, а условия использования запрещают использование без согласия. Но это лежачие полицейские, а не барьеры.

⚠️

Технология референс-в-видео требует ответственного использования. Всегда получайте согласие перед использованием внешности другого человека и будьте прозрачны относительно контента, созданного ИИ.

Джинн выпущен из бутылки. Множество моделей теперь предлагают генерацию с сохранением идентичности, а открытая природа Wan2.6 означает, что эта возможность доступна каждому. Разговор сместился от «должно ли это существовать» к «как обращаться с этим ответственно».

Сравнение с конкурентами

Wan2.6 выходит на переполненный рынок. Вот как она соотносится с ведущими конкурентами декабря 2025 года.

МодельРеференс-в-видеоOpen SourceНативное аудиоМакс. длительность
Wan2.610с
Runway Gen-4.5Ограниченно15с
Sora 260с
Veo 3120с
LTX-210с

Wan2.6 жертвует длительностью ради сохранения идентичности. Если вам нужны 60-секундные клипы, Sora 2 по-прежнему лучший выбор. Но если вам нужно, чтобы эти клипы последовательно показывали конкретного человека, Wan2.6 предлагает то, чего нет у закрытых моделей.

Общая картина

Референс-в-видео представляет сдвиг в нашем понимании ИИ-генерации видео. Вопрос теперь не только «что должно происходить в этом видео», но и «кто должен в нём быть».

Это слой персонализации, которого не хватало текст-в-видео. Типичные ИИ-аватары ощущались как стоковые кадры. Персонажи, созданные по референсу, ощущаются как вы.

В сочетании с нативной генерацией аудио и улучшающейся согласованностью персонажей мы приближаемся к будущему, где создание профессионального видеоконтента требует лишь фотографии с веб-камеры и текстового промпта.

Alibaba делает ставку на то, что генерация с приоритетом идентичности — это следующий рубеж. С Wan2.6, теперь открытой и работающей на потребительском оборудовании, мы скоро узнаем, правы ли они.

💡

Дополнительное чтение: Для сравнения ведущих ИИ-моделей видео смотрите наше сравнение Sora 2 vs Runway vs Veo 3. Чтобы понять лежащую в основе архитектуру, читайте Diffusion Transformers в 2025 году.

Была ли эта статья полезной?

Henry

Henry

Креативный технолог

Креативный технолог из Лозанны, исследующий точки соприкосновения ИИ и искусства. Экспериментирует с генеративными моделями между сессиями электронной музыки.

Похожие статьи

Продолжите изучение с этими статьями

LTX-2: Нативная генерация 4K AI видео на потребительских GPU через Open Source
AI Video GenerationOpen Source

LTX-2: Нативная генерация 4K AI видео на потребительских GPU через Open Source

Lightricks выпускает LTX-2 с нативной генерацией 4K видео и синхронизированным аудио, предоставляя open-source доступ на потребительском железе, в то время как конкуренты остаются заперты за API, хотя и с важными компромиссами в производительности.

Read
Runway GWM-1: универсальная модель мира с симуляцией реальности в реальном времени
RunwayWorld Models

Runway GWM-1: универсальная модель мира с симуляцией реальности в реальном времени

GWM-1 от Runway, это переход от генерации видео к симуляции миров. Изучите, как эта авторегрессивная модель создаёт исследуемые среды, фотореалистичные аватары и симуляции для обучения роботов.

Read
YouTube добавляет Veo 3 Fast в Shorts: бесплатная генерация AI-видео для 2,5 миллиарда пользователей
YouTubeVeo 3

YouTube добавляет Veo 3 Fast в Shorts: бесплатная генерация AI-видео для 2,5 миллиарда пользователей

Google интегрирует модель Veo 3 Fast непосредственно в YouTube Shorts, предлагая бесплатную генерацию видео из текста со звуком для авторов по всему миру. Что это значит для платформы и доступности AI-видео.

Read

Понравилась статья?

Откройте для себя больше идей и будьте в курсе наших последних публикаций.

Alibaba Wan2.6: Генерация видео по референсу помещает ваше лицо в миры, созданные ИИ