Alibaba Wan2.6: Генерация видео по референсу помещает ваше лицо в миры, созданные ИИ

Забудьте о типичных ИИ-аватарах. Alibaba только что выпустила Wan2.6, и её главная особенность позволяет вставлять себя в сгенерированные ИИ видео, используя лишь референсное изображение или голосовой фрагмент. Последствия впечатляют.

Революция референсов

Текст-в-видео была стандартной парадигмой с первых дней ИИ-генерации видео. Вы вводите промпт, получаете видео. Просто, но ограниченно. Невозможно сделать видео с собой без обширного дообучения или LoRA-тренировки.

Wan2.6 полностью меняет это уравнение.

💡

Референс-в-видео означает, что ИИ использует вашу реальную внешность, голос или и то, и другое в качестве входных данных для кондиционирования наряду с текстовыми промптами. Вы становитесь персонажем генерации, а не запоздалой мыслью.

Выпущенная 16 декабря 2025 года, Wan2.6 представляет собой агрессивное продвижение Alibaba в сферу ИИ-видео. Модель доступна в нескольких размерах (1,3B и 14B параметров) и вводит три ключевые способности, которые отличают её от конкурентов.

Что реально делает Wan2.6

14B

Параметров

720p

Нативное разрешение

5-10с

Длительность видео

Модель работает в трёх режимах:

📝

Текст-в-видео

Стандартная генерация на основе промптов с улучшенным качеством движения и временной согласованностью.

🖼️

Изображение-в-видео

Анимируйте любое статичное изображение в связную видеопоследовательность.

👤

Референс-в-видео

Используйте свою внешность как постоянного персонажа в сгенерированном контенте.

Возможность референс-в-видео — это то, где начинается самое интересное. Загрузите чёткую фотографию себя (или любого объекта), и Wan2.6 извлечёт идентификационные признаки, которые сохраняются на протяжении всей сгенерированной последовательности. Ваше лицо остаётся вашим лицом, даже когда ИИ создаёт совершенно новые сценарии вокруг него.

Технический подход

Wan2.6 использует вариант архитектуры diffusion transformer, ставшей стандартом в ведущих моделях 2025 года. Однако реализация Alibaba включает специализированные эмбеддинги сохранения идентичности, похожие на те, что мы исследовали в нашем глубоком разборе согласованности персонажей.

💡

Кондиционирование по референсу работает через механизмы кросс-внимания, которые внедряют информацию об идентичности на нескольких уровнях процесса генерации. Это сохраняет стабильность черт лица, позволяя всему остальному варьироваться естественно.

Голосовой компонент использует отдельный аудиокодировщик, который захватывает ваши вокальные характеристики: тембр, паттерны высоты тона и ритм речи. В сочетании с визуальным референсом вы получаете синхронизированный аудиовизуальный вывод, который действительно звучит и выглядит как вы.

Этот подход отличается от стратегии world model Runway, которая фокусируется на физической симуляции и согласованности окружения. Wan2.6 отдаёт приоритет сохранению идентичности над точностью окружения — компромисс, который имеет смысл для целевого варианта использования.

Значение открытого кода

Пожалуй, самый значительный аспект Wan2.6 в том, что Alibaba выпустила её как open source. Веса доступны для скачивания, что означает возможность запуска локально на подходящем оборудовании.

✓Wan2.6 (Open)

Локальный запуск, никаких затрат на API, полный контроль над вашими данными

✗Sora 2 / Veo 3 (Closed)

Только API, оплата за генерацию, данные отправляются третьим сторонам

Это продолжает тенденцию, которую мы освещали в статье о революции открытого ИИ-видео, где китайские компании выпускают мощные модели, работающие на потребительском оборудовании. Версия 14B требует существенного объёма VRAM (24GB+), но вариант 1,3B может поместиться на RTX 4090.

Варианты использования, которые действительно имеют смысл

Референс-в-видео открывает сценарии, которые ранее были невозможны или непомерно дороги.

✓Персонализированный маркетинговый контент в масштабе
✓Создание кастомных аватаров без студийных съёмок
✓Быстрое прототипирование видеоконцепций
✓Доступность: аватары для языка жестов, персонализированное обучение

Представьте создание демо-видео продукта с вашим участием без необходимости становиться перед камерой. Или генерацию обучающего контента, где инструктор — это версия вашего генерального директора, созданная по референсу. Применения выходят далеко за рамки новизны.

Проблема приватности

Обратимся к очевидной проблеме: эта технология может быть использована для дипфейков.

Alibaba внедрила некоторые защитные меры. Модель включает водяные знаки, аналогичные подходу SynthID от Google, а условия использования запрещают использование без согласия. Но это лежачие полицейские, а не барьеры.

⚠️

Технология референс-в-видео требует ответственного использования. Всегда получайте согласие перед использованием внешности другого человека и будьте прозрачны относительно контента, созданного ИИ.

Джинн выпущен из бутылки. Множество моделей теперь предлагают генерацию с сохранением идентичности, а открытая природа Wan2.6 означает, что эта возможность доступна каждому. Разговор сместился от «должно ли это существовать» к «как обращаться с этим ответственно».

Сравнение с конкурентами

Wan2.6 выходит на переполненный рынок. Вот как она соотносится с ведущими конкурентами декабря 2025 года.

Модель	Референс-в-видео	Open Source	Нативное аудио	Макс. длительность
Wan2.6	✅	✅	✅	10с
Runway Gen-4.5	Ограниченно	❌	✅	15с
Sora 2	❌	❌	✅	60с
Veo 3	❌	❌	✅	120с
LTX-2	❌	✅	✅	10с

Wan2.6 жертвует длительностью ради сохранения идентичности. Если вам нужны 60-секундные клипы, Sora 2 по-прежнему лучший выбор. Но если вам нужно, чтобы эти клипы последовательно показывали конкретного человека, Wan2.6 предлагает то, чего нет у закрытых моделей.

Общая картина

Референс-в-видео представляет сдвиг в нашем понимании ИИ-генерации видео. Вопрос теперь не только «что должно происходить в этом видео», но и «кто должен в нём быть».

Это слой персонализации, которого не хватало текст-в-видео. Типичные ИИ-аватары ощущались как стоковые кадры. Персонажи, созданные по референсу, ощущаются как вы.

В сочетании с нативной генерацией аудио и улучшающейся согласованностью персонажей мы приближаемся к будущему, где создание профессионального видеоконтента требует лишь фотографии с веб-камеры и текстового промпта.

Alibaba делает ставку на то, что генерация с приоритетом идентичности — это следующий рубеж. С Wan2.6, теперь открытой и работающей на потребительском оборудовании, мы скоро узнаем, правы ли они.

💡

Дополнительное чтение: Для сравнения ведущих ИИ-моделей видео смотрите наше сравнение Sora 2 vs Runway vs Veo 3. Чтобы понять лежащую в основе архитектуру, читайте Diffusion Transformers в 2025 году.