Kandinsky 5.0: Российский ответ в области открытой генерации видео с помощью ИИ

География инноваций в области ИИ продолжает меняться. Пока американские лаборатории гонятся за всё более крупными моделями, а китайские компании доминируют в рейтингах open-source, российская команда тихо выпустила, возможно, самый доступный генератор видео на базе ИИ: Kandinsky 5.0.

Сдвиг в ландшафте open-source видео

Когда ByteDance открыл исходный код своей модели понимания видео, а Tencent выпустила HunyuanVideo, мы увидели первые признаки перемен. Теперь Kandinsky Lab, поддерживаемая Сбербанком, выпустила полное семейство моделей, которые любой может запускать, модифицировать и коммерциализировать по лицензии Apache 2.0.

10 сек

Длительность видео

12 ГБ

Мин. VRAM

Apache 2.0

Лицензия

Это не исследовательский превью и не ограниченный API. Полные веса, код обучения и конвейер вывода доступны на GitHub и Hugging Face.

Семейство моделей

💡

Для контекста по архитектурам диффузии см. наш подробный разбор диффузионных трансформеров.

Kandinsky 5.0, это не одна модель, а семейство из трёх:

Video Lite (2 млрд параметров)

Лёгкий вариант для потребительского железа. Генерирует видео длительностью от 5 до 10 секунд с разрешением 768×512, 24 fps. Работает на 12 ГБ VRAM с выгрузкой памяти. Дистиллированный вариант на 16 шагов производит 5-секундный клип за 35-60 секунд на H100.

Video Pro (19 млрд параметров)

Полная модель для максимального качества. Выводит HD-видео с разрешением 1280×768, 24 fps. Требует GPU уровня датацентра, но выдаёт результаты, конкурентные с закрытыми альтернативами.

Модель Image Lite с 6 млрд параметров завершает семейство для генерации статичных изображений с разрешением 1280×768 или 1024×1024.

Техническая архитектура

Инженерные решения в Kandinsky 5.0 показывают команду, сфокусированную на практическом развёртывании, а не на погоне за бенчмарками.

Основа: Flow Matching вместо диффузии

Традиционные диффузионные модели учатся шаг за шагом обращать процесс добавления шума. Flow matching использует другой подход: он изучает прямой путь от шума к изображению через непрерывное поле потока. Преимущества значительны:

✓Преимущества Flow Matching

Лучшая стабильность обучения, более быстрая сходимость и более предсказуемое качество генерации при выводе.

✗Компромиссы

Требует тщательной разработки пути. Команда использует пути оптимальной транспортировки, минимизирующие расстояние между шумом и целевыми распределениями.

NABLA: делаем длинные видео возможными

Настоящая инновация, это NABLA (Neighborhood Adaptive Block-Level Attention). Стандартный механизм внимания трансформера масштабируется квадратично с длиной последовательности. Для видео это катастрофа. 10-секундный клип при 24 fps содержит 240 кадров, каждый с тысячами пространственных патчей. Полное внимание ко всем из них вычислительно невыполнимо.

NABLA решает это через паттерны разреженного внимания. Вместо того чтобы обращать внимание на каждый патч в каждом кадре, он фокусирует вычисления на:

Локальных пространственных окрестностях внутри каждого кадра
Временных соседях через смежные кадры
Изученных глобальных якорях для дальнодействующей когерентности

Результат, почти линейное масштабирование с длиной видео вместо квадратичного. Это то, что делает 10-секундную генерацию возможной на потребительском железе.

💡

Для сравнения, большинство конкурирующих моделей с трудом справляются с видео длиннее 5 секунд без специализированного оборудования.

Основа на HunyuanVideo

Вместо обучения всего с нуля, Kandinsky 5.0 принимает 3D VAE из проекта HunyuanVideo от Tencent. Этот энкодер-декодер обрабатывает трансляцию между пиксельным пространством и компактным латентным пространством, где работает процесс диффузии.

Понимание текста происходит от Qwen2.5-VL, модели vision-language, в сочетании с CLIP-эмбеддингами для семантического заземления. Этот подход с двумя энкодерами позволяет модели понимать как буквальное значение, так и визуальный стиль, подразумеваемый промптами.

Производительность: где она находится

Команда позиционирует Video Lite как лучшую среди open-source моделей в своём классе параметров. Бенчмарки показывают:

Модель	Параметры	Макс. длительность	VRAM (5 сек)
Kandinsky Video Lite	2 млрд	10 секунд	12 ГБ
CogVideoX-2B	2 млрд	6 секунд	16 ГБ
Open-Sora 1.2	1.1 млрд	16 секунд	18 ГБ

Требование 12 ГБ VRAM открывает дверь для развёртывания на потребительских картах RTX 3090 и 4090, значительная веха в доступности.

Сравнения качества сложнее количественно оценить. Отчёты пользователей предполагают, что Kandinsky создаёт более последовательное движение, чем CogVideoX, но отстаёт от HunyuanVideo в фотореализме. 16-шаговая дистиллированная модель жертвует некоторыми мелкими деталями ради скорости, компромисс, который хорошо работает для прототипирования, но может не удовлетворить потребности финального производства.

Запуск Kandinsky локально

Проект предоставляет ноды для ComfyUI и автономные скрипты. Базовый рабочий процесс text-to-video:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Для карт на 12 ГБ
 
video = model.generate(
    prompt="Горное озеро на рассвете, туман поднимается над неподвижной водой",
    num_frames=120,  # 5 секунд при 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Выгрузка памяти перемещает веса модели между CPU и GPU во время вывода. Это обменивает скорость на доступность, позволяя более крупным моделям работать на меньших картах.

Связь со Сбербанком

Kandinsky Lab работает под управлением Sber AI, подразделения искусственного интеллекта Сбербанка, крупнейшего банка России. Эта поддержка объясняет значительные ресурсы, стоящие за проектом: многоэтапное обучение на проприетарных данных, пост-тренинг с обучением с подкреплением и инженерные усилия по открытию полного производственного конвейера.

Геополитический контекст добавляет сложности. Западные разработчики могут столкнуться с институциональным давлением, чтобы избегать моделей российского происхождения. Лицензия Apache 2.0 юридически ясна, но организационные политики различаются. Для индивидуальных разработчиков и небольших студий расчёт проще: хорошая технология, это хорошая технология.

⚠️

Всегда проверяйте лицензирование и соответствие экспортным требованиям для вашей конкретной юрисдикции и случая использования.

Практические применения

10-секундная длительность и требования к потребительскому железу открывают конкретные случаи использования:

🎬

Социальный контент

Короткие видео для TikTok, Reels и Shorts. Быстрая итерация без затрат на API.

🎨

Визуализация концепций

Режиссёры и продюсеры могут прототипировать сцены до дорогостоящего производства.

🔧

Кастомное обучение

Лицензия Apache 2.0 позволяет дообучение на проприетарных датасетах. Создавайте специализированные модели для вашей области.

📚

Исследования

Полный доступ к весам и архитектуре позволяет академическое изучение техник генерации видео.

Взгляд в будущее

Kandinsky 5.0 представляет более широкую тенденцию: разрыв между open и closed-source генерацией видео сокращается. Год назад open-модели создавали короткие клипы низкого разрешения с очевидными артефактами. Сегодня модель с 2 млрд параметров на потребительском железе генерирует 10-секундное HD-видео, которое казалось бы невозможным в 2023 году.

Гонка не окончена. Закрытые лидеры, такие как Sora 2 и Runway Gen-4.5, всё ещё лидируют в качестве, длительности и контролируемости. Но планка поднимается. Для многих применений open-source теперь достаточно хорош.

Ресурсы

Выводы

Kandinsky 5.0 может и не возглавлять каждый бенчмарк, но он преуспевает там, где это важнее всего: запуск реальной генерации видео на железе, которым владеют реальные люди, по лицензии, которая позволяет реальное коммерческое использование. В гонке по демократизации видео на базе ИИ российская команда только что приблизила финишную черту.

Для разработчиков, изучающих open-source генерацию видео, Kandinsky 5.0 заслуживает места в вашем списке.