Kandinsky 5.0: Російська відповідь у відкритій генерації відео за допомогою ШІ
Kandinsky 5.0 забезпечує генерацію 10-секундного відео на споживчих GPU з ліцензією Apache 2.0. Ми розглянемо, як механізми NABLA attention та flow matching роблять це можливим.

Зсув у ландшафті open-source відео
Коли ByteDance відкрив вихідний код своєї моделі розуміння відео, а Tencent випустила HunyuanVideo, ми побачили перші ознаки змін. Тепер Kandinsky Lab, підтримувана Сбербанком, випустила повне сімейство моделей, які будь-хто може запускати, модифікувати та комерціалізувати за ліцензією Apache 2.0.
Це не дослідницький превью та не обмежений API. Повні ваги, код навчання та конвеєр виведення доступні на GitHub та Hugging Face.
Сімейство моделей
Для контексту щодо архітектур дифузії див. наш детальний розбір дифузійних трансформерів.
Kandinsky 5.0, це не одна модель, а сімейство з трьох:
Video Lite (2 млрд параметрів)
Легкий варіант для споживчого заліза. Генерує відео тривалістю від 5 до 10 секунд з роздільною здатністю 768×512, 24 fps. Працює на 12 ГБ VRAM з вивантаженням пам'яті. Дистильований варіант на 16 кроків виробляє 5-секундний кліп за 35-60 секунд на H100.
Video Pro (19 млрд параметрів)
Повна модель для максимальної якості. Виводить HD-відео з роздільною здатністю 1280×768, 24 fps. Потребує GPU рівня датацентру, але видає результати, конкурентні із закритими альтернативами.
Модель Image Lite з 6 млрд параметрів завершує сімейство для генерації статичних зображень з роздільною здатністю 1280×768 або 1024×1024.
Технічна архітектура
Інженерні рішення в Kandinsky 5.0 показують команду, зосереджену на практичному розгортанні, а не на гонитві за бенчмарками.
Основа: Flow Matching замість дифузії
Традиційні дифузійні моделі вчаться крок за кроком обертати процес додавання шуму. Flow matching використовує інший підхід: він вивчає прямий шлях від шуму до зображення через безперервне поле потоку. Переваги значні:
NABLA: робимо довгі відео можливими
Справжня інновація, це NABLA (Neighborhood Adaptive Block-Level Attention). Стандартний механізм уваги трансформера масштабується квадратично з довжиною послідовності. Для відео це катастрофа. 10-секундний кліп при 24 fps містить 240 кадрів, кожен з тисячами просторових патчів. Повна увага до всіх з них обчислювально невиконана.
NABLA вирішує це через патерни розрідженої уваги. Замість того щоб звертати увагу на кожен патч у кожному кадрі, він фокусує обчислення на:
- Локальних просторових околицях всередині кожного кадру
- Часових сусідах через суміжні кадри
- Вивчених глобальних якорях для далекосяжної когерентності
Результат, майже лінійне масштабування з довжиною відео замість квадратичного. Це те, що робить 10-секундну генерацію можливою на споживчому залізі.
Для порівняння, більшість конкуруючих моделей з трудом справляються з відео довше 5 секунд без спеціалізованого обладнання.
Основа на HunyuanVideo
Замість навчання всього з нуля, Kandinsky 5.0 приймає 3D VAE з проєкту HunyuanVideo від Tencent. Цей енкодер-декодер обробляє трансляцію між піксельним простором і компактним латентним простором, де працює процес дифузії.
Розуміння тексту відбувається від Qwen2.5-VL, моделі vision-language, у поєднанні з CLIP-ембедінгами для семантичного заземлення. Цей підхід з двома енкодерами дозволяє моделі розуміти як буквальне значення, так і візуальний стиль, що передбачається промптами.
Продуктивність: де вона знаходиться
Команда позиціонує Video Lite як кращу серед open-source моделей у своєму класі параметрів. Бенчмарки показують:
| Модель | Параметри | Макс. тривалість | VRAM (5 сек) |
|---|---|---|---|
| Kandinsky Video Lite | 2 млрд | 10 секунд | 12 ГБ |
| CogVideoX-2B | 2 млрд | 6 секунд | 16 ГБ |
| Open-Sora 1.2 | 1.1 млрд | 16 секунд | 18 ГБ |
Вимога 12 ГБ VRAM відкриває двері для розгортання на споживчих картах RTX 3090 та 4090, значний віховий момент у доступності.
Порівняння якості складніше кількісно оцінити. Звіти користувачів припускають, що Kandinsky створює більш послідовний рух, ніж CogVideoX, але відстає від HunyuanVideo у фотореалізмі. 16-крокова дистильована модель жертвує деякими дрібними деталями заради швидкості, компроміс, який добре працює для прототипування, але може не задовольнити потреби фінального виробництва.
Запуск Kandinsky локально
Проєкт надає ноди для ComfyUI та автономні скрипти. Базовий робочий процес text-to-video:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Для карт на 12 ГБ
video = model.generate(
prompt="Гірське озеро на світанку, туман піднімається над нерухомою водою",
num_frames=120, # 5 секунд при 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Вивантаження пам'яті переміщує ваги моделі між CPU та GPU під час виведення. Це обмінює швидкість на доступність, дозволяючи більшим моделям працювати на менших картах.
Зв'язок зі Сбербанком
Kandinsky Lab працює під керівництвом Sber AI, підрозділу штучного інтелекту Сбербанку, найбільшого банку Росії. Ця підтримка пояснює значні ресурси, що стоять за проєктом: багатоетапне навчання на пропрієтарних даних, пост-тренінг з навчанням з підкріпленням та інженерні зусилля по відкриттю повного виробничого конвеєра.
Геополітичний контекст додає складнощів. Західні розробники можуть зіткнутися з інституційним тиском, щоб уникати моделей російського походження. Ліцензія Apache 2.0 юридично зрозуміла, але організаційні політики різняться. Для індивідуальних розробників та невеликих студій розрахунок простіший: хороша технологія, це хороша технологія.
Завжди перевіряйте ліцензування та відповідність експортним вимогам для вашої конкретної юрисдикції та випадку використання.
Практичні застосування
10-секундна тривалість та вимоги до споживчого заліза відкривають конкретні випадки використання:
Соціальний контент
Візуалізація концепцій
Кастомне навчання
Дослідження
Погляд у майбутнє
Kandinsky 5.0 представляє ширшу тенденцію: розрив між open та closed-source генерацією відео скорочується. Рік тому open-моделі створювали короткі кліпи низької роздільної здатності з очевидними артефактами. Сьогодні модель з 2 млрд параметрів на споживчому залізі генерує 10-секундне HD-відео, яке здавалося б неможливим у 2023 році.
Гонка не закінчена. Закриті лідери, такі як Sora 2 та Runway Gen-4.5, все ще лідирують у якості, тривалості та керованості. Але планка піднімається. Для багатьох застосувань open-source тепер достатньо хороший.
Висновки
Kandinsky 5.0 може і не очолювати кожен бенчмарк, але він досягає успіху там, де це найважливіше: запуск реальної генерації відео на залізі, яким володіють реальні люди, за ліцензією, яка дозволяє реальне комерційне використання. У гонці по демократизації відео на базі ШІ російська команда щойно наблизила фінішну лінію.
Для розробників, що вивчають open-source генерацію відео, Kandinsky 5.0 заслуговує місця у вашому списку.
Ця стаття була корисною?

Alexis
Інженер ШІІнженер ШІ з Лозанни, що поєднує глибину досліджень з практичними інноваціями. Ділить час між архітектурами моделей та альпійськими вершинами.
Схожі статті
Продовжуйте дослідження з цими схожими публікаціями

MiniMax Hailuo 02: Бюджетна модель генерування відео з Китаю конкурує з гігантами
Hailuo 02 від MiniMax генерує відео конкурентної якості за мізерну частку вартості, з 10 відео за ціну одного кліпу Veo 3. Ось що робить цього китайського претендента вартим уваги.

TurboDiffusion: прорив у генерації відео в реальному часі
ShengShu Technology та університет Цінхуа представили TurboDiffusion , прискорення генерації відео в 100-200 разів та перехід до створення контенту в реальному часі.

Послідовність характеру в ШІ-відео: як моделі вчаться запам'ятовувати обличчя
Глибокий технічний розбір архітектурних інновацій, що дозволяють ШІ-моделям відео підтримувати ідентичність персонажа протягом сцен, від механізмів уваги до ембедингів, що зберігають ідентичність.