Meta Pixel
AlexisAlexis
6 min read
1078 слів

Kandinsky 5.0: Російська відповідь у відкритій генерації відео за допомогою ШІ

Kandinsky 5.0 забезпечує генерацію 10-секундного відео на споживчих GPU з ліцензією Apache 2.0. Ми розглянемо, як механізми NABLA attention та flow matching роблять це можливим.

Kandinsky 5.0: Російська відповідь у відкритій генерації відео за допомогою ШІ
Географія інновацій в галузі ШІ продовжує змінюватися. Поки американські лабораторії женуться за дедалі більшими моделями, а китайські компанії домінують у рейтингах open-source, російська команда тихо випустила, можливо, найдоступніший генератор відео на базі ШІ: Kandinsky 5.0.

Зсув у ландшафті open-source відео

Коли ByteDance відкрив вихідний код своєї моделі розуміння відео, а Tencent випустила HunyuanVideo, ми побачили перші ознаки змін. Тепер Kandinsky Lab, підтримувана Сбербанком, випустила повне сімейство моделей, які будь-хто може запускати, модифікувати та комерціалізувати за ліцензією Apache 2.0.

10 сек
Тривалість відео
12 ГБ
Мін. VRAM
Apache 2.0
Ліцензія

Це не дослідницький превью та не обмежений API. Повні ваги, код навчання та конвеєр виведення доступні на GitHub та Hugging Face.

Сімейство моделей

💡

Для контексту щодо архітектур дифузії див. наш детальний розбір дифузійних трансформерів.

Kandinsky 5.0, це не одна модель, а сімейство з трьох:

Video Lite (2 млрд параметрів)

Легкий варіант для споживчого заліза. Генерує відео тривалістю від 5 до 10 секунд з роздільною здатністю 768×512, 24 fps. Працює на 12 ГБ VRAM з вивантаженням пам'яті. Дистильований варіант на 16 кроків виробляє 5-секундний кліп за 35-60 секунд на H100.

Video Pro (19 млрд параметрів)

Повна модель для максимальної якості. Виводить HD-відео з роздільною здатністю 1280×768, 24 fps. Потребує GPU рівня датацентру, але видає результати, конкурентні із закритими альтернативами.

Модель Image Lite з 6 млрд параметрів завершує сімейство для генерації статичних зображень з роздільною здатністю 1280×768 або 1024×1024.

Технічна архітектура

Інженерні рішення в Kandinsky 5.0 показують команду, зосереджену на практичному розгортанні, а не на гонитві за бенчмарками.

Основа: Flow Matching замість дифузії

Традиційні дифузійні моделі вчаться крок за кроком обертати процес додавання шуму. Flow matching використовує інший підхід: він вивчає прямий шлях від шуму до зображення через безперервне поле потоку. Переваги значні:

Переваги Flow Matching
Краща стабільність навчання, швидша збіжність та більш передбачувана якість генерації при виведенні.
Компроміси
Потребує ретельного проєктування шляху. Команда використовує шляхи оптимального транспортування, що мінімізують відстань між шумом і цільовими розподілами.

NABLA: робимо довгі відео можливими

Справжня інновація, це NABLA (Neighborhood Adaptive Block-Level Attention). Стандартний механізм уваги трансформера масштабується квадратично з довжиною послідовності. Для відео це катастрофа. 10-секундний кліп при 24 fps містить 240 кадрів, кожен з тисячами просторових патчів. Повна увага до всіх з них обчислювально невиконана.

NABLA вирішує це через патерни розрідженої уваги. Замість того щоб звертати увагу на кожен патч у кожному кадрі, він фокусує обчислення на:

  1. Локальних просторових околицях всередині кожного кадру
  2. Часових сусідах через суміжні кадри
  3. Вивчених глобальних якорях для далекосяжної когерентності

Результат, майже лінійне масштабування з довжиною відео замість квадратичного. Це те, що робить 10-секундну генерацію можливою на споживчому залізі.

💡

Для порівняння, більшість конкуруючих моделей з трудом справляються з відео довше 5 секунд без спеціалізованого обладнання.

Основа на HunyuanVideo

Замість навчання всього з нуля, Kandinsky 5.0 приймає 3D VAE з проєкту HunyuanVideo від Tencent. Цей енкодер-декодер обробляє трансляцію між піксельним простором і компактним латентним простором, де працює процес дифузії.

Розуміння тексту відбувається від Qwen2.5-VL, моделі vision-language, у поєднанні з CLIP-ембедінгами для семантичного заземлення. Цей підхід з двома енкодерами дозволяє моделі розуміти як буквальне значення, так і візуальний стиль, що передбачається промптами.

Продуктивність: де вона знаходиться

Команда позиціонує Video Lite як кращу серед open-source моделей у своєму класі параметрів. Бенчмарки показують:

МодельПараметриМакс. тривалістьVRAM (5 сек)
Kandinsky Video Lite2 млрд10 секунд12 ГБ
CogVideoX-2B2 млрд6 секунд16 ГБ
Open-Sora 1.21.1 млрд16 секунд18 ГБ

Вимога 12 ГБ VRAM відкриває двері для розгортання на споживчих картах RTX 3090 та 4090, значний віховий момент у доступності.

Порівняння якості складніше кількісно оцінити. Звіти користувачів припускають, що Kandinsky створює більш послідовний рух, ніж CogVideoX, але відстає від HunyuanVideo у фотореалізмі. 16-крокова дистильована модель жертвує деякими дрібними деталями заради швидкості, компроміс, який добре працює для прототипування, але може не задовольнити потреби фінального виробництва.

Запуск Kandinsky локально

Проєкт надає ноди для ComfyUI та автономні скрипти. Базовий робочий процес text-to-video:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Для карт на 12 ГБ
 
video = model.generate(
    prompt="Гірське озеро на світанку, туман піднімається над нерухомою водою",
    num_frames=120,  # 5 секунд при 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Вивантаження пам'яті переміщує ваги моделі між CPU та GPU під час виведення. Це обмінює швидкість на доступність, дозволяючи більшим моделям працювати на менших картах.

Зв'язок зі Сбербанком

Kandinsky Lab працює під керівництвом Sber AI, підрозділу штучного інтелекту Сбербанку, найбільшого банку Росії. Ця підтримка пояснює значні ресурси, що стоять за проєктом: багатоетапне навчання на пропрієтарних даних, пост-тренінг з навчанням з підкріпленням та інженерні зусилля по відкриттю повного виробничого конвеєра.

Геополітичний контекст додає складнощів. Західні розробники можуть зіткнутися з інституційним тиском, щоб уникати моделей російського походження. Ліцензія Apache 2.0 юридично зрозуміла, але організаційні політики різняться. Для індивідуальних розробників та невеликих студій розрахунок простіший: хороша технологія, це хороша технологія.

⚠️

Завжди перевіряйте ліцензування та відповідність експортним вимогам для вашої конкретної юрисдикції та випадку використання.

Практичні застосування

10-секундна тривалість та вимоги до споживчого заліза відкривають конкретні випадки використання:

🎬

Соціальний контент

Короткі відео для TikTok, Reels та Shorts. Швидка ітерація без витрат на API.
🎨

Візуалізація концепцій

Режисери та продюсери можуть прототипувати сцени до дорогого виробництва.
🔧

Кастомне навчання

Ліцензія Apache 2.0 дозволяє донавчання на пропрієтарних датасетах. Створюйте спеціалізовані моделі для вашої галузі.
📚

Дослідження

Повний доступ до ваг та архітектури дозволяє академічне вивчення технік генерації відео.

Погляд у майбутнє

Kandinsky 5.0 представляє ширшу тенденцію: розрив між open та closed-source генерацією відео скорочується. Рік тому open-моделі створювали короткі кліпи низької роздільної здатності з очевидними артефактами. Сьогодні модель з 2 млрд параметрів на споживчому залізі генерує 10-секундне HD-відео, яке здавалося б неможливим у 2023 році.

Гонка не закінчена. Закриті лідери, такі як Sora 2 та Runway Gen-4.5, все ще лідирують у якості, тривалості та керованості. Але планка піднімається. Для багатьох застосувань open-source тепер достатньо хороший.

Висновки

Kandinsky 5.0 може і не очолювати кожен бенчмарк, але він досягає успіху там, де це найважливіше: запуск реальної генерації відео на залізі, яким володіють реальні люди, за ліцензією, яка дозволяє реальне комерційне використання. У гонці по демократизації відео на базі ШІ російська команда щойно наблизила фінішну лінію.

Для розробників, що вивчають open-source генерацію відео, Kandinsky 5.0 заслуговує місця у вашому списку.

Ця стаття була корисною?

Alexis

Alexis

Інженер ШІ

Інженер ШІ з Лозанни, що поєднує глибину досліджень з практичними інноваціями. Ділить час між архітектурами моделей та альпійськими вершинами.

Схожі статті

Продовжуйте дослідження з цими схожими публікаціями

Сподобалась ця стаття?

Дізнавайтеся більше та слідкуйте за нашими останніми матеріалами.

Kandinsky 5.0: Російська відповідь у відкритій генерації відео за допомогою ШІ