Kandinsky 5.0: адказ Расіі з адкрытым зыходным кодам на генерацыю відэа з дапамогай AI
Kandinsky 5.0 прыносіць генерацыю 10-секундных відэа на спажывецкія GPU з ліцэнзіяй Apache 2.0. Мы даследуем, як NABLA attention і flow matching робяць гэта магчымым.

Зрух у ландшафце відэа з адкрытым зыходным кодам
Калі ByteDance адкрыў зыходны код сваёй мадэлі разумення відэа, а Tencent выпусціў HunyuanVideo, мы ўбачылі першыя трывогі зруху. Цяпер Kandinsky Lab, падтрыманая Sberbank, выпусціла поўную сям'ю мадэляў, якія любы можа запускаць, змяняць і камерцыялізаваць пад ліцэнзіяй Apache 2.0.
Гэта не даследчы прагляд і не абмежаваны API. Поўныя вагі, код навучання і канвеер вываду даступныя на GitHub і Hugging Face.
Сям'я мадэляў
Для кантэксту па архітэктуры дыфузіі глядзіце наш глыбокі аналіз па diffusion transformers.
Kandinsky 5.0 - гэта не адна мадэль, а сям'я з трох:
Video Lite (2B параметраў)
Лёгкі варыянт для спажывецкага абсталявання. Генеруе відэа ад 5 да 10 секунд з раздзяленнем 768×512, 24 fps. Працуе на 12GB VRAM з выгрузкай памяці. Дыстыляваны 16-крокавы варыянт ствараў 5-секундны кліп за 35-60 секунд на H100.
Video Pro (19B параметраў)
Поўная мадэль для максімальнай якасці. Выдае HD відэа на 1280×768, 24 fps. Патрабуе GPU класа датацэнтра, але дае вынікі канкурэнтныя з закрытымі альтэрнатывамі.
Мадэль Image Lite з 6B параметраў завяршае сям'ю для генерацыі нерухомых выяў з раздзяленнем 1280×768 або 1024×1024.
Тэхнічная архітэктура
Інжынерныя рашэнні ў Kandinsky 5.0 паказваюць каманду, сканцэнтраваную на практычным разгортванні, а не на пагоні за бенчмаркамі.
Аснова: Flow Matching замест Diffusion
Традыцыйныя мадэлі дыфузіі вучацца адваротнаму працэсу дадання шуму крок за крокам. Flow matching выбірае іншы падыход: ён вучыцца прамому шляху ад шуму да выявы праз бесперапынное поле плыні. Перавагі значныя:
NABLA: робім доўгія відэа магчымымі
Сапраўдная інавацыя - гэта NABLA, скарачэнне ад Neighborhood Adaptive Block-Level Attention. Стандартная ўвага трансформера маштабуецца квадратычна з даўжынёй паслядоўнасці. Для відэа гэта катастрафічна. 10-секундны кліп на 24 fps утрымлівае 240 кадраў, кожны з тысяч прасторавых патчаў. Поўная ўвага да ўсіх іх вылічальна немагчымая.
NABLA вырашае гэта праз разрэджаныя шаблоны ўвагі. Замест увагі да кожнага патча ў кожным кадры, ён засяроджвае вылічэнні на:
- Лакальных прасторавых акрузах унутры кожнага кадра
- Часавых суседзях праз сумежныя кадры
- Вывучаных глабальных якарах для далёкай узгодненасці
Вынік - амаль лінейнае маштабаванне з даўжынёй відэа замест квадратычнага. Гэта тое, што робіць 10-секундную генерацыю магчымай на спажывецкім абсталяванні.
Для параўнання, большасць канкурэнтных мадэляў змагаюцца з відэа даўжэй за 5 секунд без спецыялізаванага абсталявання.
Пабудова на HunyuanVideo
Замест навучання ўсяго з нуля, Kandinsky 5.0 прымае 3D VAE з праекта HunyuanVideo ад Tencent. Гэты кадавальнік-дэкадавальнік апрацоўвае пераклад паміж прасторай пікселяў і кампактнай латэнтнай прасторай, дзе працуе працэс дыфузіі.
Разуменне тэксту прыходзіць ад Qwen2.5-VL, мадэлі зроку-мовы, у спалучэнні з убудовамі CLIP для семантычнага заснавання. Гэты падыход з падвойным кадавальнікам дазваляе мадэлі разумець як літаральнае значэнне, так і візуальны стыль, які маецца на ўвазе ў падказках.
Прадукцыйнасць: дзе яна стаіць
Каманда пазіцыянуе Video Lite як лепшага выканаўцу сярод мадэляў з адкрытым зыходным кодам у сваім класе параметраў. Бенчмаркі паказваюць:
| Мадэль | Параметры | Макс. працягласць | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 секунд | 12GB |
| CogVideoX-2B | 2B | 6 секунд | 16GB |
| Open-Sora 1.2 | 1.1B | 16 секунд | 18GB |
Патрабаванне 12GB VRAM адчыняе дзверы для разгортвання на спажывецкіх картах RTX 3090 і 4090, значная вяха даступнасці.
Параўнанні якасці цяжэй квантыфікаваць. Справаздачы карыстальнікаў паказваюць, што Kandinsky стварае больш паслядоўны рух, чым CogVideoX, але адстае ад HunyuanVideo ў фатарэалізме. 16-крокавая дыстыляваная мадэль ахвяруе некаторымі дробнымі дэталямі дзеля хуткасці, кампраміс, які добра працуе для прататыпавання, але можа не задаволіць патрэбы канчатковай вытворчасці.
Запуск Kandinsky лакальна
Праект прадастаўляе вузлы ComfyUI і асобныя скрыпты. Базавы працоўны паток тэкст-у-відэа:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Выгрузка памяці пераносіць вагі мадэлі паміж CPU і GPU падчас вываду. Гэта мяняе хуткасць на даступнасць, дозваляючы большым мадэлям працаваць на меншых картах.
Сувязь з Sberbank
Kandinsky Lab працуе пад Sber AI, падраздзяленнем штучнага інтэлекту Sberbank, найбуйнейшага банка Расіі. Гэтая падтрымка тлумачыць значныя рэсурсы за праектам: шматэтапнае навучанне на ўласных дадзеных, пост-навучанне з падмацаваннем, і інжынерныя намаганні па адкрыццю зыходнага кода поўнага вытворчага канвеера.
Геапалітычны кантэкст дадае складанасці. Заходнія распрацоўшчыкі могуць сутыкнуцца з інстытуцыйным ціскам на пазбяганне мадэляў расійскага паходжання. Ліцэнзія Apache 2.0 юрыдычна ясная, але арганізацыйныя палітыкі адрозніваюцца. Для асобных распрацоўшчыкаў і меншых студый разлік прасцей: добрая тэхналогія - гэта добрая тэхналогія.
Заўсёды правярайце ліцэнзаванне і адпаведнасць экспарту для вашай канкрэтнай юрысдыкцыі і выпадку выкарыстання.
Практычныя прымяненні
10-секундная працягласць і патрабаванні да спажывецкага абсталявання адкрываюць канкрэтныя выпадкі выкарыстання:
Сацыяльны кантэнт
Візуалізацыя канцэпцый
Наладжвальнае навучанне
Даследаванні
Погляд наперад
Kandinsky 5.0 уяўляе больш шырокую тэндэнцыю: разрыв паміж генерацыяй відэа з адкрытым і закрытым зыходным кодам звужаецца. Год таму адкрытыя мадэлі ствараль кароткія кліпы нізкай раздзяляльнасці з відавочнымі артэфактамі. Сёння 2B параметрычная мадэль на спажывецкім абсталяванні генеруе 10-секундныя HD відэа, якія здаваліся немагчымымі ў 2023 годзе.
Гонка яшчэ не скончана. Лідэры закрытага зыходнага кода, такія як Sora 2 і Runway Gen-4.5, усё яшчэ лідзіруюць у якасці, працягласці і кіраванні. Але планка павышаецца. Для многіх прымянення open-source цяпер дастаткова добрага.
Вывад
Kandinsky 5.0 можа не ўзначальваць кожны бенчмарк, але ён паспяхова справіўся там, дзе гэта найважней: запуск сапраўднай генерацыі відэа на абсталяванні, якім валодаюць сапраўдныя людзі, пад ліцэнзіяй, якая дазваляе сапраўднае камерцыйнае выкарыстанне. У гонцы па дэмакратызацыі AI відэа расійская каманда толькі што перасунула фінішную лінію бліжэй.
Для распрацоўшчыкаў, якія даследуюць генерацыю відэа з адкрытым зыходным кодам, Kandinsky 5.0 заслугоўвае месца ў вашым кароткім спісе.
Гэты артыкул быў карысны?

Alexis
Інжынер ШІІнжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

MiniMax Hailuo 02: Бюджэтная ШІ-мадэль Кітая кідае вызаў гігантам
Hailuo 02 паказвае канкурэнтную якасцю відэа па доступнай цане: 10 відэа за цану адзінаго ролика Veo 3. Адкрыйце, чаму гэты кітайскі канкурэнт варты ўвагі.

Кансістэнцыя персанажаў у AI відэа: як мадэлі навучаюцца памятаць лічы
Тэхнічны аналіз архітэктурных інавацый, якія дазваляюць AI мадэлям генерацыі відэа захоўваць ідэнтычнасць персанажаў у розных планах, ад механізмаў уваги да эмбедынгаў, што захоўваюць ідэнтычнасць.

Рэвалюцыя адкрытага AI-відэа: ці могуць спажывецкія GPU спаборнічаць з тэхгігантамі?
ByteDance і Tencent толькі што выпусцілі адкрытыя відэа-мадэлі, якія працуюць на звычайным абсталяванні. Гэта мяняе ўсё для незалежных аўтараў.