Meta Pixel
AlexisAlexis
6 min read
1075 слоў

Kandinsky 5.0: адказ Расіі з адкрытым зыходным кодам на генерацыю відэа з дапамогай AI

Kandinsky 5.0 прыносіць генерацыю 10-секундных відэа на спажывецкія GPU з ліцэнзіяй Apache 2.0. Мы даследуем, як NABLA attention і flow matching робяць гэта магчымым.

Kandinsky 5.0: адказ Расіі з адкрытым зыходным кодам на генерацыю відэа з дапамогай AI
Геаграфія інавацый у AI працягвае змяняцца. У той час як амерыканскія лабараторыі гоняцца за ўсё большымі мадэлямі, а кітайскія кампаніі дамінуюць у табліцы лідараў open-source, расійская каманда ціха выпусціла тое, што можа стаць самым даступным генератарам відэа на AI: Kandinsky 5.0.

Зрух у ландшафце відэа з адкрытым зыходным кодам

Калі ByteDance адкрыў зыходны код сваёй мадэлі разумення відэа, а Tencent выпусціў HunyuanVideo, мы ўбачылі першыя трывогі зруху. Цяпер Kandinsky Lab, падтрыманая Sberbank, выпусціла поўную сям'ю мадэляў, якія любы можа запускаць, змяняць і камерцыялізаваць пад ліцэнзіяй Apache 2.0.

10s
Працягласць відэа
12GB
Мінімум VRAM
Apache 2.0
Ліцэнзія

Гэта не даследчы прагляд і не абмежаваны API. Поўныя вагі, код навучання і канвеер вываду даступныя на GitHub і Hugging Face.

Сям'я мадэляў

💡

Для кантэксту па архітэктуры дыфузіі глядзіце наш глыбокі аналіз па diffusion transformers.

Kandinsky 5.0 - гэта не адна мадэль, а сям'я з трох:

Video Lite (2B параметраў)

Лёгкі варыянт для спажывецкага абсталявання. Генеруе відэа ад 5 да 10 секунд з раздзяленнем 768×512, 24 fps. Працуе на 12GB VRAM з выгрузкай памяці. Дыстыляваны 16-крокавы варыянт ствараў 5-секундны кліп за 35-60 секунд на H100.

Video Pro (19B параметраў)

Поўная мадэль для максімальнай якасці. Выдае HD відэа на 1280×768, 24 fps. Патрабуе GPU класа датацэнтра, але дае вынікі канкурэнтныя з закрытымі альтэрнатывамі.

Мадэль Image Lite з 6B параметраў завяршае сям'ю для генерацыі нерухомых выяў з раздзяленнем 1280×768 або 1024×1024.

Тэхнічная архітэктура

Інжынерныя рашэнні ў Kandinsky 5.0 паказваюць каманду, сканцэнтраваную на практычным разгортванні, а не на пагоні за бенчмаркамі.

Аснова: Flow Matching замест Diffusion

Традыцыйныя мадэлі дыфузіі вучацца адваротнаму працэсу дадання шуму крок за крокам. Flow matching выбірае іншы падыход: ён вучыцца прамому шляху ад шуму да выявы праз бесперапынное поле плыні. Перавагі значныя:

Перавагі Flow Matching
Лепшая стабільнасць навучання, хутчэйшая канвергенцыя і больш прадказальная якасць генерацыі падчас вываду.
Кампрамісы
Патрабуецца ўважлівае праектаванне шляху. Каманда выкарыстоўвае аптымальныя шляхі транспарту, якія мінімізуюць адлегласць паміж распаўсюджаннем шуму і мэты.

NABLA: робім доўгія відэа магчымымі

Сапраўдная інавацыя - гэта NABLA, скарачэнне ад Neighborhood Adaptive Block-Level Attention. Стандартная ўвага трансформера маштабуецца квадратычна з даўжынёй паслядоўнасці. Для відэа гэта катастрафічна. 10-секундны кліп на 24 fps утрымлівае 240 кадраў, кожны з тысяч прасторавых патчаў. Поўная ўвага да ўсіх іх вылічальна немагчымая.

NABLA вырашае гэта праз разрэджаныя шаблоны ўвагі. Замест увагі да кожнага патча ў кожным кадры, ён засяроджвае вылічэнні на:

  1. Лакальных прасторавых акрузах унутры кожнага кадра
  2. Часавых суседзях праз сумежныя кадры
  3. Вывучаных глабальных якарах для далёкай узгодненасці

Вынік - амаль лінейнае маштабаванне з даўжынёй відэа замест квадратычнага. Гэта тое, што робіць 10-секундную генерацыю магчымай на спажывецкім абсталяванні.

💡

Для параўнання, большасць канкурэнтных мадэляў змагаюцца з відэа даўжэй за 5 секунд без спецыялізаванага абсталявання.

Пабудова на HunyuanVideo

Замест навучання ўсяго з нуля, Kandinsky 5.0 прымае 3D VAE з праекта HunyuanVideo ад Tencent. Гэты кадавальнік-дэкадавальнік апрацоўвае пераклад паміж прасторай пікселяў і кампактнай латэнтнай прасторай, дзе працуе працэс дыфузіі.

Разуменне тэксту прыходзіць ад Qwen2.5-VL, мадэлі зроку-мовы, у спалучэнні з убудовамі CLIP для семантычнага заснавання. Гэты падыход з падвойным кадавальнікам дазваляе мадэлі разумець як літаральнае значэнне, так і візуальны стыль, які маецца на ўвазе ў падказках.

Прадукцыйнасць: дзе яна стаіць

Каманда пазіцыянуе Video Lite як лепшага выканаўцу сярод мадэляў з адкрытым зыходным кодам у сваім класе параметраў. Бенчмаркі паказваюць:

МадэльПараметрыМакс. працягласцьVRAM (5s)
Kandinsky Video Lite2B10 секунд12GB
CogVideoX-2B2B6 секунд16GB
Open-Sora 1.21.1B16 секунд18GB

Патрабаванне 12GB VRAM адчыняе дзверы для разгортвання на спажывецкіх картах RTX 3090 і 4090, значная вяха даступнасці.

Параўнанні якасці цяжэй квантыфікаваць. Справаздачы карыстальнікаў паказваюць, што Kandinsky стварае больш паслядоўны рух, чым CogVideoX, але адстае ад HunyuanVideo ў фатарэалізме. 16-крокавая дыстыляваная мадэль ахвяруе некаторымі дробнымі дэталямі дзеля хуткасці, кампраміс, які добра працуе для прататыпавання, але можа не задаволіць патрэбы канчатковай вытворчасці.

Запуск Kandinsky лакальна

Праект прадастаўляе вузлы ComfyUI і асобныя скрыпты. Базавы працоўны паток тэкст-у-відэа:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Выгрузка памяці пераносіць вагі мадэлі паміж CPU і GPU падчас вываду. Гэта мяняе хуткасць на даступнасць, дозваляючы большым мадэлям працаваць на меншых картах.

Сувязь з Sberbank

Kandinsky Lab працуе пад Sber AI, падраздзяленнем штучнага інтэлекту Sberbank, найбуйнейшага банка Расіі. Гэтая падтрымка тлумачыць значныя рэсурсы за праектам: шматэтапнае навучанне на ўласных дадзеных, пост-навучанне з падмацаваннем, і інжынерныя намаганні па адкрыццю зыходнага кода поўнага вытворчага канвеера.

Геапалітычны кантэкст дадае складанасці. Заходнія распрацоўшчыкі могуць сутыкнуцца з інстытуцыйным ціскам на пазбяганне мадэляў расійскага паходжання. Ліцэнзія Apache 2.0 юрыдычна ясная, але арганізацыйныя палітыкі адрозніваюцца. Для асобных распрацоўшчыкаў і меншых студый разлік прасцей: добрая тэхналогія - гэта добрая тэхналогія.

⚠️

Заўсёды правярайце ліцэнзаванне і адпаведнасць экспарту для вашай канкрэтнай юрысдыкцыі і выпадку выкарыстання.

Практычныя прымяненні

10-секундная працягласць і патрабаванні да спажывецкага абсталявання адкрываюць канкрэтныя выпадкі выкарыстання:

🎬

Сацыяльны кантэнт

Кароткае відэа для TikTok, Reels і Shorts. Хуткая ітэрацыя без выдаткаў на API.
🎨

Візуалізацыя канцэпцый

Рэжысёры і прадзюсары могуць прататыпаваць сцэны перад дарагой вытворчасцю.
🔧

Наладжвальнае навучанне

Ліцэнзія Apache 2.0 дазваляе дакладную настройку на ўласных наборах дадзеных. Стварайце спецыялізаваныя мадэлі для вашай вобласці.
📚

Даследаванні

Поўны доступ да ваг і архітэктуры дазваляе акадэмічнае вывучэнне тэхнік генерацыі відэа.

Погляд наперад

Kandinsky 5.0 уяўляе больш шырокую тэндэнцыю: разрыв паміж генерацыяй відэа з адкрытым і закрытым зыходным кодам звужаецца. Год таму адкрытыя мадэлі ствараль кароткія кліпы нізкай раздзяляльнасці з відавочнымі артэфактамі. Сёння 2B параметрычная мадэль на спажывецкім абсталяванні генеруе 10-секундныя HD відэа, якія здаваліся немагчымымі ў 2023 годзе.

Гонка яшчэ не скончана. Лідэры закрытага зыходнага кода, такія як Sora 2 і Runway Gen-4.5, усё яшчэ лідзіруюць у якасці, працягласці і кіраванні. Але планка павышаецца. Для многіх прымянення open-source цяпер дастаткова добрага.

Вывад

Kandinsky 5.0 можа не ўзначальваць кожны бенчмарк, але ён паспяхова справіўся там, дзе гэта найважней: запуск сапраўднай генерацыі відэа на абсталяванні, якім валодаюць сапраўдныя людзі, пад ліцэнзіяй, якая дазваляе сапраўднае камерцыйнае выкарыстанне. У гонцы па дэмакратызацыі AI відэа расійская каманда толькі што перасунула фінішную лінію бліжэй.

Для распрацоўшчыкаў, якія даследуюць генерацыю відэа з адкрытым зыходным кодам, Kandinsky 5.0 заслугоўвае месца ў вашым кароткім спісе.

Гэты артыкул быў карысны?

Alexis

Alexis

Інжынер ШІ

Інжынер ШІ з Лазаны, які спалучае глыбіню даследаванняў з практычнымі інавацыямі. Дзеліць час паміж архітэктурамі мадэляў і альпійскімі вяршынямі.

Звязаныя артыкулы

Працягвайце даследаванне з гэтымі звязанымі допісамі

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

Kandinsky 5.0: адказ Расіі з адкрытым зыходным кодам на генерацыю відэа з дапамогай AI