Kandinsky 5.0: Krievijas atklātā koda atbilde AI video ģenerēšanai

AI inovācijas ģeogrāfija turpina mainīties. Kamēr Amerikas laboratorijas dzenās arvien lielākus modeļus un Ķīnas uzņēmumi dominē atklātā koda reitingos, Krievijas komanda klusi ir izlaidusi to, kas varētu būt vispieejamākais AI video ģenerators līdz šim: Kandinsky 5.0.

Atklātā koda video ainava mainās

Kad ByteDance padarīja savu video izpratnes modeli par atklāto kodu un Tencent izlaida HunyuanVideo, mēs redzējām pirmās pārmaiņu pazīmes. Tagad Kandinsky Lab, ko atbalsta Sberbank, ir izlaidis pilnu modeļu saimi, ko ikviens var palaist, modificēt un komercializēt Apache 2.0 licences ietvaros.

10s

Video ilgums

12GB

Min VRAM

Apache 2.0

Licence

Šis nav pētniecības priekšskatījums vai ierobežots API. Pilni svari, apmācības kods un secinājumu konveijers ir pieejami GitHub un Hugging Face.

Modeļu saime

💡

Kontekstam par difūzijas arhitektūrām skatiet mūsu detalizēto analīzi par difūzijas transformatoriem.

Kandinsky 5.0 nav viens modelis, bet trīs modeļu saime:

Video Lite (2B parametri)

Vieglā opcija patērētāju aparatūrai. Ģenerē 5 līdz 10 sekunžu video 768×512 izšķirtspējā, 24 fps. Darbojas uz 12GB VRAM ar atmiņas pārvietošanu. Destilētais 16-soļu variants izveido 5 sekunžu klipu 35 līdz 60 sekundēs uz H100.

Video Pro (19B parametri)

Pilnais modelis maksimālai kvalitātei. Izveido HD video 1280×768 izšķirtspējā, 24 fps. Nepieciešami datu centra klases GPU, bet sniedz rezultātus, kas konkurē ar slēgtā koda alternatīvām.

6B parametru Image Lite modelis papildina saimi nekustīgu attēlu ģenerēšanai 1280×768 vai 1024×1024 izšķirtspējā.

Tehniskā arhitektūra

Inženiertehniskie lēmumi Kandinsky 5.0 atklāj komandu, kas koncentrējas uz praktisku izvietošanu, nevis salīdzinājumu rādītāju tīšanu.

Pamats: Flow Matching difūzijas vietā

Tradicionālie difūzijas modeļi mācās soli pa solim atgriezt trokšņa pievienošanas procesu. Flow matching izmanto atšķirīgu pieeju: tas mācās tiešu ceļu no trokšņa uz attēlu, izmantojot nepārtrauktu plūsmas lauku. Priekšrocības ir būtiskas:

✓Flow Matching priekšrocības

Labāka apmācības stabilitāte, ātrāka konverģence un paredzamāka ģenerēšanas kvalitāte secinājumu laikā.

✗Kompromisi

Nepieciešams rūpīgs ceļa dizains. Komanda izmanto optimālus transporta ceļus, kas minimizē attālumu starp trokšņa un mērķa sadalījumiem.

NABLA: Garu video iespējošana

Patiesā inovācija ir NABLA, saīsinājums no Neighborhood Adaptive Block-Level Attention. Standarta transformatora uzmanība mērogosies kvadrātiski ar secības garumu. Video gadījumā tas ir katastrofāli. 10 sekunžu klips ar 24 fps satur 240 kadrus, katrs ar tūkstošiem telpisko gabalu. Pilnīga uzmanība visiem ir skaitļošanas ziņā neiespējama.

NABLA to risina, izmantojot retus uzmanības modeļus. Tā vietā, lai pievērstu uzmanību katram gabalam katrā kadrā, tas koncentrē aprēķinu uz:

Vietējās telpiskās apkārtnes katra kadra iekšienē
Laika kaimiņi blakus esošos kadros
Iemācīti globālie enkuri tāla attāluma saskaņotībai

Rezultāts ir gandrīz lineāra mērogošana ar video garumu kvadrātiskās vietā. Tas ir tas, kas padara 10 sekunžu ģenerēšanu iespējamu uz patērētāju aparatūras.

💡

Salīdzinājumam, lielākā daļa konkurējošo modeļu cīnās ar video garākiem par 5 sekundēm bez specializētas aparatūras.

Veidošana uz HunyuanVideo bāzes

Tā vietā, lai apmācītu visu no nulles, Kandinsky 5.0 pieņem 3D VAE no Tencent HunyuanVideo projekta. Šis kodētājs-dekodētājs apstrādā tulkošanu starp pikseļu telpu un kompakto latento telpu, kur darbojas difūzijas process.

Teksta izpratne nāk no Qwen2.5-VL, redzes-valodas modeļa, kombinējot ar CLIP ieguldījumiem semantiskai pamatošanai. Šī duālā kodētāja pieeja ļauj modelim saprast gan burtisku nozīmi, gan vizuālo stilu, ko norāda uzvednēm.

Veiktspēja: kur tas stāv

Komanda pozicionē Video Lite kā labāko izpildītāju starp atklātā koda modeļiem savā parametru klasē. Salīdzinājumu rādītāji rāda:

Modelis	Parametri	Maks. ilgums	VRAM (5s)
Kandinsky Video Lite	2B	10 sekundes	12GB
CogVideoX-2B	2B	6 sekundes	16GB
Open-Sora 1.2	1.1B	16 sekundes	18GB

12GB VRAM prasība atver durvis uz izvietošanu patērētāju RTX 3090 un 4090 kartēs, būtisks pieejamības atskaites punkts.

Kvalitātes salīdzinājumus ir grūtāk kvantificēt. Lietotāju ziņojumi liecina, ka Kandinsky rada konsekvantāku kustību nekā CogVideoX, bet atpaliek no HunyuanVideo fotoreālisma. 16-soļu destilētais modelis upurē dažas smalkas detaļas ātruma labā, kompromiss, kas labi darbojas prototipēšanai, bet var neapmierināt galīgās ražošanas vajadzības.

Kandinsky lokālā palaišana

Projekts nodrošina ComfyUI mezglus un atsevišķus skriptus. Pamata teksta-uz-video darbplūsma:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GB kartēm
 
video = model.generate(
    prompt="Kalnu ezers saullēktā, migla ceļas no klusā ūdens",
    num_frames=120,  # 5 sekundes ar 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Atmiņas pārvietošana pārvieto modeļa svarus starp CPU un GPU secinājumu laikā. Tas maina ātrumu pret pieejamību, ļaujot lielākiem modeļiem darboties uz mazākām kartēm.

Sberbank savienojums

Kandinsky Lab darbojas zem Sber AI, Krievijas lielākās bankas Sberbank mākslīgā intelekta nodaļas. Šis atbalsts izskaidro būtiskos resursus projekta aizmugurē: vairāku posmu apmācību uz īpašuma datiem, stiprinājuma mācīšanās pēcapmācību un inženiertehnisko centienus, lai padarītu pilnu ražošanas konveijeru par atklāto kodu.

Ģeopolitiskais konteksts pievieno sarežģītību. Rietumu izstrādātāji var saskarties ar institucionālu spiedienu izvairīties no Krievijas izcelsmes modeļiem. Apache 2.0 licence ir juridiski skaidra, bet organizāciju politika atšķiras. Individuāliem izstrādātājiem un mazākām studijām aprēķins ir vienkāršāks: laba tehnoloģija ir laba tehnoloģija.

⚠️

Vienmēr pārbaudiet licencēšanu un eksporta atbilstību jūsu konkrētajai jurisdikcijai un lietošanas gadījumam.

Praktiskie pielietojumi

10 sekunžu ilgums un patērētāju aparatūras prasības atver konkrētus lietošanas gadījumus:

🎬

Sociālais saturs

Īsas formas video TikTok, Reels un Shorts. Ātra iterācija bez API izmaksām.

🎨

Koncepcijas vizualizācija

Režisori un producenti var prototipēt ainas pirms dārgas ražošanas.

🔧

Pielāgota apmācība

Apache 2.0 licencēšana ļauj precīzu uzstādīšanu uz īpašuma datu kopām. Veidojiet specializētus modeļus savam domēnam.

📚

Pētniecība

Pilnīga piekļuve svariem un arhitektūrai ļauj akadēmisku pētījumu par video ģenerēšanas tehnikām.

Skatoties uz priekšu

Kandinsky 5.0 pārstāv plašāku tendenci: plaisa starp atklāto un slēgto kodu video ģenerēšanai šaurinās. Pirms gada atklātie modeļi ražoja īsus, zemas izšķirtspējas klipus ar acīmredzamiem artefaktiem. Šodien 2B parametru modelis uz patērētāju aparatūras ģenerē 10 sekunžu HD video, kas šķistu neiespējams 2023. gadā.

Sacensība nav beigusies. Slēgtā koda līderi kā Sora 2 un Runway Gen-4.5 joprojām vada kvalitātē, ilgumā un vadāmībā. Bet pamats paaugstinās. Daudziem pielietojumiem atklātais kods tagad ir pietiekami labs.

Resursi

Secinājums

Kandinsky 5.0 var neuzvarēt katru salīdzinājuma rādītāju, bet tas gūst panākumus tur, kur tas ir vissvarīgāk: palaiž reālu video ģenerēšanu uz aparatūras, kas pieder īstiem cilvēkiem, ar licenci, kas ļauj īstu komerciālu izmantošanu. AI video demokratizācijas sacensībā Krievijas komanda tikko pārvietoja finišu tuvāk.

Izstrādātājiem, kas pēta atklātā koda video ģenerēšanu, Kandinsky 5.0 ir pelnījusi vietu jūsu īsajā sarakstā.