Kandinsky 5.0: Venemaa avatud lähtekoodiga vastus AI videoloomele

AI innovatsiooni geograafia jätkab muutumist. Samal ajal kui Ameerika laborid jahtivad järjest suuremaid mudeleid ja Hiina ettevõtted domineerivad avatud lähtekoodiga edetabelis, on Vene meeskond vaikselt välja andnud selle, mis võib olla kõige kättesaadavam AI videogeneraator seni: Kandinsky 5.0.

Avatud lähtekoodiga video maastiku muutus

Kui ByteDance avaldas oma videomõistmismudeli avatud lähtekoodina ja Tencent avaldas HunyuanVideo, nägime muutuse esimesi märke. Nüüd on Kandinsky Lab, Sberbanki toel, välja andnud täieliku mudeliperekonna, mida igaüks saab käitada, muuta ja kommertsiaalselt kasutada Apache 2.0 litsentsi all.

10s

Video kestus

12GB

Min VRAM

Apache 2.0

Litsents

See ei ole teaduslik eelvaade ega piiratud API. Täielikud kaalud, treeningkood ja järelduskonveier on saadaval GitHubis ja Hugging Face'is.

Mudeliperekond

💡

Difusioonarhitektuuride konteksti jaoks vaadake meie põhjalikku analüüsi difusioontransformaatorite kohta.

Kandinsky 5.0 ei ole üksik mudel, vaid kolme mudeli perekond:

Video Lite (2B parameetrit)

Kerge valik tarbijariistvarale. Genereerib 5 kuni 10-sekundilisi videoid resolutsioonil 768×512, 24 fps. Töötab 12GB VRAM-iga mälu üleviimisega. Destilleeritud 16-sammune variant toodab 5-sekundilise klipi 35 kuni 60 sekundiga H100-l.

Video Pro (19B parameetrit)

Täismudel maksimaalse kvaliteedi jaoks. Väljastab HD video resolutsioonil 1280×768, 24 fps. Nõuab andmekeskuse klassi GPU-sid, kuid pakub tulemusi, mis võistlevad suletud lähtekoodiga alternatiividega.

6B parameetriga Image Lite mudel täiendab perekonda paigalseisvate piltide loomiseks resolutsioonil 1280×768 või 1024×1024.

Tehniline arhitektuur

Kandinsky 5.0 insenerilahendused näitavad meeskonda, kes keskendub praktilisele kasutuselevõtule, mitte võrdlusnäitajate jahtimisele.

Alus: Flow Matching difusiooni asemel

Traditsioonilised difusioonmudelid õpivad samm-sammult pöörduma müra lisamise protsessi. Flow matching võtab erineva lähenemise: see õpib otseteed mürast pildini pideva voovälja kaudu. Eelised on märkimisväärsed:

✓Flow Matching eelised

Parem treeningstabiilsus, kiirem koondamine ja ennustatavam genereerimise kvaliteet järelduse ajal.

✗Kompromissid

Nõuab hoolikat tee kujundamist. Meeskond kasutab optimaalseid transporditeid, mis minimeerivad kaugust müra ja sihtjaotuste vahel.

NABLA: Pikkade videote võimalikuks tegemine

Tegelik innovatsioon on NABLA, lühend Neighborhood Adaptive Block-Level Attention. Standardne transformaatori tähelepanu skaleerub ruudustena järjestuse pikkusega. Video puhul on see katastroofiline. 10-sekundiline klipp 24 fps-ga sisaldab 240 kaadrit, igaüks tuhandete ruumiliste tükkidega. Täielik tähelepanu kõigi suhtes on arvutuslikult võimatu.

NABLA käsitleb seda hõredate tähelepanumustrite kaudu. Selle asemel, et pöörata tähelepanu igale tükile igas kaadris, keskendub see arvutuse:

Kohalikud ruumilised naabruskonnad iga kaadri sees
Ajalised naabrid külgnevate kaadrite vahel
Õpitud globaalsed ankrud pika ulatusega sidususe jaoks

Tulemuseks on peaaegu lineaarne skaleerimine video pikkusega ruudustena asemel. See on see, mis teeb 10-sekundilise genereerimise võimalikuks tarbijariistvaral.

💡

Võrdluseks, enamik konkureerivaid mudeleid võitlevad videotega, mis on pikemad kui 5 sekundit, ilma spetsialiseeritud riistvarata.

HunyuanVideo põhjal ehitamine

Selle asemel, et treenida kõike nullist, võtab Kandinsky 5.0 kasutusele 3D VAE Tencenti HunyuanVideo projektist. See enkooderdekoodri haldab tõlget piksliruumi ja kompaktse latentse ruumi vahel, kus difusioonprotsess toimib.

Teksti mõistmine pärineb Qwen2.5-VL-ist, nägemis-keele mudelist, kombineerituna CLIP põimingutega semantiliseks põhjendamiseks. See topeltenkoodri lähenemine võimaldab mudelil mõista nii sõnasõnalist tähendust kui ka visuaalset stiili, mida vihjed viitavad.

Jõudlus: kus see seisab

Meeskond positsioneerib Video Lite'i parima sooritajana avatud lähtekoodiga mudelite hulgas oma parameetrite klassis. Võrdlusnäitajad näitavad:

Mudel	Parameetrid	Max kestus	VRAM (5s)
Kandinsky Video Lite	2B	10 sekundit	12GB
CogVideoX-2B	2B	6 sekundit	16GB
Open-Sora 1.2	1.1B	16 sekundit	18GB

12GB VRAM nõue avab ukse kasutuselevõtuks tarbijaklassi RTX 3090 ja 4090 kaartidel, oluline kättesaadavuse tähis.

Kvaliteedi võrdlused on raskem kvantifitseerida. Kasutajate aruanded viitavad, et Kandinsky toodab järjepidevamaid liikumisi kui CogVideoX, kuid jääb maha HunyuanVideo fotoreaalismist. 16-sammune destilleeritud mudel ohverdab mõned peened detailid kiiruse jaoks, kompromiss, mis töötab hästi prototüüpimiseks, kuid ei pruugi rahuldada lõplikke tootmisvajadusi.

Kandinsky kohalik käitamine

Projekt pakub ComfyUI sõlmi ja eraldiseisvaid skripte. Põhiline tekstist-videosse töövoog:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GB kaartide jaoks
 
video = model.generate(
    prompt="Mägijärv koidikul, udu tõuseb vaiksest veest",
    num_frames=120,  # 5 sekundit 24fps-ga
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Mälu üleviimine liigutab mudeli kaale CPU ja GPU vahel järelduse ajal. See vahetab kiiruse kättesaadavuse vastu, võimaldades suurematel mudelitel töötada väiksematel kaartidel.

Sberbanki ühendus

Kandinsky Lab tegutseb Sber AI all, Venemaa suurima panga Sberbanki tehisintellekti divisjonis. See tugi selgitab projekti taga olevaid märkimisväärseid ressursse: mitmeosaline treening omandiandmetel, tugevdusliku õppe järeltreening ja inseneripingutus täieliku tootmiskonveieri avatud lähtekoodiga tegemiseks.

Geopoliitiline kontekst lisab keerukust. Lääne arendajad võivad kokku puutuda institutsionaalse survega vältida Vene päritolu mudeleid. Apache 2.0 litsents on juriidiliselt selge, kuid organisatsiooni poliitika varieerub. Üksikutele arendajatele ja väiksematele stuudiotele on kalkulatsioon lihtsam: hea tehnoloogia on hea tehnoloogia.

⚠️

Kontrollige alati litsentsimist ja ekspordi vastavust teie konkreetse jurisdiktsiooni ja kasutusala jaoks.

Praktilised rakendused

10-sekundiline kestus ja tarbijariistvara nõuded avavad konkreetsed kasutusjuhud:

🎬

Sotsiaalne sisu

Lühivorm video TikToki, Reelsi ja Shortsi jaoks. Kiire itereerimine ilma API kuludeta.

🎨

Kontseptsiooni visualiseerimine

Režissöörid ja produtsendid saavad prototüüpseid stseene enne kallist tootmist.

🔧

Kohandatud treening

Apache 2.0 litsentsimine võimaldab peenhäälestamist omandiandmestikul. Ehitage spetsialiseeritud mudeleid oma valdkonna jaoks.

📚

Teadus

Täielik juurdepääs kaaludele ja arhitektuurile võimaldab akadeemilist uurimist videoloomise tehnikate kohta.

Tulevikuvaade

Kandinsky 5.0 esindab laiemat trendi: lõhe avatud ja suletud lähtekoodiga videoloome vahel kitseneb. Aasta tagasi tootsid avatud mudelid lühikesi, madala resolutsiooniga klipid ilmsete vigadega. Täna genereerib 2B parameetriga mudel tarbijariistvaral 10-sekundilist HD videot, mis oleks 2023. aastal tundunud võimatu.

Võistlus ei ole läbi. Suletud lähtekoodiga liidrid nagu Sora 2 ja Runway Gen-4.5 juhivad endiselt kvaliteedis, kestuses ja juhtimises. Kuid põrand tõuseb. Paljude rakenduste jaoks on avatud lähtekood nüüd piisavalt hea.

Ressursid

Kokkuvõte

Kandinsky 5.0 ei pruugi olla iga võrdlusnäitaja tipus, kuid see õnnestub seal, kus see kõige rohkem loeb: käitab tegelikku videoloomet riistvaral, mida tegelikud inimesed omavad, litsentsi all, mis võimaldab tegelikku kaubanduslikku kasutust. AI video demokratiseerimise võistluses on Vene meeskond just viinud finišijoone lähemale.

Arendajatele, kes uurivad avatud lähtekoodiga videoloomet, väärib Kandinsky 5.0 kohta teie lühinimekirjas.