Kandinsky 5.0: opið svar Rússlands við myndbandsgerð gervigreindar
Kandinsky 5.0 færir 10 sekúndna myndbandsgerð á neytenda-GPU með Apache 2.0 leyfi. Við skoðum hvernig NABLA athygli og flæðisamsvörun gera þetta mögulegt.

Opið myndbandslandslag breytist
Þegar ByteDance opnaði skilningslíkan sitt fyrir myndböndum og Tencent gaf út HunyuanVideo, sáum við fyrstu skjálftana í breytingu. Nú hefur Kandinsky Lab, með stuðningi Sberbank, gefið út heila fjölskyldu líkana sem allir geta keyrt, breytt og nýtt í viðskiptum undir Apache 2.0 leyfinu.
Þetta er ekki rannsóknarforútgáfa eða takmarkað API. Fullt vægi, þjálfunarkóði og ályktunarleiðsla eru fáanleg á GitHub og Hugging Face.
Líkanafjölskyldan
Fyrir samhengi um dreifingarhönnun, sjá djúpköfun okkar í dreifingaumbreytingar.
Kandinsky 5.0 er ekki eitt líkan heldur fjölskylda þriggja:
Video Lite (2B breytur)
Létti kosturinn fyrir neytendavélbúnað. Framleiðir 5 til 10 sekúndna myndskeið á 768×512 upplausn, 24 fps. Keyrir á 12GB VRAM með minniflutningi. 16-skrefa eimað afbrigði framleiðir 5 sekúndna klipp á 35 til 60 sekúndum á H100.
Video Pro (19B breytur)
Fullkomna líkanið fyrir hámarks gæði. Framleiðir HD myndskeið á 1280×768, 24 fps. Krefst gagnaseturs-GPU en skilar árangri sem keppir við lokaðar lausnir.
6B breyta Image Lite líkan klárar fjölskylduna fyrir kyrrmyndagerð á 1280×768 eða 1024×1024 upplausn.
Tæknileg hönnun
Verkfræðilegar ákvarðanir í Kandinsky 5.0 sýna teymi sem einbeitir sér að hagnýtri uppsetningu frekar en að elta viðmiðanir.
Grunnur: flæðisamsvörun umfram dreifingu
Hefðbundin dreifingarlíkön læra að snúa við hávaðaferli skref fyrir skref. Flæðisamsvörun tekur aðra nálgun: það lærir beina leið frá hávaða að mynd í gegnum samfellt flæðissvið. Kostir eru umtalsverðir:
NABLA: gera löng myndskeið möguleg
Raunveruleg nýjung er NABLA, skammstöfun fyrir Neighborhood Adaptive Block-Level Attention. Staðlað umbreytingarathygli stækkar í ferningi með raðarlengd. Fyrir myndskeið er þetta hamfaravaldandi. 10 sekúndna klipp á 24 fps inniheldur 240 ramma, hver með þúsundum rýmisflísa. Full athygli á öllum þeim er reikningslega óframkvæmanleg.
NABLA leysir þetta með dreifðum athyglimynstrum. Frekar en að gefa gaum að öllum flísum í öllum römmum, einbeitir það útreikningi að:
- Staðbundnum rýmisgrennd innan hvers ramma
- Tímagrennd yfir aðliggjandi ramma
- Lærðum alþjóðlegum akkeri fyrir langtímasamhengi
Niðurstaðan er nær línuleg stækkun með lengd myndskeiðs í stað fernings. Þetta er það sem gerir 10 sekúndna framleiðslu framkvæmanlega á neytendavélbúnaði.
Til samanburðar eiga flest samkeppnislíkön í erfiðleikum með myndskeið lengri en 5 sekúndur án sérhæfðs vélbúnaðar.
Byggt á HunyuanVideo
Frekar en að þjálfa allt frá grunni, tekur Kandinsky 5.0 upp 3D VAE frá HunyuanVideo verkefni Tencent. Þessi kóðari-afkóðari sér um þýðingu milli punktarýmis og þétta leynirýmisins þar sem dreifingarvinnslur virka.
Textaskilningur kemur frá Qwen2.5-VL, sjón-tungumállíkani, ásamt CLIP innfellingu fyrir merkingargrunn. Þessi tvöfaldi kóðaranálgun gerir líkaninu kleift að skilja bæði bókstaflega merkingu og sjónræna stíl sem bendir til í fyrirmælum.
Afköst: hvar stendur það
Teymið staðsetur Video Lite sem besta frammistöðuna meðal opinna líkana í sínum breytuflokkum. Viðmið sýna:
| Líkan | Breytur | Hámarkslengd | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 sekúndur | 12GB |
| CogVideoX-2B | 2B | 6 sekúndur | 16GB |
| Open-Sora 1.2 | 1.1B | 16 sekúndur | 18GB |
12GB VRAM krafan opnar dyrnar að uppsetningu á neytenda RTX 3090 og 4090 kortum, mikilvægur aðgengilegur áfangi.
Gæðasamanburður er erfiðari að mæla. Notendaskýrslur benda til þess að Kandinsky framleiði stöðugri hreyfingu en CogVideoX en sé á eftir HunyuanVideo í ljósmyndaraunsæi. 16-skrefa eimað líkan fórnar smáatriðum fyrir hraða, málamiðlun sem virkar vel fyrir frumgerðir en uppfyllir kannski ekki endanlegar framleiðsluþarfir.
Keyra Kandinsky á staðnum
Verkefnið býður upp á ComfyUI hnúta og sjálfstæð skriftur. Grunnvinnuflæði texta í myndskeið:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Fyrir 12GB kort
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Minniflutningur færir líkanvægi á milli CPU og GPU við ályktun. Þetta skiptir á hraða fyrir aðgengi, gerir stærri líkönum kleift að keyra á minni kortum.
Sberbank tengsl
Kandinsky Lab starfar undir Sber AI, gervigreindardeildinni hjá Sberbank, stærsta banka Rússlands. Þessi stuðningur útskýrir umtalsvert fjármagn á bak við verkefnið: fjölþrepa þjálfun á séreignargögnum, styrkingarnám eftir þjálfun og verkfræðilegar viðleitni til að opna heildar framleiðsluleiðslu.
Landfræðipólitískt samhengi bætir við flækjustigi. Vestræn forritara gætu staðið frammi fyrir stofnanþrýstingi til að forðast rússneskt líkön. Apache 2.0 leyfið er lagalega skýrt, en stefnur fyrirtækja eru mismunandi. Fyrir einstaka forritara og minni stúdíó er útreikningurinn einfaldari: góð tækni er góð tækni.
Staðfestu alltaf leyfisveitingu og útflutningssamræmi fyrir tiltekið lögsagnarumdæmi þitt og notkunartilfelli.
Hagnýt notkun
10 sekúndna lengd og neytendavélbúnaðarkröfur opna ákveðin notkunartilfelli:
Samfélagsefni
Hugmyndamyndgerð
Sérsniðin þjálfun
Rannsóknir
Að líta fram á við
Kandinsky 5.0 táknar víðtækari þróun: bilið milli opinnar og lokaðrar myndskeiðsgerðar minnkar. Fyrir ári framleiddu opin líkön stutt klipp í lágri upplausn með augljósum gervigripum. Í dag framleiðir 2B breyta líkan á neytendavélbúnaði 10 sekúndna HD myndskeið sem hefði virst ómögulegt árið 2023.
Keppnin er ekki búin. Lokaðir leiðtogar eins og Sora 2 og Runway Gen-4.5 leiða enn í gæðum, lengd og stjórn. En grunnurinn er að hækka. Fyrir mörg forrit eru opnar lausnir nú nógu góðar.
Auðlindir
Niðurstaðan
Kandinsky 5.0 toppar kannski ekki öll viðmið, en það nær árangri þar sem það skiptir mestu máli: keyra raunverulega myndskeiðsgerð á vélbúnaði sem raunverulegt fólk á, undir leyfi sem leyfir raunverulega viðskiptanotkun. Í keppninni um að lýðræðisvæða AI myndskeið hefur rússneska teymið nýlega fært marklínuna nær.
Fyrir forritara sem kanna opna myndskeiðsgerð á Kandinsky 5.0 skilið sæti á stuttlistanum þínum.
Var þessi grein gagnleg?

Alexis
GervigreindartæknirGervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.
Tengdar greinar
Haltu áfram að kanna með þessum tengdu færslum

Runway GWM-1: Almennt heimslíkan sem hermir veruleikann í rauntíma
GWM-1 frá Runway markar hugmyndafræðilega breytingu frá myndbandsgerð til heimshermunar. Kynntu þér hvernig þetta sjálflæga líkan skapar könnunarumhverfi, raunveruleikatengda persónur og hermun fyrir vélmennaþjálfun.

YouTube setur Veo 3 Fast inn i Shorts: Opin gervigreind-myndbandagerð fyrir 2,5 milljarða notenda
Google samhefur Veo 3 Fast gerð sina beint inn i YouTube Shorts og býður upp á opin texta-til-myndbands myndun með hljóði fyrir myndbandshöfunda um allan heim. Hér er hvað þetta þýðir fyrir vettvanginn og aðgengi að gervigreind-myndböndum.

Myndbandslengdarlikan: Naesti arangur eftir LLM og gervigreppahjalpara
Heimslikan kenna gervigreind ad skilja efnislegan veruleika, sem gerir velmennum kleift ad skipuleggja adgerdir og herma eftir nidurstödum adur en eitt hreyfivelarkerfi hreyfist.