Meta Pixel
AlexisAlexis
6 min read
1035 orð

Kandinsky 5.0: opið svar Rússlands við myndbandsgerð gervigreindar

Kandinsky 5.0 færir 10 sekúndna myndbandsgerð á neytenda-GPU með Apache 2.0 leyfi. Við skoðum hvernig NABLA athygli og flæðisamsvörun gera þetta mögulegt.

Kandinsky 5.0: opið svar Rússlands við myndbandsgerð gervigreindar
Landafræði nýsköpunar í gervigreind heldur áfram að breytast. Á meðan amerísk rannsóknarstofa elta sífellt stærri líkön og kínversk fyrirtæki ráða yfir opnum hugbúnaði, hefur rússneskt teymi þegjandi gefið út það sem gæti orðið aðgengilegasti AI myndbandaframleiðandinn enn: Kandinsky 5.0.

Opið myndbandslandslag breytist

Þegar ByteDance opnaði skilningslíkan sitt fyrir myndböndum og Tencent gaf út HunyuanVideo, sáum við fyrstu skjálftana í breytingu. Nú hefur Kandinsky Lab, með stuðningi Sberbank, gefið út heila fjölskyldu líkana sem allir geta keyrt, breytt og nýtt í viðskiptum undir Apache 2.0 leyfinu.

10s
Lengd myndskeiðs
12GB
Lágmarks VRAM
Apache 2.0
Leyfi

Þetta er ekki rannsóknarforútgáfa eða takmarkað API. Fullt vægi, þjálfunarkóði og ályktunarleiðsla eru fáanleg á GitHub og Hugging Face.

Líkanafjölskyldan

💡

Fyrir samhengi um dreifingarhönnun, sjá djúpköfun okkar í dreifingaumbreytingar.

Kandinsky 5.0 er ekki eitt líkan heldur fjölskylda þriggja:

Video Lite (2B breytur)

Létti kosturinn fyrir neytendavélbúnað. Framleiðir 5 til 10 sekúndna myndskeið á 768×512 upplausn, 24 fps. Keyrir á 12GB VRAM með minniflutningi. 16-skrefa eimað afbrigði framleiðir 5 sekúndna klipp á 35 til 60 sekúndum á H100.

Video Pro (19B breytur)

Fullkomna líkanið fyrir hámarks gæði. Framleiðir HD myndskeið á 1280×768, 24 fps. Krefst gagnaseturs-GPU en skilar árangri sem keppir við lokaðar lausnir.

6B breyta Image Lite líkan klárar fjölskylduna fyrir kyrrmyndagerð á 1280×768 eða 1024×1024 upplausn.

Tæknileg hönnun

Verkfræðilegar ákvarðanir í Kandinsky 5.0 sýna teymi sem einbeitir sér að hagnýtri uppsetningu frekar en að elta viðmiðanir.

Grunnur: flæðisamsvörun umfram dreifingu

Hefðbundin dreifingarlíkön læra að snúa við hávaðaferli skref fyrir skref. Flæðisamsvörun tekur aðra nálgun: það lærir beina leið frá hávaða að mynd í gegnum samfellt flæðissvið. Kostir eru umtalsverðir:

Kostir flæðisamsvörunar
Betri þjálfunarstöðugleiki, hraðari samleitni og fyrirsjáanlegri framleiðslugæði við ályktun.
Málamiðlanir
Krefst vandaðrar leiðarhönnunar. Teymið notar ákjósanlegar flutningaleiðir sem lágmarka fjarlægð milli hávaða og markdreifingar.

NABLA: gera löng myndskeið möguleg

Raunveruleg nýjung er NABLA, skammstöfun fyrir Neighborhood Adaptive Block-Level Attention. Staðlað umbreytingarathygli stækkar í ferningi með raðarlengd. Fyrir myndskeið er þetta hamfaravaldandi. 10 sekúndna klipp á 24 fps inniheldur 240 ramma, hver með þúsundum rýmisflísa. Full athygli á öllum þeim er reikningslega óframkvæmanleg.

NABLA leysir þetta með dreifðum athyglimynstrum. Frekar en að gefa gaum að öllum flísum í öllum römmum, einbeitir það útreikningi að:

  1. Staðbundnum rýmisgrennd innan hvers ramma
  2. Tímagrennd yfir aðliggjandi ramma
  3. Lærðum alþjóðlegum akkeri fyrir langtímasamhengi

Niðurstaðan er nær línuleg stækkun með lengd myndskeiðs í stað fernings. Þetta er það sem gerir 10 sekúndna framleiðslu framkvæmanlega á neytendavélbúnaði.

💡

Til samanburðar eiga flest samkeppnislíkön í erfiðleikum með myndskeið lengri en 5 sekúndur án sérhæfðs vélbúnaðar.

Byggt á HunyuanVideo

Frekar en að þjálfa allt frá grunni, tekur Kandinsky 5.0 upp 3D VAE frá HunyuanVideo verkefni Tencent. Þessi kóðari-afkóðari sér um þýðingu milli punktarýmis og þétta leynirýmisins þar sem dreifingarvinnslur virka.

Textaskilningur kemur frá Qwen2.5-VL, sjón-tungumállíkani, ásamt CLIP innfellingu fyrir merkingargrunn. Þessi tvöfaldi kóðaranálgun gerir líkaninu kleift að skilja bæði bókstaflega merkingu og sjónræna stíl sem bendir til í fyrirmælum.

Afköst: hvar stendur það

Teymið staðsetur Video Lite sem besta frammistöðuna meðal opinna líkana í sínum breytuflokkum. Viðmið sýna:

LíkanBreyturHámarkslengdVRAM (5s)
Kandinsky Video Lite2B10 sekúndur12GB
CogVideoX-2B2B6 sekúndur16GB
Open-Sora 1.21.1B16 sekúndur18GB

12GB VRAM krafan opnar dyrnar að uppsetningu á neytenda RTX 3090 og 4090 kortum, mikilvægur aðgengilegur áfangi.

Gæðasamanburður er erfiðari að mæla. Notendaskýrslur benda til þess að Kandinsky framleiði stöðugri hreyfingu en CogVideoX en sé á eftir HunyuanVideo í ljósmyndaraunsæi. 16-skrefa eimað líkan fórnar smáatriðum fyrir hraða, málamiðlun sem virkar vel fyrir frumgerðir en uppfyllir kannski ekki endanlegar framleiðsluþarfir.

Keyra Kandinsky á staðnum

Verkefnið býður upp á ComfyUI hnúta og sjálfstæð skriftur. Grunnvinnuflæði texta í myndskeið:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Fyrir 12GB kort
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Minniflutningur færir líkanvægi á milli CPU og GPU við ályktun. Þetta skiptir á hraða fyrir aðgengi, gerir stærri líkönum kleift að keyra á minni kortum.

Sberbank tengsl

Kandinsky Lab starfar undir Sber AI, gervigreindardeildinni hjá Sberbank, stærsta banka Rússlands. Þessi stuðningur útskýrir umtalsvert fjármagn á bak við verkefnið: fjölþrepa þjálfun á séreignargögnum, styrkingarnám eftir þjálfun og verkfræðilegar viðleitni til að opna heildar framleiðsluleiðslu.

Landfræðipólitískt samhengi bætir við flækjustigi. Vestræn forritara gætu staðið frammi fyrir stofnanþrýstingi til að forðast rússneskt líkön. Apache 2.0 leyfið er lagalega skýrt, en stefnur fyrirtækja eru mismunandi. Fyrir einstaka forritara og minni stúdíó er útreikningurinn einfaldari: góð tækni er góð tækni.

⚠️

Staðfestu alltaf leyfisveitingu og útflutningssamræmi fyrir tiltekið lögsagnarumdæmi þitt og notkunartilfelli.

Hagnýt notkun

10 sekúndna lengd og neytendavélbúnaðarkröfur opna ákveðin notkunartilfelli:

🎬

Samfélagsefni

Stutt myndskeið fyrir TikTok, Reels og Shorts. Hröð endurtekning án API kostnaðar.
🎨

Hugmyndamyndgerð

Leikstjórar og framleiðendur geta gert frumgerð sviðsmynda fyrir dýra framleiðslu.
🔧

Sérsniðin þjálfun

Apache 2.0 leyfi leyfir fínstillingu á séreignargögnum. Byggðu sérhæfð líkön fyrir þitt svið.
📚

Rannsóknir

Fullur aðgangur að vægi og hönnun gerir fræðileg rannsókn á myndskeiðsgerðartækni kleift.

Að líta fram á við

Kandinsky 5.0 táknar víðtækari þróun: bilið milli opinnar og lokaðrar myndskeiðsgerðar minnkar. Fyrir ári framleiddu opin líkön stutt klipp í lágri upplausn með augljósum gervigripum. Í dag framleiðir 2B breyta líkan á neytendavélbúnaði 10 sekúndna HD myndskeið sem hefði virst ómögulegt árið 2023.

Keppnin er ekki búin. Lokaðir leiðtogar eins og Sora 2 og Runway Gen-4.5 leiða enn í gæðum, lengd og stjórn. En grunnurinn er að hækka. Fyrir mörg forrit eru opnar lausnir nú nógu góðar.

Niðurstaðan

Kandinsky 5.0 toppar kannski ekki öll viðmið, en það nær árangri þar sem það skiptir mestu máli: keyra raunverulega myndskeiðsgerð á vélbúnaði sem raunverulegt fólk á, undir leyfi sem leyfir raunverulega viðskiptanotkun. Í keppninni um að lýðræðisvæða AI myndskeið hefur rússneska teymið nýlega fært marklínuna nær.

Fyrir forritara sem kanna opna myndskeiðsgerð á Kandinsky 5.0 skilið sæti á stuttlistanum þínum.

Var þessi grein gagnleg?

Alexis

Alexis

Gervigreindartæknir

Gervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Kandinsky 5.0: opið svar Rússlands við myndbandsgerð gervigreindar