Meta Pixel
AlexisAlexis
6 min read
1066 kelmiet

Kandinsky 5.0: It-Tweġiba Open-Source tar-Russja għall-Ġenerazzjoni ta' Vidjow bl-AI

Kandinsky 5.0 iġib ġenerazzjoni ta' vidjow ta' 10 sekondi fuq GPUs tal-konsumatur bil-liċenzja Apache 2.0. Nesploraw kif l-attenzjoni NABLA u l-flow matching jagħmlu dan possibbli.

Kandinsky 5.0: It-Tweġiba Open-Source tar-Russja għall-Ġenerazzjoni ta' Vidjow bl-AI
Il-ġeografija tal-innovazzjoni fl-AI tkompli tinbidel. Filwaqt li l-laboratorji Amerikani jiġru wara mudelli dejjem akbar u l-kumpaniji Ċiniżi jiddominaw il-leaderboard open-source, tim Russu ħareġ bil-kwiet dak li jista' jkun l-aktar ġeneratur ta' vidjow AI aċċessibbli s'issa: Kandinsky 5.0.

Il-Pajsaġġ tal-Vidjow Open-Source Jinbidel

Meta ByteDance ħarġu l-mudell tal-fehim tal-vidjow tagħhom open-source u Tencent ħarġu HunyuanVideo, rajna l-ewwel żliezaq ta' bidla. Issa Kandinsky Lab, appoġġjat minn Sberbank, ħarġet familja sħiħa ta' mudelli li kulħadd jista' jħaddem, jimmodifika, u jikkummerċjalizza taħt il-liċenzja Apache 2.0.

10s
Tul tal-Vidjow
12GB
VRAM Minimu
Apache 2.0
Liċenzja

Dan mhux preview tar-riċerka jew API ristretta. Il-piżijiet sħaħ, il-kodiċi tat-taħriġ, u l-pipeline tal-inferenza huma disponibbli fuq GitHub u Hugging Face.

Il-Familja tal-Mudell

💡

Għal kuntest dwar l-arkitetturi tad-diffużjoni, ara d-deep dive tagħna fuq diffusion transformers.

Kandinsky 5.0 mhux mudell wieħed iżda familja ta' tlieta:

Video Lite (2B Parametri)

L-għażla ħafifa għall-hardware tal-konsumatur. Tiġġenera vidjows ta' 5 sa 10 sekondi f'riżoluzzjoni ta' 768×512, 24 fps. Taħdem fuq 12GB VRAM bl-offloading tal-memorja. Il-varjant distillat ta' 16-il pass jipproduċi klipp ta' 5 sekondi f'35 sa 60 sekonda fuq H100.

Video Pro (19B Parametri)

Il-mudell sħiħ għall-kwalità massima. Jipproduċi vidjow HD f'1280×768, 24 fps. Jeħtieġ GPUs tal-klassi datacenter iżda jagħti riżultati kompetittivi mal-alternattivi closed-source.

Mudell Image Lite ta' 6B parametru jikkomplementa l-familja għall-ġenerazzjoni ta' immaġini fissi f'riżoluzzjoni ta' 1280×768 jew 1024×1024.

Arkitettura Teknika

Id-deċiżjonijiet ta' inġinerija f'Kandinsky 5.0 jiżvelaw tim iffokat fuq il-deployment prattiku aktar milli fuq il-ġirja wara benchmarks.

Pedament: Flow Matching Minflok Diffużjoni

Il-mudelli tradizzjonali ta' diffużjoni jitgħallmu jreversu proċess ta' żieda ta' storbju pass pass. Il-flow matching jieħu approċċ differenti: jitgħallem triq diretta min-storbju għall-immaġini permezz ta' kamp ta' fluss kontinwu. Il-vantaġġi huma sinifikanti:

Vantaġġi tal-Flow Matching
Stabbiltà aħjar fit-taħriġ, konverġenza aktar mgħaġġla, u kwalità ta' ġenerazzjoni aktar prevedibbli fil-ħin tal-inferenza.
Trade-offs
Jeħtieġ disinn ta' triq b'attenzjoni. It-tim juża mogħdijiet ta' trasport ottimali li jimminimizzaw id-distanza bejn id-distribuzzjonijiet ta' storbju u dawk fil-mira.

NABLA: Nagħmlu Vidjows Twal Possibbli

L-innovazzjoni vera hi NABLA, qasir għal Neighborhood Adaptive Block-Level Attention. L-attenzjoni transformer standard tiskala b'mod kwadratiku mat-tul tas-sekwenza. Għall-vidjow, dan huwa kataklizmiku. Klipp ta' 10 sekondi b'24 fps fih 240 frame, kull waħda b'eluf ta' patches spazjali. Attenzjoni sħiħa fuq kollha tkun komputazzjonalment impossibbli.

NABLA jindirizza dan permezz ta' patterns ta' attenzjoni rari. Minflok ma tattendi għal kull patch f'kull frame, tiffoka l-komputazzjoni fuq:

  1. Viċinati spazjali lokali fi ħdan kull frame
  2. Ġirien temporali fuq frames adjaċenti
  3. Ankri globali mitgħallma għal koerenża fit-tul

Ir-riżultat huwa skalazzjoni kważi lineari mat-tul tal-vidjow minflok kwadratika. Dan huwa dak li jagħmel il-ġenerazzjoni ta' 10 sekondi fattibbli fuq hardware tal-konsumatur.

💡

Għall-paragun, il-biċċa l-kbira tal-mudelli kompetittivi jitħabtu ma' vidjows itwal minn 5 sekondi mingħajr hardware speċjalizzat.

Mibnija fuq HunyuanVideo

Minflok ma jaħarreġ kollox mill-bidu, Kandinsky 5.0 jadotta l-3D VAE mill-proġett HunyuanVideo ta' Tencent. Dan l-encoder-decoder jimmaniġġja t-traduzzjoni bejn l-ispazju tal-pixels u l-ispazju latent kompatt fejn il-proċess ta' diffużjoni jopera.

Il-fehim tat-test ġej minn Qwen2.5-VL, mudell tal-vista-lingwa, kombinat ma' embeddings CLIP għall-grounding semantiku. Dan l-approċċ dual-encoder jippermetti lill-mudell jifhem kemm it-tifsira letterali kif ukoll l-istil viżwali implikat mill-prompts.

Prestazzjoni: Fejn Tinsab

It-tim jippożizzjona Video Lite bħala l-performer tal-aqwa fost il-mudelli open-source fil-klassi tal-parametri tiegħu. Il-benchmarks juru:

MudellParametriTul MassimuVRAM (5s)
Kandinsky Video Lite2B10 sekondi12GB
CogVideoX-2B2B6 sekondi16GB
Open-Sora 1.21.1B16-il sekonda18GB

Ir-rekwiżit ta' 12GB VRAM jiftaħ il-bieb għad-deployment fuq karti RTX 3090 u 4090 tal-konsumatur, pass sinifikanti fl-aċċessibbiltà.

Il-paragonijiet tal-kwalità huma aktar diffiċli biex jikkwantifikaw. Ir-rapporti tal-utenti jissuġġerixxu li Kandinsky jipproduċi moviment aktar konsistenti minn CogVideoX iżda jibqa' lura minn HunyuanVideo fil-fotorealiżmu. Il-mudell distillat ta' 16-il pass jissagrifika ftit dettalji fini għall-veloċità, trade-off li jaħdem tajjeb għall-prototyping iżda jista' ma jissodisfax il-ħtiġijiet tal-produzzjoni finali.

Tħaddem Kandinsky Lokalment

Il-proġett jipprovdi nodes ComfyUI u scripts standalone. Workflow bażiku ta' test-għal-vidjow:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Għal karti ta' 12GB
 
video = model.generate(
    prompt="Lag tal-muntanja fil-għodwa, ċpar jitla' mill-ilma kwiet",
    num_frames=120,  # 5 sekondi b'24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

L-offloading tal-memorja jċaqlaq il-piżijiet tal-mudell bejn CPU u GPU waqt l-inferenza. Dan jiskambja l-veloċità għall-aċċessibbiltà, jippermetti mudelli akbar iħaddmu fuq karti iżgħar.

Il-Konnessjoni ta' Sberbank

Kandinsky Lab topera taħt Sber AI, id-diviżjoni tal-intelliġenza artifiċjali ta' Sberbank, l-akbar bank tar-Russja. Dan l-appoġġ jispjega r-riżorsi sostanzjali wara l-proġett: taħriġ multi-stadju fuq data proprjetarja, taħriġ ta' wara bir-reinforcement learning, u l-isforz ta' inġinerija biex toħroġ pipeline ta' produzzjoni kompluta open-source.

Il-kuntest ġeopolitiku jżid kumplessità. L-iżviluppaturi tal-Punent jistgħu jiffaċċjaw pressjoni istituzzjonali biex jevitaw mudelli ta' oriġini Russa. Il-liċenzja Apache 2.0 hi ċara legalment, iżda l-politiki organizzattivi jvarjaw. Għall-iżviluppaturi individwali u l-istudji iżgħar, il-kalkolu huwa aktar sempliċi: teknoloġija tajba hi teknoloġija tajba.

⚠️

Dejjem ivverifika l-liċenzjar u l-konformità tal-esportazzjoni għall-ġurisdizzjoni speċifika tiegħek u l-każ tal-użu.

Applikazzjonijiet Prattiċi

It-tul ta' 10 sekondi u r-rekwiżiti tal-hardware tal-konsumatur jiftu każijiet ta' użu speċifiċi:

🎬

Kontenut Soċjali

Vidjow ta' forma qasira għal TikTok, Reels, u Shorts. Iterazzjoni mgħaġġla mingħajr spejjeż tal-API.
🎨

Viżwalizzazzjoni tal-Kunċett

Id-diretturi u l-produtturi jistgħu jagħmlu prototipi ta' xeni qabel produzzjoni għalja.
🔧

Taħriġ Personalizzat

Il-liċenzjar Apache 2.0 jippermetti fine-tuning fuq datasets proprjetarji. Ibni mudelli speċjalizzati għad-dominju tiegħek.
📚

Riċerka

Aċċess sħiħ għall-piżijiet u l-arkitettura jippermetti studju akkademiku ta' tekniki ta' ġenerazzjoni ta' vidjow.

Ħarsa 'l Quddiem

Kandinsky 5.0 tirrappreżenta tendenża aktar wiesgħa: il-gap bejn il-ġenerazzjoni ta' vidjow open u closed-source qed jonqos. Sena ilu, il-mudelli open ipproduċew klipps qosra, b'riżoluzzjoni baxxa b'artifiċji ovvji. Illum, mudell ta' 2B parametru fuq hardware tal-konsumatur jiġġenera vidjow HD ta' 10 sekondi li kien jidher impossibbli fl-2023.

It-tellieqa mhux lesta. Il-mexxejja closed-source bħal Sora 2 u Runway Gen-4.5 għadhom fil-quddiem fil-kwalità, it-tul, u l-kontrollabbiltà. Iżda l-bażi qed titla'. Għal ħafna applikazzjonijiet, open-source issa hija tajba biżżejjed.

Il-Konklużjoni

Kandinsky 5.0 jista' ma jkunx fil-quċċata ta' kull benchmark, iżda jirnexxielu fejn jimporta l-aktar: iħaddem ġenerazzjoni ta' vidjow vera fuq hardware li nies veri għandhom, taħt liċenzja li tippermetti użu kummerċjali veru. Fit-tellieqa biex id-demokratizzazzjoni tal-vidjow AI, it-tim Russu diġà ċaqlaq il-linja tal-għeluq aktar viċin.

Għall-iżviluppaturi li jesploraw ġenerazzjoni ta' vidjow open-source, Kandinsky 5.0 tistħoqqilha post fuq il-lista qasira tiegħek.

Dan l-artiklu kien utli?

Alexis

Alexis

Inġinier AI

Inġinier AI minn Lausanne li jgħaqqad riċerka profonda ma' innovazzjoni prattika. Jaqsam iż-żmien bejn arkitetturi tal-mudelli u l-qċaċet Alpini.

Artikli Relatati

Kompli esplora b'dawn il-postijiet relatati

Għoġbok dan l-artiklu?

Skopri aktar għarfien u żomm ruħek aġġornat bl-aħħar kontenut tagħna.

Kandinsky 5.0: It-Tweġiba Open-Source tar-Russja għall-Ġenerazzjoni ta' Vidjow bl-AI