Kandinsky 5.0: Jawapan Sumber Terbuka Rusia untuk Penjanaan Video AI
Kandinsky 5.0 membawa penjanaan video 10 saat kepada GPU pengguna dengan pelesenan Apache 2.0. Kami meneroka bagaimana perhatian NABLA dan pemadanan aliran menjadikan ini mungkin.

Landskap Video Sumber Terbuka Berubah
Apabila ByteDance menjadikan model pemahaman video mereka sumber terbuka dan Tencent mengeluarkan HunyuanVideo, kita melihat gegaran pertama perubahan. Kini Kandinsky Lab, disokong oleh Sberbank, telah mengeluarkan keluarga model lengkap yang sesiapa sahaja boleh jalankan, ubah suai, dan komersialkan di bawah lesen Apache 2.0.
Ini bukan pratonton penyelidikan atau API terhad. Berat penuh, kod latihan, dan saluran paip inferens tersedia di GitHub dan Hugging Face.
Keluarga Model
Untuk konteks tentang seni bina difusi, lihat penjelasan mendalam kami tentang transformer difusi.
Kandinsky 5.0 bukan model tunggal tetapi keluarga tiga:
Video Lite (2B Parameter)
Pilihan ringan untuk perkakasan pengguna. Menjana video 5 hingga 10 saat pada resolusi 768x512, 24 fps. Berjalan pada 12GB VRAM dengan pemunggahan memori. Varian terdistil 16 langkah menghasilkan klip 5 saat dalam 35 hingga 60 saat pada H100.
Video Pro (19B Parameter)
Model penuh untuk kualiti maksimum. Mengeluarkan video HD pada 1280x768, 24 fps. Memerlukan GPU kelas pusat data tetapi memberikan hasil yang kompetitif dengan alternatif sumber tertutup.
Model Image Lite 6B parameter melengkapkan keluarga untuk penjanaan imej pegun pada resolusi 1280x768 atau 1024x1024.
Seni Bina Teknikal
Keputusan kejuruteraan dalam Kandinsky 5.0 mendedahkan pasukan yang fokus pada penggunaan praktikal berbanding mengejar penanda aras.
Asas: Pemadanan Aliran Berbanding Difusi
Model difusi tradisional belajar membalikkan proses penambahan hingar langkah demi langkah. Pemadanan aliran mengambil pendekatan berbeza: ia mempelajari laluan langsung dari hingar ke imej melalui medan aliran berterusan. Kelebihannya adalah signifikan:
NABLA: Menjadikan Video Panjang Mungkin
Inovasi sebenar adalah NABLA, singkatan untuk Neighborhood Adaptive Block-Level Attention. Perhatian transformer standard berskala secara kuadratik dengan panjang urutan. Untuk video, ini adalah bencana. Klip 10 saat pada 24 fps mengandungi 240 bingkai, setiap satu dengan ribuan tampalan spatial. Perhatian penuh merentasi semuanya adalah tidak dapat dikendalikan secara pengiraan.
NABLA menangani ini melalui corak perhatian jarang. Daripada memberi perhatian kepada setiap tampalan dalam setiap bingkai, ia memfokuskan pengiraan pada:
- Kejiranan spatial tempatan dalam setiap bingkai
- Jiran temporal merentasi bingkai bersebelahan
- Sauh global yang dipelajari untuk koherensi jarak jauh
Hasilnya adalah penskalaan hampir linear dengan panjang video berbanding kuadratik. Inilah yang menjadikan penjanaan 10 saat boleh dilaksanakan pada perkakasan pengguna.
Untuk perbandingan, kebanyakan model pesaing bergelut dengan video lebih panjang daripada 5 saat tanpa perkakasan khusus.
Membina di atas HunyuanVideo
Daripada melatih segala-galanya dari awal, Kandinsky 5.0 mengambil VAE 3D dari projek HunyuanVideo Tencent. Pengekod-penyahkod ini mengendalikan terjemahan antara ruang piksel dan ruang laten padat di mana proses difusi beroperasi.
Pemahaman teks datang dari Qwen2.5-VL, model bahasa-penglihatan, digabungkan dengan penyisipan CLIP untuk asas semantik. Pendekatan pengekod dwi ini membolehkan model memahami kedua-dua makna literal dan gaya visual yang tersirat oleh arahan.
Prestasi: Di Mana Kedudukannya
Pasukan meletakkan Video Lite sebagai prestasi teratas di kalangan model sumber terbuka dalam kelas parameternya. Penanda aras menunjukkan:
| Model | Parameter | Tempoh Maksimum | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 saat | 12GB |
| CogVideoX-2B | 2B | 6 saat | 16GB |
| Open-Sora 1.2 | 1.1B | 16 saat | 18GB |
Keperluan VRAM 12GB membuka pintu kepada penggunaan pada kad pengguna RTX 3090 dan 4090, pencapaian kebolehcapaian yang signifikan.
Perbandingan kualiti lebih sukar untuk dikuantifikasikan. Laporan pengguna mencadangkan Kandinsky menghasilkan gerakan yang lebih konsisten daripada CogVideoX tetapi ketinggalan di belakang HunyuanVideo dalam fotorealisme. Model terdistil 16 langkah mengorbankan beberapa perincian halus untuk kelajuan, pertukaran yang berfungsi dengan baik untuk prototaip tetapi mungkin tidak memuaskan keperluan pengeluaran akhir.
Menjalankan Kandinsky Secara Tempatan
Projek ini menyediakan nod ComfyUI dan skrip kendiri. Aliran kerja teks-ke-video asas:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Untuk kad 12GB
video = model.generate(
prompt="Tasik gunung pada waktu subuh, kabus naik dari air yang tenang",
num_frames=120, # 5 saat pada 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Pemunggahan memori menggerakkan berat model antara CPU dan GPU semasa inferens. Ini menukar kelajuan untuk kebolehcapaian, membolehkan model yang lebih besar berjalan pada kad yang lebih kecil.
Hubungan Sberbank
Kandinsky Lab beroperasi di bawah Sber AI, bahagian kecerdasan buatan Sberbank, bank terbesar Rusia. Sokongan ini menjelaskan sumber besar di sebalik projek: latihan berbilang peringkat pada data proprietari, pembelajaran pengukuhan pascalatihan, dan usaha kejuruteraan untuk menjadikan saluran paip pengeluaran lengkap sumber terbuka.
Konteks geopolitik menambah kerumitan. Pembangun Barat mungkin menghadapi tekanan institusi untuk mengelakkan model asal Rusia. Lesen Apache 2.0 adalah jelas dari segi undang-undang, tetapi dasar organisasi berbeza-beza. Untuk pembangun individu dan studio yang lebih kecil, pengiraan lebih mudah: teknologi yang baik adalah teknologi yang baik.
Sentiasa sahkan pelesenan dan pematuhan eksport untuk bidang kuasa dan kes penggunaan khusus anda.
Aplikasi Praktikal
Tempoh 10 saat dan keperluan perkakasan pengguna membuka kes penggunaan tertentu:
Kandungan Sosial
Visualisasi Konsep
Latihan Tersuai
Penyelidikan
Melihat ke Hadapan
Kandinsky 5.0 mewakili trend yang lebih luas: jurang antara penjanaan video sumber terbuka dan tertutup semakin mengecil. Setahun yang lalu, model terbuka menghasilkan klip pendek, resolusi rendah dengan artifak yang jelas. Hari ini, model 2B parameter pada perkakasan pengguna menjana video HD 10 saat yang kelihatan mustahil pada tahun 2023.
Perlumbaan belum berakhir. Pemimpin sumber tertutup seperti Sora 2 dan Runway Gen-4.5 masih mendahului dalam kualiti, tempoh, dan kebolehkawalan. Tetapi lantainya semakin naik. Untuk banyak aplikasi, sumber terbuka kini cukup baik.
Kesimpulan
Kandinsky 5.0 mungkin tidak mendahului setiap penanda aras, tetapi ia berjaya di mana yang paling penting: menjalankan penjanaan video sebenar pada perkakasan yang dimiliki orang sebenar, di bawah lesen yang membenarkan penggunaan komersial sebenar. Dalam perlumbaan untuk mendemokratikkan video AI, pasukan Rusia baru sahaja menggerakkan garisan penamat lebih dekat.
Untuk pembangun yang meneroka penjanaan video sumber terbuka, Kandinsky 5.0 layak mendapat tempat dalam senarai pendek anda.
Adakah artikel ini membantu?

Alexis
Jurutera AIJurutera AI dari Lausanne yang menggabungkan kedalaman penyelidikan dengan inovasi praktikal. Membahagikan masa antara seni bina model dan puncak alpine.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

MiniMax Hailuo 02, Model Video AI Berjanggaran Cina yang Mencabar Para Pemimpin
Hailuo 02 daripada MiniMax memberikan kualiti video yang bersaing dengan harga yang sangat terjangkau, 10 kali lebih murah daripada Veo 3. Di bawah ini adalah poin-poin menarik mengenai pesaing dari Cina ini.
Google Memasuki Perlumbaan Avatar AI: Veo 3.1 Menggerakkan Avatar Baharu dalam Google Vids
Google menaik taraf Vids dengan avatar berkuasa Veo 3.1, menjanjikan pengguna perusahaan lima kali keutamaan lebih baik berbanding pesaing. Bagaimana ini dibandingkan dengan Synthesia dan HeyGen?

Runway GWM-1: Model Dunia Am yang Mensimulasikan Realiti secara Masa Nyata
GWM-1 dari Runway menandakan perubahan paradigma daripada menghasilkan video kepada mensimulasikan dunia. Terokai bagaimana model autoregresif ini mencipta persekitaran yang boleh diterokai, avatar fotorealistik, dan simulasi latihan robot.