Kandinsky 5.0: Jawapan Sumber Terbuka Rusia untuk Penjanaan Video AI

Geografi inovasi AI terus berubah. Sementara makmal Amerika mengejar model yang semakin besar dan syarikat China mendominasi papan pendahulu sumber terbuka, pasukan Rusia secara senyap telah mengeluarkan apa yang mungkin menjadi penjana video AI paling mudah diakses setakat ini: Kandinsky 5.0.

Landskap Video Sumber Terbuka Berubah

Apabila ByteDance menjadikan model pemahaman video mereka sumber terbuka dan Tencent mengeluarkan HunyuanVideo, kita melihat gegaran pertama perubahan. Kini Kandinsky Lab, disokong oleh Sberbank, telah mengeluarkan keluarga model lengkap yang sesiapa sahaja boleh jalankan, ubah suai, dan komersialkan di bawah lesen Apache 2.0.

10s

Tempoh Video

12GB

Min VRAM

Apache 2.0

Lesen

Ini bukan pratonton penyelidikan atau API terhad. Berat penuh, kod latihan, dan saluran paip inferens tersedia di GitHub dan Hugging Face.

Keluarga Model

💡

Untuk konteks tentang seni bina difusi, lihat penjelasan mendalam kami tentang transformer difusi.

Kandinsky 5.0 bukan model tunggal tetapi keluarga tiga:

Video Lite (2B Parameter)

Pilihan ringan untuk perkakasan pengguna. Menjana video 5 hingga 10 saat pada resolusi 768x512, 24 fps. Berjalan pada 12GB VRAM dengan pemunggahan memori. Varian terdistil 16 langkah menghasilkan klip 5 saat dalam 35 hingga 60 saat pada H100.

Video Pro (19B Parameter)

Model penuh untuk kualiti maksimum. Mengeluarkan video HD pada 1280x768, 24 fps. Memerlukan GPU kelas pusat data tetapi memberikan hasil yang kompetitif dengan alternatif sumber tertutup.

Model Image Lite 6B parameter melengkapkan keluarga untuk penjanaan imej pegun pada resolusi 1280x768 atau 1024x1024.

Seni Bina Teknikal

Keputusan kejuruteraan dalam Kandinsky 5.0 mendedahkan pasukan yang fokus pada penggunaan praktikal berbanding mengejar penanda aras.

Asas: Pemadanan Aliran Berbanding Difusi

Model difusi tradisional belajar membalikkan proses penambahan hingar langkah demi langkah. Pemadanan aliran mengambil pendekatan berbeza: ia mempelajari laluan langsung dari hingar ke imej melalui medan aliran berterusan. Kelebihannya adalah signifikan:

✓Kelebihan Pemadanan Aliran

Kestabilan latihan yang lebih baik, penumpuan yang lebih cepat, dan kualiti penjanaan yang lebih boleh diramal pada masa inferens.

✗Pertukaran

Memerlukan reka bentuk laluan yang teliti. Pasukan menggunakan laluan pengangkutan optimum yang meminimumkan jarak antara pengagihan hingar dan sasaran.

NABLA: Menjadikan Video Panjang Mungkin

Inovasi sebenar adalah NABLA, singkatan untuk Neighborhood Adaptive Block-Level Attention. Perhatian transformer standard berskala secara kuadratik dengan panjang urutan. Untuk video, ini adalah bencana. Klip 10 saat pada 24 fps mengandungi 240 bingkai, setiap satu dengan ribuan tampalan spatial. Perhatian penuh merentasi semuanya adalah tidak dapat dikendalikan secara pengiraan.

NABLA menangani ini melalui corak perhatian jarang. Daripada memberi perhatian kepada setiap tampalan dalam setiap bingkai, ia memfokuskan pengiraan pada:

Kejiranan spatial tempatan dalam setiap bingkai
Jiran temporal merentasi bingkai bersebelahan
Sauh global yang dipelajari untuk koherensi jarak jauh

Hasilnya adalah penskalaan hampir linear dengan panjang video berbanding kuadratik. Inilah yang menjadikan penjanaan 10 saat boleh dilaksanakan pada perkakasan pengguna.

💡

Untuk perbandingan, kebanyakan model pesaing bergelut dengan video lebih panjang daripada 5 saat tanpa perkakasan khusus.

Membina di atas HunyuanVideo

Daripada melatih segala-galanya dari awal, Kandinsky 5.0 mengambil VAE 3D dari projek HunyuanVideo Tencent. Pengekod-penyahkod ini mengendalikan terjemahan antara ruang piksel dan ruang laten padat di mana proses difusi beroperasi.

Pemahaman teks datang dari Qwen2.5-VL, model bahasa-penglihatan, digabungkan dengan penyisipan CLIP untuk asas semantik. Pendekatan pengekod dwi ini membolehkan model memahami kedua-dua makna literal dan gaya visual yang tersirat oleh arahan.

Prestasi: Di Mana Kedudukannya

Pasukan meletakkan Video Lite sebagai prestasi teratas di kalangan model sumber terbuka dalam kelas parameternya. Penanda aras menunjukkan:

Model	Parameter	Tempoh Maksimum	VRAM (5s)
Kandinsky Video Lite	2B	10 saat	12GB
CogVideoX-2B	2B	6 saat	16GB
Open-Sora 1.2	1.1B	16 saat	18GB

Keperluan VRAM 12GB membuka pintu kepada penggunaan pada kad pengguna RTX 3090 dan 4090, pencapaian kebolehcapaian yang signifikan.

Perbandingan kualiti lebih sukar untuk dikuantifikasikan. Laporan pengguna mencadangkan Kandinsky menghasilkan gerakan yang lebih konsisten daripada CogVideoX tetapi ketinggalan di belakang HunyuanVideo dalam fotorealisme. Model terdistil 16 langkah mengorbankan beberapa perincian halus untuk kelajuan, pertukaran yang berfungsi dengan baik untuk prototaip tetapi mungkin tidak memuaskan keperluan pengeluaran akhir.

Menjalankan Kandinsky Secara Tempatan

Projek ini menyediakan nod ComfyUI dan skrip kendiri. Aliran kerja teks-ke-video asas:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Untuk kad 12GB
 
video = model.generate(
    prompt="Tasik gunung pada waktu subuh, kabus naik dari air yang tenang",
    num_frames=120,  # 5 saat pada 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Pemunggahan memori menggerakkan berat model antara CPU dan GPU semasa inferens. Ini menukar kelajuan untuk kebolehcapaian, membolehkan model yang lebih besar berjalan pada kad yang lebih kecil.

Hubungan Sberbank

Kandinsky Lab beroperasi di bawah Sber AI, bahagian kecerdasan buatan Sberbank, bank terbesar Rusia. Sokongan ini menjelaskan sumber besar di sebalik projek: latihan berbilang peringkat pada data proprietari, pembelajaran pengukuhan pascalatihan, dan usaha kejuruteraan untuk menjadikan saluran paip pengeluaran lengkap sumber terbuka.

Konteks geopolitik menambah kerumitan. Pembangun Barat mungkin menghadapi tekanan institusi untuk mengelakkan model asal Rusia. Lesen Apache 2.0 adalah jelas dari segi undang-undang, tetapi dasar organisasi berbeza-beza. Untuk pembangun individu dan studio yang lebih kecil, pengiraan lebih mudah: teknologi yang baik adalah teknologi yang baik.

⚠️

Sentiasa sahkan pelesenan dan pematuhan eksport untuk bidang kuasa dan kes penggunaan khusus anda.

Aplikasi Praktikal

Tempoh 10 saat dan keperluan perkakasan pengguna membuka kes penggunaan tertentu:

🎬

Kandungan Sosial

Video pendek untuk TikTok, Reels, dan Shorts. Iterasi pantas tanpa kos API.

🎨

Visualisasi Konsep

Pengarah dan penerbit boleh membuat prototaip adegan sebelum pengeluaran yang mahal.

🔧

Latihan Tersuai

Pelesenan Apache 2.0 membenarkan penalaan halus pada set data proprietari. Bina model khusus untuk domain anda.

📚

Penyelidikan

Akses penuh kepada berat dan seni bina membolehkan kajian akademik teknik penjanaan video.

Melihat ke Hadapan

Kandinsky 5.0 mewakili trend yang lebih luas: jurang antara penjanaan video sumber terbuka dan tertutup semakin mengecil. Setahun yang lalu, model terbuka menghasilkan klip pendek, resolusi rendah dengan artifak yang jelas. Hari ini, model 2B parameter pada perkakasan pengguna menjana video HD 10 saat yang kelihatan mustahil pada tahun 2023.

Perlumbaan belum berakhir. Pemimpin sumber tertutup seperti Sora 2 dan Runway Gen-4.5 masih mendahului dalam kualiti, tempoh, dan kebolehkawalan. Tetapi lantainya semakin naik. Untuk banyak aplikasi, sumber terbuka kini cukup baik.

Sumber

Kesimpulan

Kandinsky 5.0 mungkin tidak mendahului setiap penanda aras, tetapi ia berjaya di mana yang paling penting: menjalankan penjanaan video sebenar pada perkakasan yang dimiliki orang sebenar, di bawah lesen yang membenarkan penggunaan komersial sebenar. Dalam perlumbaan untuk mendemokratikkan video AI, pasukan Rusia baru sahaja menggerakkan garisan penamat lebih dekat.

Untuk pembangun yang meneroka penjanaan video sumber terbuka, Kandinsky 5.0 layak mendapat tempat dalam senarai pendek anda.