Kandinsky 5.0: Jawaban Open-Source Rusia untuk Generasi Video AI
Kandinsky 5.0 menghadirkan generasi video 10 detik ke GPU konsumen dengan lisensi Apache 2.0. Kami mengeksplorasi bagaimana NABLA attention dan flow matching memungkinkan hal ini.

Pergeseran Lanskap Video Open-Source
Ketika ByteDance membuka sumber model pemahaman video mereka dan Tencent merilis HunyuanVideo, kami melihat getaran pertama dari sebuah pergeseran. Kini Kandinsky Lab, yang didukung oleh Sberbank, telah merilis keluarga lengkap model yang dapat dijalankan, dimodifikasi, dan dikomersialisasikan oleh siapa saja di bawah lisensi Apache 2.0.
Ini bukan pratinjau penelitian atau API terbatas. Bobot penuh, kode pelatihan, dan pipeline inferensi tersedia di GitHub dan Hugging Face.
Keluarga Model
Untuk konteks tentang arsitektur difusi, lihat pendalaman kami tentang diffusion transformers.
Kandinsky 5.0 bukan model tunggal tetapi keluarga dari tiga model:
Video Lite (2B Parameter)
Pilihan ringan untuk perangkat keras konsumen. Menghasilkan video 5 hingga 10 detik pada resolusi 768×512, 24 fps. Berjalan di VRAM 12GB dengan offloading memori. Varian distilasi 16-langkah menghasilkan klip 5 detik dalam 35 hingga 60 detik di H100.
Video Pro (19B Parameter)
Model penuh untuk kualitas maksimum. Menghasilkan video HD pada 1280×768, 24 fps. Memerlukan GPU kelas datacenter tetapi memberikan hasil yang kompetitif dengan alternatif closed-source.
Model Image Lite 6B parameter melengkapi keluarga untuk generasi gambar diam pada resolusi 1280×768 atau 1024×1024.
Arsitektur Teknis
Keputusan teknis di Kandinsky 5.0 mengungkapkan tim yang fokus pada deployment praktis daripada mengejar benchmark.
Fondasi: Flow Matching Lebih dari Diffusion
Model difusi tradisional belajar membalikkan proses penambahan noise langkah demi langkah. Flow matching mengambil pendekatan berbeda: ia mempelajari jalur langsung dari noise ke gambar melalui medan aliran kontinu. Keuntungannya signifikan:
NABLA: Membuat Video Panjang Mungkin
Inovasi sebenarnya adalah NABLA, singkatan dari Neighborhood Adaptive Block-Level Attention. Attention transformer standar berkembang secara kuadratik dengan panjang urutan. Untuk video, ini katastropik. Klip 10 detik pada 24 fps berisi 240 frame, masing-masing dengan ribuan patch spasial. Attention penuh di semua itu tidak dapat dilakukan secara komputasi.
NABLA mengatasi ini melalui pola attention yang jarang. Alih-alih menghadiri setiap patch di setiap frame, ia memfokuskan komputasi pada:
- Lingkungan spasial lokal dalam setiap frame
- Tetangga temporal di frame yang berdekatan
- Jangkar global yang dipelajari untuk koherensi jarak jauh
Hasilnya adalah penskalaan hampir linier dengan panjang video alih-alih kuadratik. Ini yang membuat generasi 10 detik layak di perangkat keras konsumen.
Sebagai perbandingan, sebagian besar model pesaing berjuang dengan video lebih dari 5 detik tanpa perangkat keras khusus.
Membangun di Atas HunyuanVideo
Alih-alih melatih semuanya dari awal, Kandinsky 5.0 mengadopsi 3D VAE dari proyek HunyuanVideo Tencent. Encoder-decoder ini menangani terjemahan antara ruang piksel dan ruang laten kompak tempat proses difusi beroperasi.
Pemahaman teks berasal dari Qwen2.5-VL, model visi-bahasa, dikombinasikan dengan embedding CLIP untuk grounding semantik. Pendekatan dual-encoder ini memungkinkan model memahami makna literal dan gaya visual yang tersirat oleh prompt.
Performa: Di Mana Posisinya
Tim memposisikan Video Lite sebagai pemain terbaik di antara model open-source di kelas parameternya. Benchmark menunjukkan:
| Model | Parameter | Durasi Maks | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 detik | 12GB |
| CogVideoX-2B | 2B | 6 detik | 16GB |
| Open-Sora 1.2 | 1.1B | 16 detik | 18GB |
Persyaratan VRAM 12GB membuka pintu untuk deployment di kartu RTX 3090 dan 4090 konsumen, tonggak aksesibilitas yang signifikan.
Perbandingan kualitas lebih sulit dikuantifikasi. Laporan pengguna menunjukkan Kandinsky menghasilkan gerakan yang lebih konsisten daripada CogVideoX tetapi tertinggal di belakang HunyuanVideo dalam fotorealisme. Model distilasi 16-langkah mengorbankan beberapa detail halus untuk kecepatan, trade-off yang berfungsi baik untuk prototyping tetapi mungkin tidak memuaskan kebutuhan produksi akhir.
Menjalankan Kandinsky Secara Lokal
Proyek ini menyediakan node ComfyUI dan skrip standalone. Alur kerja text-to-video dasar:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Offloading memori memindahkan bobot model antara CPU dan GPU selama inferensi. Ini menukar kecepatan untuk aksesibilitas, memungkinkan model yang lebih besar berjalan di kartu yang lebih kecil.
Koneksi Sberbank
Kandinsky Lab beroperasi di bawah Sber AI, divisi kecerdasan buatan Sberbank, bank terbesar Rusia. Dukungan ini menjelaskan sumber daya substansial di balik proyek: pelatihan multi-tahap pada data proprietary, pelatihan pasca dengan reinforcement learning, dan upaya teknis untuk open-source pipeline produksi lengkap.
Konteks geopolitik menambah kompleksitas. Pengembang Barat mungkin menghadapi tekanan institusional untuk menghindari model asal Rusia. Lisensi Apache 2.0 secara hukum jelas, tetapi kebijakan organisasi bervariasi. Untuk pengembang individu dan studio kecil, kalkulasinya lebih sederhana: teknologi yang baik adalah teknologi yang baik.
Selalu verifikasi lisensi dan kepatuhan ekspor untuk yurisdiksi dan kasus penggunaan spesifik Anda.
Aplikasi Praktis
Durasi 10 detik dan persyaratan perangkat keras konsumen membuka kasus penggunaan spesifik:
Konten Sosial
Visualisasi Konsep
Pelatihan Kustom
Penelitian
Melihat ke Depan
Kandinsky 5.0 mewakili tren yang lebih luas: kesenjangan antara generasi video open dan closed-source menyempit. Setahun lalu, model open menghasilkan klip pendek, resolusi rendah dengan artefak yang jelas. Hari ini, model 2B parameter di perangkat keras konsumen menghasilkan video HD 10 detik yang tampak mustahil di 2023.
Perlombaan belum berakhir. Pemimpin closed-source seperti Sora 2 dan Runway Gen-4.5 masih memimpin dalam kualitas, durasi, dan kontrol. Tetapi lantainya naik. Untuk banyak aplikasi, open-source sekarang cukup baik.
Sumber Daya
Kesimpulan
Kandinsky 5.0 mungkin tidak berada di puncak setiap benchmark, tetapi berhasil di tempat yang paling penting: menjalankan generasi video nyata di perangkat keras yang dimiliki orang nyata, di bawah lisensi yang memungkinkan penggunaan komersial nyata. Dalam perlombaan untuk mendemokratisasi video AI, tim Rusia baru saja memindahkan garis finish lebih dekat.
Untuk pengembang yang mengeksplorasi generasi video open-source, Kandinsky 5.0 layak mendapat tempat di daftar pendek Anda.
Apakah artikel ini bermanfaat?

Alexis
Insinyur AIInsinyur AI dari Lausanne yang menggabungkan kedalaman riset dengan inovasi praktis. Membagi waktu antara arsitektur model dan puncak alpine.
Artikel Terkait
Lanjutkan eksplorasi dengan postingan terkait ini

TurboDiffusion: Terobosan Generasi Video AI Real-Time
ShengShu Technology dan Universitas Tsinghua mengungkap TurboDiffusion, mencapai generasi video AI 100-200x lebih cepat dan mengantarkan era kreasi real-time.

Konsistensi Karakter dalam Video AI: Bagaimana Model Belajar Mengingat Wajah
Sebuah analisis teknis mendalam tentang inovasi arsitektur yang memungkinkan model video AI untuk mempertahankan identitas karakter di seluruh adegan, dari mekanisme perhatian hingga penyisipan pengawet identitas.

ByteDance Vidi2: AI yang Memahami Video Layaknya Editor Profesional
ByteDance baru saja merilis Vidi2 sebagai open source, sebuah model dengan 12 miliar parameter yang dapat memahami konten video dengan baik untuk secara otomatis mengedit rekaman berjam-jam menjadi klip yang sempurna. Model ini sudah mendukung fitur TikTok Smart Split.