Kandinsky 5.0: Jawaban Open-Source Rusia untuk Generasi Video AI

Geografi inovasi AI terus bergeser. Sementara laboratorium Amerika mengejar model yang semakin besar dan perusahaan Tiongkok mendominasi papan peringkat open-source, tim Rusia telah merilis apa yang mungkin menjadi generator video AI paling mudah diakses: Kandinsky 5.0.

Pergeseran Lanskap Video Open-Source

Ketika ByteDance membuka sumber model pemahaman video mereka dan Tencent merilis HunyuanVideo, kami melihat getaran pertama dari sebuah pergeseran. Kini Kandinsky Lab, yang didukung oleh Sberbank, telah merilis keluarga lengkap model yang dapat dijalankan, dimodifikasi, dan dikomersialisasikan oleh siapa saja di bawah lisensi Apache 2.0.

10s

Durasi Video

12GB

VRAM Minimum

Apache 2.0

Lisensi

Ini bukan pratinjau penelitian atau API terbatas. Bobot penuh, kode pelatihan, dan pipeline inferensi tersedia di GitHub dan Hugging Face.

Keluarga Model

💡

Untuk konteks tentang arsitektur difusi, lihat pendalaman kami tentang diffusion transformers.

Kandinsky 5.0 bukan model tunggal tetapi keluarga dari tiga model:

Video Lite (2B Parameter)

Pilihan ringan untuk perangkat keras konsumen. Menghasilkan video 5 hingga 10 detik pada resolusi 768×512, 24 fps. Berjalan di VRAM 12GB dengan offloading memori. Varian distilasi 16-langkah menghasilkan klip 5 detik dalam 35 hingga 60 detik di H100.

Video Pro (19B Parameter)

Model penuh untuk kualitas maksimum. Menghasilkan video HD pada 1280×768, 24 fps. Memerlukan GPU kelas datacenter tetapi memberikan hasil yang kompetitif dengan alternatif closed-source.

Model Image Lite 6B parameter melengkapi keluarga untuk generasi gambar diam pada resolusi 1280×768 atau 1024×1024.

Arsitektur Teknis

Keputusan teknis di Kandinsky 5.0 mengungkapkan tim yang fokus pada deployment praktis daripada mengejar benchmark.

Fondasi: Flow Matching Lebih dari Diffusion

Model difusi tradisional belajar membalikkan proses penambahan noise langkah demi langkah. Flow matching mengambil pendekatan berbeda: ia mempelajari jalur langsung dari noise ke gambar melalui medan aliran kontinu. Keuntungannya signifikan:

✓Keuntungan Flow Matching

Stabilitas pelatihan yang lebih baik, konvergensi lebih cepat, dan kualitas generasi yang lebih dapat diprediksi saat inferensi.

✗Trade-offs

Memerlukan desain jalur yang hati-hati. Tim menggunakan jalur transportasi optimal yang meminimalkan jarak antara distribusi noise dan target.

NABLA: Membuat Video Panjang Mungkin

Inovasi sebenarnya adalah NABLA, singkatan dari Neighborhood Adaptive Block-Level Attention. Attention transformer standar berkembang secara kuadratik dengan panjang urutan. Untuk video, ini katastropik. Klip 10 detik pada 24 fps berisi 240 frame, masing-masing dengan ribuan patch spasial. Attention penuh di semua itu tidak dapat dilakukan secara komputasi.

NABLA mengatasi ini melalui pola attention yang jarang. Alih-alih menghadiri setiap patch di setiap frame, ia memfokuskan komputasi pada:

Lingkungan spasial lokal dalam setiap frame
Tetangga temporal di frame yang berdekatan
Jangkar global yang dipelajari untuk koherensi jarak jauh

Hasilnya adalah penskalaan hampir linier dengan panjang video alih-alih kuadratik. Ini yang membuat generasi 10 detik layak di perangkat keras konsumen.

💡

Sebagai perbandingan, sebagian besar model pesaing berjuang dengan video lebih dari 5 detik tanpa perangkat keras khusus.

Membangun di Atas HunyuanVideo

Alih-alih melatih semuanya dari awal, Kandinsky 5.0 mengadopsi 3D VAE dari proyek HunyuanVideo Tencent. Encoder-decoder ini menangani terjemahan antara ruang piksel dan ruang laten kompak tempat proses difusi beroperasi.

Pemahaman teks berasal dari Qwen2.5-VL, model visi-bahasa, dikombinasikan dengan embedding CLIP untuk grounding semantik. Pendekatan dual-encoder ini memungkinkan model memahami makna literal dan gaya visual yang tersirat oleh prompt.

Performa: Di Mana Posisinya

Tim memposisikan Video Lite sebagai pemain terbaik di antara model open-source di kelas parameternya. Benchmark menunjukkan:

Model	Parameter	Durasi Maks	VRAM (5s)
Kandinsky Video Lite	2B	10 detik	12GB
CogVideoX-2B	2B	6 detik	16GB
Open-Sora 1.2	1.1B	16 detik	18GB

Persyaratan VRAM 12GB membuka pintu untuk deployment di kartu RTX 3090 dan 4090 konsumen, tonggak aksesibilitas yang signifikan.

Perbandingan kualitas lebih sulit dikuantifikasi. Laporan pengguna menunjukkan Kandinsky menghasilkan gerakan yang lebih konsisten daripada CogVideoX tetapi tertinggal di belakang HunyuanVideo dalam fotorealisme. Model distilasi 16-langkah mengorbankan beberapa detail halus untuk kecepatan, trade-off yang berfungsi baik untuk prototyping tetapi mungkin tidak memuaskan kebutuhan produksi akhir.

Menjalankan Kandinsky Secara Lokal

Proyek ini menyediakan node ComfyUI dan skrip standalone. Alur kerja text-to-video dasar:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Offloading memori memindahkan bobot model antara CPU dan GPU selama inferensi. Ini menukar kecepatan untuk aksesibilitas, memungkinkan model yang lebih besar berjalan di kartu yang lebih kecil.

Koneksi Sberbank

Kandinsky Lab beroperasi di bawah Sber AI, divisi kecerdasan buatan Sberbank, bank terbesar Rusia. Dukungan ini menjelaskan sumber daya substansial di balik proyek: pelatihan multi-tahap pada data proprietary, pelatihan pasca dengan reinforcement learning, dan upaya teknis untuk open-source pipeline produksi lengkap.

Konteks geopolitik menambah kompleksitas. Pengembang Barat mungkin menghadapi tekanan institusional untuk menghindari model asal Rusia. Lisensi Apache 2.0 secara hukum jelas, tetapi kebijakan organisasi bervariasi. Untuk pengembang individu dan studio kecil, kalkulasinya lebih sederhana: teknologi yang baik adalah teknologi yang baik.

⚠️

Selalu verifikasi lisensi dan kepatuhan ekspor untuk yurisdiksi dan kasus penggunaan spesifik Anda.

Aplikasi Praktis

Durasi 10 detik dan persyaratan perangkat keras konsumen membuka kasus penggunaan spesifik:

🎬

Konten Sosial

Video bentuk pendek untuk TikTok, Reels, dan Shorts. Iterasi cepat tanpa biaya API.

🎨

Visualisasi Konsep

Sutradara dan produser dapat membuat prototipe adegan sebelum produksi yang mahal.

🔧

Pelatihan Kustom

Lisensi Apache 2.0 memungkinkan fine-tuning pada dataset proprietary. Bangun model khusus untuk domain Anda.

📚

Penelitian

Akses penuh ke bobot dan arsitektur memungkinkan studi akademis tentang teknik generasi video.

Melihat ke Depan

Kandinsky 5.0 mewakili tren yang lebih luas: kesenjangan antara generasi video open dan closed-source menyempit. Setahun lalu, model open menghasilkan klip pendek, resolusi rendah dengan artefak yang jelas. Hari ini, model 2B parameter di perangkat keras konsumen menghasilkan video HD 10 detik yang tampak mustahil di 2023.

Perlombaan belum berakhir. Pemimpin closed-source seperti Sora 2 dan Runway Gen-4.5 masih memimpin dalam kualitas, durasi, dan kontrol. Tetapi lantainya naik. Untuk banyak aplikasi, open-source sekarang cukup baik.

Sumber Daya

Kesimpulan

Kandinsky 5.0 mungkin tidak berada di puncak setiap benchmark, tetapi berhasil di tempat yang paling penting: menjalankan generasi video nyata di perangkat keras yang dimiliki orang nyata, di bawah lisensi yang memungkinkan penggunaan komersial nyata. Dalam perlombaan untuk mendemokratisasi video AI, tim Rusia baru saja memindahkan garis finish lebih dekat.

Untuk pengembang yang mengeksplorasi generasi video open-source, Kandinsky 5.0 layak mendapat tempat di daftar pendek Anda.