Meta Pixel
AlexisAlexis
6 min read
1027 Wörter

Kandinsky 5.0: Russlands Open-Source-Antwort auf KI-Videogenerierung

Kandinsky 5.0 ermöglicht 10-Sekunden-Videogenerierung auf Consumer-GPUs mit Apache 2.0-Lizenzierung. Wir untersuchen, wie NABLA Attention und Flow Matching dies möglich machen.

Kandinsky 5.0: Russlands Open-Source-Antwort auf KI-Videogenerierung
Die Geografie der KI-Innovation verschiebt sich kontinuierlich. Während amerikanische Labore immer größere Modelle entwickeln und chinesische Unternehmen die Open-Source-Rangliste dominieren, hat ein russisches Team stillschweigend den möglicherweise zugänglichsten KI-Videogenerator veröffentlicht: Kandinsky 5.0.

Paradigmenwechsel in der Open-Source-Videolandschaft

Als ByteDance ihr Video-Understanding-Modell als Open Source veröffentlichte und Tencent HunyuanVideo herausbrachte, sahen wir die ersten Anzeichen einer Verschiebung. Nun hat Kandinsky Lab, unterstützt von Sberbank, eine vollständige Modellfamilie veröffentlicht, die jeder unter der Apache 2.0-Lizenz ausführen, modifizieren und kommerziell nutzen kann.

10s
Videodauer
12GB
Min VRAM
Apache 2.0
Lizenz

Dies ist keine Forschungsvorschau oder eingeschränkte API. Die vollständigen Gewichte, der Trainingscode und die Inferenz-Pipeline sind auf GitHub und Hugging Face verfügbar.

Die Modellfamilie

💡

Für Kontext zu Diffusionsarchitekturen siehe unseren ausführlichen Artikel über Diffusionstransformatoren.

Kandinsky 5.0 ist kein einzelnes Modell, sondern eine Familie von drei Modellen:

Video Lite (2B Parameter)

Die Lightweight-Option für Consumer-Hardware. Generiert 5 bis 10 Sekunden lange Videos mit 768×512 Auflösung bei 24 fps. Läuft auf 12GB VRAM mit Memory Offloading. Die destillierte 16-Schritt-Variante produziert einen 5-Sekunden-Clip in 35 bis 60 Sekunden auf einer H100.

Video Pro (19B Parameter)

Das vollständige Modell für maximale Qualität. Generiert HD-Video mit 1280×768 bei 24 fps. Erfordert Datacenter-GPUs, liefert jedoch Ergebnisse, die mit Closed-Source-Alternativen konkurrieren können.

Ein 6B-Parameter Image Lite-Modell komplettiert die Familie für statische Bildgenerierung mit 1280×768 oder 1024×1024 Auflösung.

Technische Architektur

Die technischen Entscheidungen in Kandinsky 5.0 zeigen ein Team, das sich auf praktische Implementierung konzentriert statt auf Benchmark-Optimierung.

Fundament: Flow Matching statt Diffusion

Traditionelle Diffusionsmodelle lernen, einen Rauschzufügungsprozess schrittweise umzukehren. Flow Matching verfolgt einen anderen Ansatz: Es lernt einen direkten Pfad von Rauschen zu Bild durch ein kontinuierliches Flow-Feld. Die Vorteile sind signifikant:

Flow Matching Vorteile
Bessere Trainingsstabilität, schnellere Konvergenz und vorhersagbarere Generierungsqualität zur Inferenzzeit.
Trade-offs
Erfordert sorgfältiges Pfaddesign. Das Team nutzt Optimal-Transport-Pfade, die die Distanz zwischen Rausch- und Zielverteilungen minimieren.

NABLA: Lange Videos möglich machen

Die eigentliche Innovation ist NABLA, kurz für Neighborhood Adaptive Block-Level Attention. Standard-Transformer-Attention skaliert quadratisch mit der Sequenzlänge. Für Video ist dies katastrophal. Ein 10-Sekunden-Clip bei 24 fps enthält 240 Frames, jeder mit Tausenden räumlichen Patches. Vollständige Attention über alle ist rechnerisch nicht handhabbar.

NABLA adressiert dies durch Sparse-Attention-Muster. Statt jeden Patch in jedem Frame zu beachten, fokussiert es die Berechnung auf:

  1. Lokale räumliche Nachbarschaften innerhalb jedes Frames
  2. Temporale Nachbarn über benachbarte Frames
  3. Gelernte globale Anker für langreichweitige Kohärenz

Das Ergebnis ist nahezu lineare Skalierung mit Videolänge statt quadratische. Dies macht 10-Sekunden-Generierung auf Consumer-Hardware machbar.

💡

Zum Vergleich: Die meisten konkurrierenden Modelle haben Schwierigkeiten mit Videos länger als 5 Sekunden ohne spezialisierte Hardware.

Aufbauend auf HunyuanVideo

Statt alles von Grund auf zu trainieren, adaptiert Kandinsky 5.0 den 3D-VAE aus Tencents HunyuanVideo-Projekt. Dieser Encoder-Decoder verarbeitet die Übersetzung zwischen Pixelraum und dem kompakten latenten Raum, in dem der Diffusionsprozess operiert.

Textverständnis stammt von Qwen2.5-VL, einem Vision-Language-Modell, kombiniert mit CLIP-Embeddings für semantische Verankerung. Dieser Dual-Encoder-Ansatz ermöglicht dem Modell, sowohl die wörtliche Bedeutung als auch den visuellen Stil zu verstehen, der durch Prompts impliziert wird.

Leistung: Positionierung

Das Team positioniert Video Lite als Top-Performer unter Open-Source-Modellen seiner Parameterklasse. Benchmarks zeigen:

ModellParameterMax DauerVRAM (5s)
Kandinsky Video Lite2B10 Sekunden12GB
CogVideoX-2B2B6 Sekunden16GB
Open-Sora 1.21.1B16 Sekunden18GB

Die 12GB-VRAM-Anforderung ermöglicht den Einsatz auf Consumer-RTX-3090- und 4090-Karten, ein signifikanter Meilenstein für Zugänglichkeit.

Qualitätsvergleiche sind schwieriger zu quantifizieren. Nutzerberichte deuten darauf hin, dass Kandinsky konsistentere Bewegung als CogVideoX produziert, aber in Fotorealismus hinter HunyuanVideo zurückbleibt. Das 16-Schritt-destillierte Modell opfert einige Feindetails für Geschwindigkeit, ein Trade-off, der gut für Prototyping funktioniert, aber möglicherweise nicht für finale Produktionsanforderungen ausreicht.

Lokales Ausführen von Kandinsky

Das Projekt bietet ComfyUI-Nodes und eigenständige Skripte. Ein grundlegender Text-to-Video-Workflow:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Memory Offloading verschiebt Modellgewichte zwischen CPU und GPU während der Inferenz. Dies tauscht Geschwindigkeit gegen Zugänglichkeit und ermöglicht größeren Modellen, auf kleineren Karten zu laufen.

Die Sberbank-Verbindung

Kandinsky Lab operiert unter Sber AI, der Künstliche-Intelligenz-Division der Sberbank, Russlands größter Bank. Diese Unterstützung erklärt die substanziellen Ressourcen hinter dem Projekt: mehrstufiges Training auf proprietären Daten, Reinforcement-Learning-Post-Training und den technischen Aufwand, eine vollständige Produktions-Pipeline als Open Source bereitzustellen.

Der geopolitische Kontext fügt Komplexität hinzu. Westliche Entwickler könnten institutionellem Druck ausgesetzt sein, Modelle russischen Ursprungs zu vermeiden. Die Apache 2.0-Lizenz ist rechtlich eindeutig, aber organisatorische Richtlinien variieren. Für einzelne Entwickler und kleinere Studios ist die Kalkulation einfacher: gute Technologie ist gute Technologie.

⚠️

Überprüfen Sie stets Lizenzierung und Exportkonformität für Ihre spezifische Jurisdiktion und Ihren Anwendungsfall.

Praktische Anwendungen

Die 10-Sekunden-Dauer und Consumer-Hardware-Anforderungen eröffnen spezifische Anwendungsfälle:

🎬

Social Content

Kurzvideos für TikTok, Reels und Shorts. Schnelle Iteration ohne API-Kosten.
🎨

Konzept-Visualisierung

Regisseure und Produzenten können Szenen vor kostspieliger Produktion prototypisieren.
🔧

Custom Training

Apache 2.0-Lizenzierung erlaubt Fine-Tuning auf proprietären Datensätzen. Erstellen Sie spezialisierte Modelle für Ihre Domäne.
📚

Forschung

Vollzugriff auf Gewichte und Architektur ermöglicht akademische Untersuchung von Videogenerierungstechniken.

Ausblick

Kandinsky 5.0 repräsentiert einen breiteren Trend: Die Lücke zwischen Open- und Closed-Source-Videogenerierung verengt sich. Vor einem Jahr produzierten Open-Modelle kurze, niedrigauflösende Clips mit offensichtlichen Artefakten. Heute generiert ein 2B-Parameter-Modell auf Consumer-Hardware 10-Sekunden-HD-Video, das 2023 unmöglich erschienen wäre.

Das Rennen ist nicht vorbei. Closed-Source-Marktführer wie Sora 2 und Runway Gen-4.5 führen weiterhin in Qualität, Dauer und Kontrollierbarkeit. Aber das Niveau steigt. Für viele Anwendungen ist Open-Source nun gut genug.

Fazit

Kandinsky 5.0 mag nicht jeden Benchmark anführen, aber es erfolgreich dort, wo es am meisten zählt: echte Videogenerierung auf Hardware, die echte Menschen besitzen, unter einer Lizenz, die echte kommerzielle Nutzung erlaubt. Im Rennen um die Demokratisierung von KI-Video hat das russische Team gerade die Ziellinie näher gerückt.

Für Entwickler, die Open-Source-Videogenerierung erkunden, verdient Kandinsky 5.0 einen Platz auf Ihrer Shortlist.

War dieser Artikel hilfreich?

Alexis

Alexis

KI-Ingenieur

KI-Ingenieur aus Lausanne, der Forschungstiefe mit praktischer Innovation verbindet. Teilt seine Zeit zwischen Modellarchitekturen und Alpengipfeln auf.

Verwandte Artikel

Entdecken Sie weitere verwandte Beiträge

Hat Ihnen dieser Artikel gefallen?

Entdecken Sie weitere Einblicke und bleiben Sie mit unseren neuesten Inhalten auf dem Laufenden.

Kandinsky 5.0: Russlands Open-Source-Antwort auf KI-Videogenerierung