Kandinsky 5.0: A resposta open-source russa à geração de vídeo por IA

A geografia da inovação em IA continua a mudar. Enquanto laboratórios americanos perseguem modelos cada vez maiores e empresas chinesas dominam as classificações open-source, uma equipe russa lançou discretamente o que pode ser o gerador de vídeo IA mais acessível até hoje: Kandinsky 5.0.

O cenário do vídeo open-source se transforma

Quando a ByteDance tornou open-source seu modelo de compreensão de vídeo e a Tencent lançou o HunyuanVideo, vimos os primeiros sinais de uma mudança. Agora o Kandinsky Lab, apoiado pelo Sberbank, lançou uma família completa de modelos que qualquer pessoa pode executar, modificar e comercializar sob a licença Apache 2.0.

10s

Duração do vídeo

12GB

VRAM mínima

Apache 2.0

Licença

Isso não é uma prévia de pesquisa ou uma API restrita. Os pesos completos, o código de treinamento e o pipeline de inferência estão disponíveis no GitHub e Hugging Face.

A família de modelos

💡

Para contexto sobre arquiteturas de difusão, veja nossa análise aprofundada sobre transformadores de difusão.

Kandinsky 5.0 não é um modelo único, mas uma família de três modelos:

Video Lite (2B parâmetros)

A opção leve para hardware de consumo. Gera vídeos de 5 a 10 segundos em resolução 768×512, 24 fps. Funciona em 12GB de VRAM com descarregamento de memória. A variante destilada de 16 passos produz um clipe de 5 segundos em 35 a 60 segundos em uma H100.

Video Pro (19B parâmetros)

O modelo completo para máxima qualidade. Produz vídeo HD em 1280×768, 24 fps. Requer GPUs de classe datacenter, mas oferece resultados competitivos com alternativas de código fechado.

Um modelo Image Lite de 6B parâmetros completa a família para geração de imagens estáticas em resolução 1280×768 ou 1024×1024.

Arquitetura técnica

As decisões de engenharia no Kandinsky 5.0 revelam uma equipe focada em implantação prática em vez de perseguir benchmarks.

Fundamento: Flow Matching em vez de Difusão

Modelos de difusão tradicionais aprendem a reverter um processo de adição de ruído passo a passo. O flow matching adota uma abordagem diferente: ele aprende um caminho direto do ruído para a imagem através de um campo de fluxo contínuo. As vantagens são significativas:

✓Vantagens do Flow Matching

Melhor estabilidade de treinamento, convergência mais rápida e qualidade de geração mais previsível no momento da inferência.

✗Compensações

Requer design cuidadoso do caminho. A equipe usa caminhos de transporte ótimo que minimizam a distância entre distribuições de ruído e alvo.

NABLA: Tornando vídeos longos possíveis

A verdadeira inovação é o NABLA, abreviação de Neighborhood Adaptive Block-Level Attention. A atenção transformer padrão escala quadraticamente com o comprimento da sequência. Para vídeo, isso é catastrófico. Um clipe de 10 segundos a 24 fps contém 240 quadros, cada um com milhares de patches espaciais. Atenção completa sobre todos eles é computacionalmente intratável.

NABLA resolve isso através de padrões de atenção esparsa. Em vez de atender a cada patch em cada quadro, ele concentra o cálculo em:

Vizinhanças espaciais locais dentro de cada quadro
Vizinhos temporais através de quadros adjacentes
Âncoras globais aprendidas para coerência de longo alcance

O resultado é uma escala quase linear com o comprimento do vídeo em vez de quadrática. Isso é o que torna a geração de 10 segundos viável em hardware de consumo.

💡

Para comparação, a maioria dos modelos concorrentes tem dificuldades com vídeos mais longos que 5 segundos sem hardware especializado.

Construindo sobre HunyuanVideo

Em vez de treinar tudo do zero, Kandinsky 5.0 adota o VAE 3D do projeto HunyuanVideo da Tencent. Este codificador-decodificador lida com a tradução entre o espaço de pixels e o espaço latente compacto onde o processo de difusão opera.

A compreensão de texto vem do Qwen2.5-VL, um modelo de visão-linguagem, combinado com embeddings CLIP para ancoragem semântica. Esta abordagem de codificador duplo permite que o modelo compreenda tanto o significado literal quanto o estilo visual implicado pelos prompts.

Desempenho: Onde se posiciona

A equipe posiciona o Video Lite como o melhor desempenho entre modelos open-source em sua classe de parâmetros. Os benchmarks mostram:

Modelo	Parâmetros	Duração máx	VRAM (5s)
Kandinsky Video Lite	2B	10 segundos	12GB
CogVideoX-2B	2B	6 segundos	16GB
Open-Sora 1.2	1.1B	16 segundos	18GB

O requisito de 12GB de VRAM abre a porta para implantação em placas RTX 3090 e 4090 de consumo, um marco significativo de acessibilidade.

Comparações de qualidade são mais difíceis de quantificar. Relatórios de usuários sugerem que Kandinsky produz movimento mais consistente que CogVideoX, mas fica atrás do HunyuanVideo em fotorrealismo. O modelo destilado de 16 passos sacrifica alguns detalhes finos por velocidade, uma compensação que funciona bem para prototipagem, mas pode não satisfazer necessidades de produção final.

Executando Kandinsky localmente

O projeto fornece nós ComfyUI e scripts standalone. Um fluxo de trabalho básico de texto para vídeo:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

O descarregamento de memória move os pesos do modelo entre CPU e GPU durante a inferência. Isso troca velocidade por acessibilidade, permitindo que modelos maiores funcionem em placas menores.

A conexão com o Sberbank

Kandinsky Lab opera sob Sber AI, a divisão de inteligência artificial do Sberbank, o maior banco da Rússia. Este apoio explica os recursos substanciais por trás do projeto: treinamento multi-estágio em dados proprietários, pós-treinamento com aprendizado por reforço, e o esforço de engenharia para tornar open-source um pipeline de produção completo.

O contexto geopolítico adiciona complexidade. Desenvolvedores ocidentais podem enfrentar pressão institucional para evitar modelos de origem russa. A licença Apache 2.0 é juridicamente clara, mas políticas organizacionais variam. Para desenvolvedores individuais e estúdios menores, o cálculo é mais simples: boa tecnologia é boa tecnologia.

⚠️

Sempre verifique a conformidade de licenciamento e exportação para sua jurisdição e caso de uso específicos.

Aplicações práticas

A duração de 10 segundos e os requisitos de hardware de consumo abrem casos de uso específicos:

🎬

Conteúdo social

Vídeo de formato curto para TikTok, Reels e Shorts. Iteração rápida sem custos de API.

🎨

Visualização de conceitos

Diretores e produtores podem criar protótipos de cenas antes de produção cara.

🔧

Treinamento personalizado

A licença Apache 2.0 permite ajuste fino em conjuntos de dados proprietários. Construa modelos especializados para seu domínio.

📚

Pesquisa

Acesso completo a pesos e arquitetura permite estudo acadêmico de técnicas de geração de vídeo.

Olhando para o futuro

Kandinsky 5.0 representa uma tendência mais ampla: a lacuna entre geração de vídeo open-source e de código fechado está se estreitando. Um ano atrás, modelos abertos produziam clipes curtos de baixa resolução com artefatos óbvios. Hoje, um modelo de 2B parâmetros em hardware de consumo gera vídeo HD de 10 segundos que teria parecido impossível em 2023.

A corrida não acabou. Líderes de código fechado como Sora 2 e Runway Gen-4.5 ainda lideram em qualidade, duração e controlabilidade. Mas o piso está subindo. Para muitas aplicações, o open-source agora é bom o suficiente.

Recursos

A conclusão

Kandinsky 5.0 pode não liderar todos os benchmarks, mas tem sucesso onde mais importa: executar geração de vídeo real em hardware que pessoas reais possuem, sob uma licença que permite uso comercial real. Na corrida para democratizar vídeo IA, a equipe russa acabou de mover a linha de chegada para mais perto.

Para desenvolvedores explorando geração de vídeo open-source, Kandinsky 5.0 merece um lugar na sua lista restrita.