ByteDance Vidi2: IA Que Compreende Vídeo Como um Editor
A ByteDance acaba de disponibilizar como código aberto o Vidi2, um modelo de 12B parâmetros que compreende conteúdo de vídeo suficientemente bem para editar automaticamente horas de filmagem em clipes polidos. Já alimenta o TikTok Smart Split.

Enquanto todos se obcecam com a geração de vídeo, a ByteDance resolveu discretamente um problema diferente: fazer a IA compreender vídeo como um editor experiente. O Vidi2 pode assistir horas de filmagem bruta e extrair exatamente o que importa.
O Problema de Que Ninguém Fala
Temos geradores de vídeo por IA incríveis agora. O Runway Gen-4.5 lidera as tabelas de qualidade. O Kling O1 gera áudio sincronizado. Mas aqui está o segredo sujo da produção de vídeo: a maior parte do tempo vai para a edição, não para a criação.
Um videógrafo de casamentos grava 8 horas de filmagem para um vídeo de destaques de 5 minutos. Um criador de conteúdo grava 45 minutos para fazer um TikTok de 60 segundos. Uma equipe empresarial tem 200 horas de filmagens de treinamento enterradas no SharePoint.
A geração de vídeo ganha as manchetes. A compreensão de vídeo faz o trabalho real.
O Vidi2 aborda esta lacuna. Não é mais um gerador. É uma IA que assiste vídeo, compreende o que está acontecendo e ajuda você a trabalhar com esse conteúdo em escala.
O Que o Vidi2 Realmente Faz
A ByteDance descreve o Vidi2 como um "Modelo Multimodal Grande para Compreensão e Criação de Vídeo". O modelo de 12 bilhões de parâmetros se destaca em:
Ancoragem Espaço-Temporal
Encontre qualquer objeto num vídeo e rastreie-o através do tempo. Não apenas "há um gato em 0:32", mas "o gato entra em 0:32, move-se para o sofá em 0:45 e sai do enquadramento em 1:12".
Edição Inteligente
Analise filmagens e sugira cortes baseados no conteúdo. Encontre os melhores momentos, identifique limites de cena, compreenda o ritmo.
Análise de Conteúdo
Descreva o que acontece no vídeo com detalhe suficiente para ser útil. Não "duas pessoas conversando", mas "segmento de entrevista, convidado explicando características do produto, momento de alto envolvimento em 3:45".
Rastreamento de Objetos
Rastreie objetos como "tubos" contínuos através do vídeo, mesmo quando saem e voltam ao enquadramento. Isto permite seleção precisa para efeitos, remoção ou ênfase.
A Inovação Técnica: Ancoragem Espaço-Temporal
A IA de vídeo anterior funcionava em duas dimensões: espaço (o que está neste quadro) ou tempo (quando algo acontece). O Vidi2 combina ambos no que a ByteDance chama de "Ancoragem Espaço-Temporal" (STG).
Abordagem Tradicional:
- Espacial: "O carro está nas coordenadas de pixel (450, 320)"
- Temporal: "Um carro aparece no timestamp 0:15"
- Resultado: Informação desconectada requerendo correlação manual
Vidi2 STG:
- Combinado: "O carro vermelho está em (450, 320) em 0:15, move-se para (890, 340) em 0:18, sai pela direita em 0:22"
- Resultado: Trajetória completa do objeto através do espaço e tempo
Isto importa porque tarefas reais de edição requerem ambas as dimensões. "Remover o microfone boom" precisa saber onde aparece (espacial) e por quanto tempo (temporal). O Vidi2 lida com isto como uma única consulta.
Benchmarks: Vencendo os Gigantes
Aqui é onde fica interessante. No benchmark VUE-STG da ByteDance para ancoragem espaço-temporal, o Vidi2 supera tanto o Gemini 2.0 Flash quanto o GPT-4o, apesar de ter menos parâmetros que ambos.
Uma ressalva: estes benchmarks foram criados pela ByteDance. Verificação independente em benchmarks de terceiros fortaleceria estas afirmações. Dito isto, a abordagem de arquitetura especializada é sólida.
Os resultados dos benchmarks sugerem que a compreensão de vídeo beneficia mais de design especializado do que de escala bruta. Um modelo construído para vídeo desde o início pode superar modelos maiores de propósito geral que tratam vídeo como uma extensão da compreensão de imagem.
Já em Produção: TikTok Smart Split
Isto não é vaporware. O Vidi2 alimenta a funcionalidade "Smart Split" do TikTok, que:
- ✓Extrai automaticamente destaques de vídeos longos
- ✓Gera legendas sincronizadas com a fala
- ✓Reconstrói o layout para diferentes relações de aspecto
- ✓Identifica pontos de corte ideais baseados no conteúdo
Milhões de criadores usam o Smart Split diariamente. O modelo é comprovado em escala, não teórico.
Código Aberto: Execute Você Mesmo
A ByteDance lançou o Vidi2 no GitHub sob uma licença CC BY-NC 4.0. Isso significa gratuito para pesquisa, educação e projetos pessoais, mas uso comercial requer licenciamento separado. As implicações:
Para Desenvolvedores:
- Construa pipelines personalizados de análise de vídeo
- Integre compreensão em ferramentas existentes
- Ajuste fino para domínios específicos
- Sem custos de API em escala
Para Empresas:
- Processe filmagens sensíveis localmente
- Construa fluxos de trabalho proprietários de edição
- Evite bloqueio de fornecedor
- Personalize para tipos de conteúdo interno
O lançamento em código aberto segue um padrão que vimos com LTX Video e outros laboratórios de IA chineses: lançar modelos poderosos abertamente enquanto competidores ocidentais mantêm os seus proprietários.
Aplicações Práticas
Deixe-me passar por alguns fluxos de trabalho reais que o Vidi2 permite:
Reaproveitamento de Conteúdo
Entrada: Gravação de podcast de 2 horas Saída: 10 clipes curtos dos melhores momentos, cada um com cortes adequados de introdução/conclusão
O modelo identifica momentos envolventes, encontra pontos de corte naturais e extrai clipes que funcionam como conteúdo autónomo.
Gestão de Vídeos de Treinamento
Entrada: 500 horas de filmagens de treinamento corporativo Consulta: "Encontre todos os segmentos explicando o novo fluxo de trabalho do CRM"
Em vez de procura manual ou confiar em metadados não confiáveis, o Vidi2 realmente assiste e compreende o conteúdo.
Destaques Desportivos
Entrada: Gravação completa da partida Saída: Vídeo de destaques com todos os momentos de pontuação, lances próximos e celebrações
O modelo compreende contexto desportivo suficientemente bem para identificar momentos significativos, não apenas movimento.
Revisão de Vigilância
Entrada: 24 horas de filmagens de segurança Consulta: "Encontre todas as instâncias de pessoas entrando pela porta lateral depois das 18h"
Ancoragem espaço-temporal significa respostas precisas com timestamps e localizações exatas.
Como Se Compara aos Modelos de Geração
- Funciona com filmagens existentes
- Poupa tempo de edição, não tempo de geração
- Escala para bibliotecas massivas de vídeo
- Não requer prompting criativo
- Prático para empresas imediatamente
- Cria conteúdo novo do nada
- Ferramenta de expressão criativa
- Aplicações de marketing e publicidade
- Qualidade crescendo rapidamente
- Caso de uso excitante mas diferente
Estas não são tecnologias concorrentes. Resolvem problemas diferentes. Um fluxo de trabalho completo de vídeo por IA precisa de ambos: geração para criar conteúdo novo, compreensão para trabalhar com conteúdo existente.
O Panorama Maior
A compreensão de vídeo é onde a IA passa de "demo impressionante" para "ferramenta diária". A geração obtém atenção. A compreensão faz o trabalho.
Considere o que isto permite:
- Todas as empresas têm conteúdo de vídeo preso em arquivos
- Todos os criadores gastam mais tempo editando do que gravando
- Todas as plataformas precisam de melhor moderação e descoberta de conteúdo
- Todos os investigadores têm filmagens que não conseguem analisar eficientemente
O Vidi2 aborda todos estes. O lançamento em código aberto significa que estas capacidades estão agora acessíveis a qualquer um com capacidade computacional suficiente.
Começar
O modelo está disponível no GitHub com documentação e demos. Requisitos:
- GPU NVIDIA com pelo menos 24GB de VRAM para o modelo completo
- Versões quantizadas disponíveis para GPUs menores
- Python 3.10+ com PyTorch 2.0+
Início Rápido:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"A documentação está principalmente em inglês apesar da ByteDance ser uma empresa chinesa, refletindo a audiência global alvo.
O Que Isto Significa para a Indústria
O panorama de vídeo por IA agora tem duas pistas distintas:
| Pista | Líderes | Foco | Valor |
|---|---|---|---|
| Geração | Runway, Sora, Veo, Kling | Criar vídeo novo | Expressão criativa |
| Compreensão | Vidi2, (outros emergindo) | Analisar vídeo existente | Produtividade |
Ambas amadurecerão. Ambas se integrarão. A pilha completa de vídeo por IA de 2026 gerará, editará e compreenderá perfeitamente.
Por agora, o Vidi2 representa a opção de código aberto mais capaz para compreensão de vídeo. Se você tem filmagens para analisar, edição para automatizar ou conteúdo para organizar, este é o modelo a explorar.
A Minha Opinião
Passei anos construindo pipelines de processamento de vídeo. O antes e depois com modelos como o Vidi2 é gritante. Tarefas que requeriam pilhas personalizadas de visão computacional, anotação manual e heurísticas frágeis podem agora ser resolvidas com um prompt.
As melhores ferramentas de IA não substituem o julgamento humano. Removem o trabalho tedioso que impede os humanos de aplicar julgamento em escala.
O Vidi2 não substitui editores. Dá aos editores capacidades que eram anteriormente impossíveis em escala. E com acesso aberto (para uso não comercial), estas capacidades estão disponíveis para qualquer um disposto a configurar a infraestrutura.
O futuro do vídeo não é apenas geração. É compreensão. E esse futuro já é código aberto.
Fontes
Este artigo foi útil?

Damien
Desenvolvedor de IADesenvolvedor de IA de Lyon que adora transformar conceitos complexos de ML em receitas simples. Quando não está a depurar modelos, encontrá-lo-á a pedalar pelo vale do Ródano.
Artigos Relacionados
Continue a explorar com estes artigos relacionados

ByteDance Seedance 1.5 Pro: O Modelo que Gera Áudio e Vídeo em Conjunto
ByteDance lança Seedance 1.5 Pro com geração nativa áudio-visual, controles cinematográficos de câmara e sincronização labial multilingue. Disponível gratuitamente no CapCut.

Kling 2.6: Clonagem de Voz e Controle de Movimento Redefinem a Criação de Vídeo com IA
A última atualização da Kuaishou introduz geração simultânea de áudio e vídeo, treinamento de voz personalizado e captura de movimento de precisão que pode transformar a forma como os criadores abordam a produção de vídeo com inteligência artificial.

MiniMax Hailuo 02: O modelo chinês de vídeo com IA desafia os gigantes
Hailuo 02 da MiniMax oferece qualidade de vídeo competitiva por uma fração do custo, com 10 vídeos pelo preço de um clipe Veo 3. Aqui está o que torna este challenger chinês digno de atenção.