Meta Pixel
DamienDamien
8 min read
1488 parole

ByteDance Vidi2: l'IA che comprende i video come un editor esperto

ByteDance ha appena rilasciato come open source Vidi2, un modello da 12 miliardi di parametri che comprende i contenuti video abbastanza bene da modificare automaticamente ore di filmati in clip raffinate. Alimenta già TikTok Smart Split.

ByteDance Vidi2: l'IA che comprende i video come un editor esperto

Mentre tutti sono ossessionati dalla generazione video, ByteDance ha risolto silenziosamente un problema diverso: far comprendere all'IA i video come un editor esperto. Vidi2 può guardare ore di filmati grezzi ed estrarre esattamente ciò che conta.

Il problema di cui nessuno parla

Abbiamo incredibili generatori video AI ora. Runway Gen-4.5 domina le classifiche di qualità. Kling O1 genera audio sincronizzato. Ma ecco il segreto sporco della produzione video: la maggior parte del tempo va nel montaggio, non nella creazione.

Un videografo di matrimoni riprende 8 ore di filmato per un video di 5 minuti dei momenti salienti. Un content creator registra 45 minuti per creare un TikTok di 60 secondi. Un team aziendale ha 200 ore di filmati di formazione sepolti in SharePoint.

💡

La generazione video ottiene i titoli. La comprensione video fa il lavoro vero.

Vidi2 affronta questa lacuna. Non è un altro generatore. È un'IA che guarda i video, comprende cosa sta accadendo e ti aiuta a lavorare con quel contenuto su larga scala.

Cosa fa realmente Vidi2

ByteDance descrive Vidi2 come un "Large Multimodal Model per la comprensione e creazione di video." Il modello da 12 miliardi di parametri eccelle in:

🔍

Radicamento Spazio-Temporale

Trovare qualsiasi oggetto in un video e tracciarlo nel tempo. Non solo "c'è un gatto a 0:32" ma "il gatto entra a 0:32, si sposta sul divano a 0:45 e esce dall'inquadratura a 1:12."

✂️

Editing intelligente

Analizzare i filmati e suggerire tagli basati sul contenuto. Trovare i momenti migliori, identificare i confini delle scene, comprendere il ritmo.

📝

Analisi dei contenuti

Descrivere cosa accade nel video con dettagli sufficienti per essere utili. Non "due persone che parlano" ma "segmento di intervista, ospite che spiega le caratteristiche del prodotto, momento di alto coinvolgimento a 3:45."

🎯

Tracciamento oggetti

Tracciare gli oggetti come "tubi" continui attraverso il video, anche quando escono e rientrano nell'inquadratura. Questo consente una selezione precisa per effetti, rimozione o enfasi.

L'innovazione tecnica: Radicamento Spazio-Temporale

L'IA video precedente funzionava in due dimensioni: spazio (cosa c'è in questo frame) o tempo (quando accade qualcosa). Vidi2 combina entrambi in quello che ByteDance chiama "Radicamento Spazio-Temporale" (STG).

Approccio tradizionale:

  • Spaziale: "L'auto è alle coordinate pixel (450, 320)"
  • Temporale: "Un'auto appare al timestamp 0:15"
  • Risultato: Informazioni disconnesse che richiedono correlazione manuale

Vidi2 STG:

  • Combinato: "L'auto rossa è a (450, 320) a 0:15, si sposta a (890, 340) a 0:18, esce a destra a 0:22"
  • Risultato: Traiettoria completa dell'oggetto attraverso spazio e tempo

Questo è importante perché le attività di editing reali richiedono entrambe le dimensioni. "Rimuovi il microfono boom" deve sapere dove appare (spaziale) e per quanto tempo (temporale). Vidi2 gestisce questo come una singola query.

Benchmark: battere i giganti

12B
Parametri
#1
Comprensione video
Open
Source

Ecco dove diventa interessante. Sul benchmark VUE-STG di ByteDance per il radicamento spazio-temporale, Vidi2 supera sia Gemini 2.0 Flash che GPT-4o, nonostante abbia meno parametri di entrambi.

💡

Un avvertimento: questi benchmark sono stati creati da ByteDance. Una verifica indipendente su benchmark di terze parti rafforzerebbe queste affermazioni. Detto questo, l'approccio dell'architettura specializzata è solido.

I risultati del benchmark suggeriscono che la comprensione video beneficia di un design specializzato più che della scala grezza. Un modello costruito per il video da zero può superare modelli general-purpose più grandi che trattano il video come un'estensione della comprensione delle immagini.

Già in produzione: TikTok Smart Split

Questo non è vaporware. Vidi2 alimenta la funzione "Smart Split" di TikTok, che:

  • Estrae automaticamente i momenti salienti dai video lunghi
  • Genera sottotitoli sincronizzati con il parlato
  • Ricostruisce il layout per diversi rapporti d'aspetto
  • Identifica i punti di taglio ottimali basati sul contenuto

Milioni di creator usano Smart Split ogni giorno. Il modello è provato su scala, non teorico.

Open Source: eseguilo tu stesso

ByteDance ha rilasciato Vidi2 su GitHub con licenza CC BY-NC 4.0. Ciò significa gratuito per ricerca, istruzione e progetti personali, ma l'uso commerciale richiede una licenza separata. Le implicazioni:

Per gli sviluppatori:

  • Costruire pipeline di analisi video personalizzate
  • Integrare la comprensione negli strumenti esistenti
  • Fine-tune per domini specifici
  • Nessun costo API su scala

Per le aziende:

  • Elaborare filmati sensibili localmente
  • Costruire flussi di lavoro di editing proprietari
  • Evitare il vendor lock-in
  • Personalizzare per tipi di contenuto interni

Il rilascio open-source segue uno schema che abbiamo visto con LTX Video e altri laboratori AI cinesi: rilasciare modelli potenti apertamente mentre i concorrenti occidentali mantengono i loro proprietari.

Applicazioni pratiche

Lascia che ti mostri alcuni flussi di lavoro reali che Vidi2 consente:

Riutilizzo dei contenuti

Input: Registrazione podcast di 2 ore Output: 10 clip brevi dei momenti migliori, ciascuna con tagli intro/outro appropriati

Il modello identifica momenti coinvolgenti, trova punti di taglio naturali ed estrae clip che funzionano come contenuto autonomo.

Gestione video di formazione

Input: 500 ore di filmati di formazione aziendale Query: "Trova tutti i segmenti che spiegano il nuovo flusso di lavoro CRM"

Invece di scrubbing manuale o affidarsi a metadati inaffidabili, Vidi2 guarda e comprende effettivamente il contenuto.

Highlights sportivi

Input: Registrazione completa della partita Output: Reel di highlights con tutti i momenti di punteggio, chiamate ravvicinate e celebrazioni

Il modello comprende il contesto sportivo abbastanza bene da identificare momenti significativi, non solo movimento.

Revisione di sorveglianza

Input: 24 ore di filmati di sicurezza Query: "Trova tutte le istanze di persone che entrano dalla porta laterale dopo le 18:00"

Il radicamento spazio-temporale significa risposte precise con timestamp e posizioni esatte.

Come si confronta con i modelli di generazione

Comprensione video (Vidi2)
  • Funziona con filmati esistenti
  • Risparmia tempo di editing, non tempo di generazione
  • Scala a enormi librerie video
  • Non richiede prompting creativo
  • Pratico per le aziende immediatamente
Generazione video (Runway, Sora)
  • Crea nuovi contenuti dal nulla
  • Strumento di espressione creativa
  • Applicazioni marketing e pubblicitarie
  • Qualità in rapida crescita
  • Eccitante ma caso d'uso diverso

Queste non sono tecnologie in competizione. Risolvono problemi diversi. Un flusso di lavoro video AI completo necessita di entrambi: generazione per creare nuovi contenuti, comprensione per lavorare con contenuti esistenti.

Il quadro generale

⚠️

La comprensione video è dove l'IA passa da "demo impressionante" a "strumento quotidiano." La generazione ottiene l'attenzione. La comprensione fa il lavoro.

Considera cosa questo consente:

  • Ogni azienda ha contenuti video intrappolati negli archivi
  • Ogni creator spende più tempo a editare che a girare
  • Ogni piattaforma ha bisogno di migliore moderazione e scoperta dei contenuti
  • Ogni ricercatore ha filmati che non può analizzare efficientemente

Vidi2 affronta tutto questo. Il rilascio open-source significa che queste capacità sono ora accessibili a chiunque abbia sufficiente potenza di calcolo.

Iniziare

Il modello è disponibile su GitHub con documentazione e demo. Requisiti:

  • GPU NVIDIA con almeno 24GB VRAM per il modello completo
  • Versioni quantizzate disponibili per GPU più piccole
  • Python 3.10+ con PyTorch 2.0+

Quick Start:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

La documentazione è principalmente in inglese nonostante ByteDance sia un'azienda cinese, riflettendo il pubblico target globale.

Cosa significa per l'industria

Il panorama video AI ha ora due tracce distinte:

TracciaLeaderFocusValore
GenerazioneRunway, Sora, Veo, KlingCreare nuovo videoEspressione creativa
ComprensioneVidi2, (altri emergenti)Analizzare video esistenteProduttività

Entrambi matureranno. Entrambi si integreranno. Lo stack video AI completo del 2026 genererà, modificherà e comprenderà senza soluzione di continuità.

Per ora, Vidi2 rappresenta l'opzione open-source più capace per la comprensione video. Se hai filmati da analizzare, editing da automatizzare o contenuti da organizzare, questo è il modello da esplorare.

La mia opinione

Ho passato anni a costruire pipeline di elaborazione video. Il prima e dopo con modelli come Vidi2 è netto. Attività che richiedevano stack di computer vision personalizzati, annotazione manuale ed euristiche fragili possono ora essere risolte con un prompt.

💡

I migliori strumenti AI non sostituiscono il giudizio umano. Rimuovono il lavoro tedioso che impedisce agli umani di applicare il giudizio su scala.

Vidi2 non sostituisce gli editor. Dà agli editor capacità che erano precedentemente impossibili su scala. E con accesso aperto (per uso non commerciale), queste capacità sono disponibili a chiunque sia disposto a configurare l'infrastruttura.

Il futuro del video non è solo generazione. È comprensione. E quel futuro è ora open source.


Fonti

Questo articolo ti è stato utile?

Damien

Damien

Sviluppatore IA

Sviluppatore IA di Lione che ama trasformare concetti complessi di ML in ricette semplici. Quando non sta debuggando modelli, lo troverai in bici nella valle del Rodano.

Articoli correlati

Continua a esplorare con questi articoli correlati

Ti è piaciuto questo articolo?

Scopri altri approfondimenti e rimani aggiornato sui nostri ultimi contenuti.

ByteDance Vidi2: l'IA che comprende i video come un editor esperto