Meta Pixel
DamienDamien
8 min read
1553 paraules

ByteDance Vidi2: IA que entén el vídeo com un editor

ByteDance acaba de publicar Vidi2 com a codi obert, un model de 12B paràmetres que entén el contingut de vídeo prou bé per editar automàticament hores de metratge en clips polits. Ja impulsa TikTok Smart Split.

ByteDance Vidi2: IA que entén el vídeo com un editor

Mentre tothom s'obsessiona amb la generació de vídeo, ByteDance ha resolt discretament un problema diferent: fer que la IA entengui el vídeo com un editor experimentat. Vidi2 pot veure hores de metratge en brut i extreure exactament el que importa.

El problema del qual ningú parla

Ara tenim generadors de vídeo amb IA increïbles. Runway Gen-4.5 lidera les classificacions de qualitat. Kling O1 genera àudio sincronitzat. Però aquí hi ha el secret brut de la producció de vídeo: la major part del temps es dedica a l'edició, no a la creació.

Un videògraf de casaments grava 8 hores de metratge per a un resum de 5 minuts. Un creador de contingut enregistra 45 minuts per fer un TikTok de 60 segons. Un equip empresarial té 200 hores de metratge de formació enterrat a SharePoint.

💡

La generació de vídeo acapara els titulars. La comprensió de vídeo fa la feina real.

Vidi2 aborda aquesta bretxa. No és un altre generador. És una IA que mira vídeo, comprèn què està passant i t'ajuda a treballar amb aquest contingut a escala.

Què fa realment Vidi2

ByteDance descriu Vidi2 com un "Gran Model Multimodal per a la Comprensió i Creació de Vídeo". El model de 12 mil milions de paràmetres destaca en:

🔍

Fonamentació espai-temporal

Troba qualsevol objecte en un vídeo i segueix-lo al llarg del temps. No només "hi ha un gat al 0:32" sinó "el gat entra al 0:32, es mou al sofà al 0:45 i surt del pla a l'1:12."

✂️

Edició intel·ligent

Analitza metratge i suggereix talls basats en contingut. Troba els millors moments, identifica límits d'escena, entén el ritme.

📝

Anàlisi de contingut

Descriu què passa al vídeo amb prou detall per ser útil. No "dues persones parlant" sinó "segment d'entrevista, el convidat explica característiques del producte, moment d'alt compromís al 3:45."

🎯

Seguiment d'objectes

Segueix objectes com a "tubs" continus a través del vídeo, fins i tot quan surten i tornen a entrar al pla. Això permet una selecció precisa per a efectes, eliminació o èmfasi.

La innovació tècnica: fonamentació espai-temporal

La IA de vídeo anterior treballava en dues dimensions: espai (què hi ha en aquest fotograma) o temps (quan passa alguna cosa). Vidi2 combina ambdues en el que ByteDance anomena "Fonamentació Espai-Temporal" (STG).

Enfocament tradicional:

  • Espacial: "El cotxe està a les coordenades de píxel (450, 320)"
  • Temporal: "Un cotxe apareix al timestamp 0:15"
  • Resultat: Informació desconnectada que requereix correlació manual

Vidi2 STG:

  • Combinat: "El cotxe vermell està a (450, 320) al 0:15, es mou a (890, 340) al 0:18, surt per la dreta al 0:22"
  • Resultat: Trajectòria completa de l'objecte a través de l'espai i el temps

Això importa perquè les tasques d'edició reals requereixen ambdues dimensions. "Elimina el micròfon de perxa" necessita saber on apareix (espacial) i durant quant de temps (temporal). Vidi2 ho gestiona com una única consulta.

Benchmarks: superant els gegants

12B
Paràmetres
#1
Comprensió de vídeo
Obert
Codi font

Aquí és on es posa interessant. Al benchmark VUE-STG de ByteDance per a fonamentació espai-temporal, Vidi2 supera tant Gemini 2.0 Flash com GPT-4o, tot i tenir menys paràmetres que ambdós.

💡

Un advertiment: aquests benchmarks van ser creats per ByteDance. La verificació independent en benchmarks de tercers reforçaria aquestes afirmacions. Dit això, l'enfocament d'arquitectura especialitzada és sòlid.

Els resultats dels benchmarks suggereixen que la comprensió de vídeo es beneficia més del disseny especialitzat que de l'escala en brut. Un model construït per a vídeo des de la base pot superar models de propòsit general més grans que tracten el vídeo com una extensió de la comprensió d'imatges.

Ja en producció: TikTok Smart Split

Això no és vaporware. Vidi2 impulsa la funció "Smart Split" de TikTok, que:

  • Extreu automàticament moments destacats de vídeos llargs
  • Genera subtítols sincronitzats amb la parla
  • Reconstrueix el disseny per a diferents relacions d'aspecte
  • Identifica punts de tall òptims basats en contingut

Milions de creadors utilitzen Smart Split diàriament. El model està provat a escala, no és teòric.

Codi obert: executa-ho tu mateix

ByteDance va publicar Vidi2 a GitHub sota una llicència CC BY-NC 4.0. Això significa gratuït per a recerca, educació i projectes personals, però l'ús comercial requereix llicència separada. Les implicacions:

Per a desenvolupadors:

  • Construir pipelines d'anàlisi de vídeo personalitzats
  • Integrar comprensió en eines existents
  • Ajustar per a dominis específics
  • Sense costos d'API a escala

Per a empreses:

  • Processar metratge sensible localment
  • Construir fluxos de treball d'edició propietaris
  • Evitar dependència de proveïdors
  • Personalitzar per a tipus de contingut intern

El llançament de codi obert segueix un patró que hem vist amb LTX Video i altres laboratoris d'IA xinesos: publicar models potents obertament mentre els competidors occidentals mantenen els seus propietaris.

Aplicacions pràctiques

Permeteu-me repassar alguns fluxos de treball reals que Vidi2 habilita:

Reutilització de contingut

Entrada: Enregistrament de podcast de 2 hores Sortida: 10 clips curts dels millors moments, cadascun amb talls d'intro/outro adequats

El model identifica moments atractius, troba punts de tall naturals i extreu clips que funcionen com a contingut independent.

Gestió de vídeos de formació

Entrada: 500 hores de metratge de formació corporativa Consulta: "Troba tots els segments que expliquen el nou flux de treball del CRM"

En lloc de revisar manualment o confiar en metadades poc fiables, Vidi2 realment mira i entén el contingut.

Moments destacats d'esports

Entrada: Enregistrament del partit complet Sortida: Resum amb tots els moments de gol, jugades apurades i celebracions

El model entén el context esportiu prou bé per identificar moments significatius, no només moviment.

Revisió de vigilància

Entrada: 24 hores de metratge de seguretat Consulta: "Troba totes les instàncies de persones entrant per la porta lateral després de les 6 PM"

La fonamentació espai-temporal significa respostes precises amb timestamps i ubicacions exactes.

Com es compara amb els models de generació

Comprensió de vídeo (Vidi2)
  • Treballa amb metratge existent
  • Estalvia temps d'edició, no de generació
  • Escala a biblioteques de vídeo massives
  • No requereix prompting creatiu
  • Pràctic per a empreses immediatament
Generació de vídeo (Runway, Sora)
  • Crea contingut nou del no-res
  • Eina d'expressió creativa
  • Aplicacions de màrqueting i publicitat
  • Qualitat creixent ràpidament
  • Emocionant però cas d'ús diferent

Aquestes no són tecnologies competidores. Resolen problemes diferents. Un flux de treball complet de vídeo amb IA necessita ambdues: generació per crear contingut nou, comprensió per treballar amb contingut existent.

El panorama general

⚠️

La comprensió de vídeo és on la IA passa de "demo impressionant" a "eina diària". La generació capta l'atenció. La comprensió fa la feina.

Considereu què habilita això:

  • Cada empresa té contingut de vídeo atrapat en arxius
  • Cada creador passa més temps editant que gravant
  • Cada plataforma necessita millor moderació i descobriment de contingut
  • Cada investigador té metratge que no pot analitzar eficientment

Vidi2 aborda tots aquests. El llançament de codi obert significa que aquestes capacitats ara són accessibles per a qualsevol amb computació suficient.

Començar

El model està disponible a GitHub amb documentació i demos. Requisits:

  • GPU NVIDIA amb almenys 24GB VRAM per al model complet
  • Versions quantitzades disponibles per a GPUs més petites
  • Python 3.10+ amb PyTorch 2.0+

Inici ràpid:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

La documentació està principalment en anglès malgrat que ByteDance és una empresa xinesa, reflectint l'audiència objectiu global.

Què significa això per a la indústria

El panorama del vídeo amb IA ara té dues pistes diferents:

PistaLídersFocusValor
GeneracióRunway, Sora, Veo, KlingCrear vídeo nouExpressió creativa
ComprensióVidi2, (altres emergint)Analitzar vídeo existentProductivitat

Ambdues maduraran. Ambdues s'integraran. La pila completa de vídeo amb IA de 2026 generarà, editarà i comprendrà sense discontinuïtats.

Per ara, Vidi2 representa l'opció de codi obert més capaç per a comprensió de vídeo. Si tens metratge per analitzar, edició per automatitzar o contingut per organitzar, aquest és el model a explorar.

La meva opinió

He passat anys construint pipelines de processament de vídeo. L'abans i el després amb models com Vidi2 és stark. Tasques que requerien piles de visió per computador personalitzades, anotació manual i heurístiques fràgils ara es poden resoldre amb un prompt.

💡

Les millors eines d'IA no substitueixen el judici humà. Eliminen el treball tediós que impedeix als humans aplicar el judici a escala.

Vidi2 no substitueix editors. Dóna als editors capacitats que abans eren impossibles a escala. I amb accés obert (per a ús no comercial), aquestes capacitats estan disponibles per a qualsevol disposat a configurar la infraestructura.

El futur del vídeo no és només generació. És comprensió. I aquest futur ara és de codi obert.


Fonts

T'ha resultat útil aquest article?

Damien

Damien

Desenvolupador d'IA

Desenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

ByteDance Vidi2: IA que entén el vídeo com un editor