Meta Pixel
DamienDamien
7 min read
1391 perkataan

ByteDance Vidi2: AI yang Memahami Video Seperti Editor

ByteDance baru sahaja membuka sumber Vidi2, model 12B parameter yang memahami kandungan video dengan cukup baik untuk mengedit berjam-jam rakaman secara automatik menjadi klip yang digilap. Ia sudah menggerakkan TikTok Smart Split.

ByteDance Vidi2: AI yang Memahami Video Seperti Editor

Semasa semua orang taksub dengan penjanaan video, ByteDance secara senyap menyelesaikan masalah yang berbeza: membuat AI memahami video seperti editor berpengalaman. Vidi2 boleh menonton berjam-jam rakaman mentah dan mengekstrak tepat apa yang penting.

Masalah yang Tiada Siapa Bercakap

Kita mempunyai penjana video AI yang luar biasa sekarang. Runway Gen-4.5 mendahului carta kualiti. Kling O1 menjana audio yang disegerakkan. Tetapi inilah rahsia kotor pengeluaran video: kebanyakan masa dihabiskan untuk mengedit, bukan mencipta.

Juruvideo perkahwinan merakam 8 jam rakaman untuk gulungan sorotan 5 minit. Pencipta kandungan merakam 45 minit untuk membuat TikTok 60 saat. Pasukan enterprise mempunyai 200 jam rakaman latihan yang terkubur dalam SharePoint.

πŸ’‘

Penjanaan video mendapat tajuk berita. Pemahaman video melakukan kerja sebenar.

Vidi2 menangani jurang ini. Ia bukan penjana lain. Ia adalah AI yang menonton video, memahami apa yang berlaku, dan membantu anda bekerja dengan kandungan itu pada skala.

Apa yang Vidi2 Sebenarnya Lakukan

ByteDance menerangkan Vidi2 sebagai "Model Multimodal Besar untuk Pemahaman dan Penciptaan Video." Model 12 bilion parameter ini cemerlang dalam:

πŸ”

Grounding Ruang-Masa

Cari mana-mana objek dalam video dan jejakinya melalui masa. Bukan hanya "ada kucing pada 0:32" tetapi "kucing masuk pada 0:32, bergerak ke sofa pada 0:45, dan keluar dari bingkai pada 1:12."

βœ‚οΈ

Penyuntingan Pintar

Analisis rakaman dan cadangkan potongan berdasarkan kandungan. Cari momen terbaik, kenal pasti sempadan adegan, fahami rentak.

πŸ“

Analisis Kandungan

Terangkan apa yang berlaku dalam video dengan butiran yang mencukupi untuk berguna. Bukan "dua orang bercakap" tetapi "segmen temu bual, tetamu menerangkan ciri produk, momen penglibatan tinggi pada 3:45."

🎯

Penjejakan Objek

Jejak objek sebagai "tiub" berterusan melalui video, walaupun ia keluar dan masuk semula bingkai. Ini membolehkan pemilihan tepat untuk kesan, penyingkiran, atau penekanan.

Inovasi Teknikal: Grounding Ruang-Masa

AI video terdahulu bekerja dalam dua dimensi: ruang (apa dalam bingkai ini) atau masa (bila sesuatu berlaku). Vidi2 menggabungkan kedua-duanya ke dalam apa yang ByteDance panggil "Spatio-Temporal Grounding" (STG).

Pendekatan Tradisional:

  • Ruang: "Kereta berada di koordinat piksel (450, 320)"
  • Temporal: "Sebuah kereta muncul pada cap masa 0:15"
  • Hasil: Maklumat terputus yang memerlukan korelasi manual

Vidi2 STG:

  • Digabungkan: "Kereta merah berada di (450, 320) pada 0:15, bergerak ke (890, 340) pada 0:18, keluar ke kanan pada 0:22"
  • Hasil: Trajektori objek lengkap melalui ruang dan masa

Ini penting kerana tugas penyuntingan sebenar memerlukan kedua-dua dimensi. "Buang mikrofon boom" perlu tahu di mana ia muncul (ruang) dan berapa lama (temporal). Vidi2 mengendalikan ini sebagai satu pertanyaan.

Penanda Aras: Mengalahkan Gergasi

12B
Parameter
#1
Pemahaman Video
Terbuka
Sumber

Di sini ia menjadi menarik. Pada penanda aras VUE-STG ByteDance untuk grounding ruang-masa, Vidi2 mengatasi kedua-dua Gemini 2.0 Flash dan GPT-4o, walaupun mempunyai parameter lebih sedikit daripada kedua-duanya.

πŸ’‘

Satu kaveat: penanda aras ini dicipta oleh ByteDance. Pengesahan bebas pada penanda aras pihak ketiga akan mengukuhkan tuntutan ini. Yang berkata, pendekatan seni bina khusus adalah kukuh.

Keputusan penanda aras mencadangkan bahawa pemahaman video mendapat manfaat daripada reka bentuk khusus lebih daripada skala mentah. Model yang dibina untuk video dari awal boleh mengatasi model tujuan umum yang lebih besar yang merawat video sebagai lanjutan pemahaman imej.

Sudah dalam Pengeluaran: TikTok Smart Split

Ini bukan vaporware. Vidi2 menggerakkan ciri "Smart Split" TikTok, yang:

  • βœ“Mengekstrak sorotan secara automatik daripada video panjang
  • βœ“Menjana sarikata yang disegerakkan dengan pertuturan
  • βœ“Membina semula susun atur untuk nisbah aspek berbeza
  • βœ“Mengenal pasti titik potongan optimum berdasarkan kandungan

Berjuta-juta pencipta menggunakan Smart Split setiap hari. Model ini terbukti pada skala, bukan teori.

Sumber Terbuka: Jalankannya Sendiri

ByteDance mengeluarkan Vidi2 di GitHub di bawah lesen CC BY-NC 4.0. Itu bermakna percuma untuk penyelidikan, pendidikan, dan projek peribadi, tetapi penggunaan komersial memerlukan pelesenan berasingan. Implikasinya:

Untuk Pembangun:

  • Bina saluran paip analisis video tersuai
  • Integrasikan pemahaman ke dalam alat sedia ada
  • Penalaan halus untuk domain khusus
  • Tiada kos API pada skala

Untuk Enterprise:

  • Proses rakaman sensitif secara tempatan
  • Bina aliran kerja penyuntingan proprietari
  • Elakkan kunci vendor
  • Sesuaikan untuk jenis kandungan dalaman

Pelepasan sumber terbuka mengikuti corak yang telah kita lihat dengan LTX Video dan makmal AI China lain: melepaskan model berkuasa secara terbuka manakala pesaing Barat menyimpan milik mereka secara proprietari.

Aplikasi Praktikal

Biarkan saya terangkan beberapa aliran kerja sebenar yang Vidi2 bolehkan:

Penggunaan Semula Kandungan

Input: Rakaman podcast 2 jam Output: 10 klip pendek momen terbaik, setiap satu dengan potongan intro/outro yang betul

Model mengenal pasti momen menarik, mencari titik potongan semula jadi, dan mengekstrak klip yang berfungsi sebagai kandungan berdiri sendiri.

Pengurusan Video Latihan

Input: 500 jam rakaman latihan korporat Pertanyaan: "Cari semua segmen yang menerangkan aliran kerja CRM baharu"

Daripada menatal manual atau bergantung pada metadata yang tidak boleh dipercayai, Vidi2 sebenarnya menonton dan memahami kandungan.

Sorotan Sukan

Input: Rakaman perlawanan penuh Output: Gulungan sorotan dengan semua momen pemarkahan, panggilan rapat, dan perayaan

Model memahami konteks sukan dengan cukup baik untuk mengenal pasti momen bermakna, bukan hanya pergerakan.

Semakan Pengawasan

Input: 24 jam rakaman keselamatan Pertanyaan: "Cari semua kejadian orang masuk melalui pintu sisi selepas 6 petang"

Grounding ruang-masa bermakna jawapan tepat dengan cap masa dan lokasi yang tepat.

Bagaimana Ia Berbanding dengan Model Penjanaan

βœ“Pemahaman Video (Vidi2)
  • Berfungsi dengan rakaman sedia ada
  • Menjimatkan masa penyuntingan, bukan masa penjanaan
  • Skala ke perpustakaan video besar
  • Tiada prompting kreatif diperlukan
  • Praktikal untuk enterprise dengan segera
βœ“Penjanaan Video (Runway, Sora)
  • Mencipta kandungan baharu dari tiada
  • Alat ekspresi kreatif
  • Aplikasi pemasaran dan pengiklanan
  • Kualiti berkembang dengan pantas
  • Menarik tetapi kes penggunaan berbeza

Ini bukan teknologi yang bersaing. Mereka menyelesaikan masalah yang berbeza. Aliran kerja video AI yang lengkap memerlukan kedua-duanya: penjanaan untuk mencipta kandungan baharu, pemahaman untuk bekerja dengan kandungan sedia ada.

Gambaran Lebih Besar

⚠️

Pemahaman video adalah di mana AI bergerak dari "demo yang mengagumkan" ke "alat harian." Penjanaan mendapat perhatian. Pemahaman menyelesaikan kerja.

Pertimbangkan apa yang ini bolehkan:

  • Setiap enterprise mempunyai kandungan video terperangkap dalam arkib
  • Setiap pencipta menghabiskan lebih banyak masa mengedit daripada merakam
  • Setiap platform memerlukan penyederhanaan dan penemuan kandungan yang lebih baik
  • Setiap penyelidik mempunyai rakaman yang tidak dapat mereka analisis dengan cekap

Vidi2 menangani semua ini. Pelepasan sumber terbuka bermakna keupayaan ini kini boleh diakses oleh sesiapa sahaja yang mempunyai pengiraan yang mencukupi.

Bermula

Model ini tersedia di GitHub dengan dokumentasi dan demo. Keperluan:

  • GPU NVIDIA dengan sekurang-kurangnya 24GB VRAM untuk model penuh
  • Versi terkuantum tersedia untuk GPU yang lebih kecil
  • Python 3.10+ dengan PyTorch 2.0+

Permulaan Pantas:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Dokumentasi terutamanya dalam bahasa Inggeris walaupun ByteDance adalah syarikat China, mencerminkan audiens sasaran global.

Apa Maksudnya untuk Industri

Landskap video AI kini mempunyai dua trek yang berbeza:

TrekPemimpinFokusNilai
PenjanaanRunway, Sora, Veo, KlingCipta video baharuEkspresi kreatif
PemahamanVidi2, (lain muncul)Analisis video sedia adaProduktiviti

Kedua-duanya akan matang. Kedua-duanya akan berintegrasi. Timbunan video AI lengkap 2026 akan menjana, mengedit, dan memahami dengan lancar.

Buat masa ini, Vidi2 mewakili pilihan sumber terbuka paling berkemampuan untuk pemahaman video. Jika anda mempunyai rakaman untuk dianalisis, penyuntingan untuk diautomatikkan, atau kandungan untuk disusun, ini adalah model untuk diterokai.

Pandangan Saya

Saya telah menghabiskan bertahun-tahun membina saluran paip pemprosesan video. Sebelum dan selepas dengan model seperti Vidi2 adalah jelas. Tugas yang memerlukan timbunan penglihatan komputer tersuai, anotasi manual, dan heuristik yang rapuh kini boleh diselesaikan dengan prompt.

πŸ’‘

Alat AI terbaik tidak menggantikan pertimbangan manusia. Mereka membuang kerja yang membosankan yang menghalang manusia daripada menggunakan pertimbangan pada skala.

Vidi2 tidak menggantikan editor. Ia memberikan editor keupayaan yang sebelumnya mustahil pada skala. Dan dengan akses terbuka (untuk penggunaan bukan komersial), keupayaan ini tersedia kepada sesiapa sahaja yang sanggup menyediakan infrastruktur.

Masa depan video bukan hanya penjanaan. Ia adalah pemahaman. Dan masa depan itu kini sumber terbuka.


Sumber

Adakah artikel ini membantu?

Damien

Damien

Pembangun AI

Pembangun AI dari Lyon yang suka menukarkan konsep ML kompleks menjadi resipi ringkas. Apabila tidak menyahpepijat model, anda akan menemui beliau berbasikal melalui lembah RhΓ΄ne.

Artikel Berkaitan

Teruskan penerokaan dengan siaran berkaitan ini

Suka artikel ini?

Temui lebih banyak wawasan dan ikuti kandungan terkini kami.

ByteDance Vidi2: AI yang Memahami Video Seperti Editor