ByteDance Vidi2: AI yang Memahami Video Seperti Editor
ByteDance baru sahaja membuka sumber Vidi2, model 12B parameter yang memahami kandungan video dengan cukup baik untuk mengedit berjam-jam rakaman secara automatik menjadi klip yang digilap. Ia sudah menggerakkan TikTok Smart Split.

Semasa semua orang taksub dengan penjanaan video, ByteDance secara senyap menyelesaikan masalah yang berbeza: membuat AI memahami video seperti editor berpengalaman. Vidi2 boleh menonton berjam-jam rakaman mentah dan mengekstrak tepat apa yang penting.
Masalah yang Tiada Siapa Bercakap
Kita mempunyai penjana video AI yang luar biasa sekarang. Runway Gen-4.5 mendahului carta kualiti. Kling O1 menjana audio yang disegerakkan. Tetapi inilah rahsia kotor pengeluaran video: kebanyakan masa dihabiskan untuk mengedit, bukan mencipta.
Juruvideo perkahwinan merakam 8 jam rakaman untuk gulungan sorotan 5 minit. Pencipta kandungan merakam 45 minit untuk membuat TikTok 60 saat. Pasukan enterprise mempunyai 200 jam rakaman latihan yang terkubur dalam SharePoint.
Penjanaan video mendapat tajuk berita. Pemahaman video melakukan kerja sebenar.
Vidi2 menangani jurang ini. Ia bukan penjana lain. Ia adalah AI yang menonton video, memahami apa yang berlaku, dan membantu anda bekerja dengan kandungan itu pada skala.
Apa yang Vidi2 Sebenarnya Lakukan
ByteDance menerangkan Vidi2 sebagai "Model Multimodal Besar untuk Pemahaman dan Penciptaan Video." Model 12 bilion parameter ini cemerlang dalam:
Grounding Ruang-Masa
Cari mana-mana objek dalam video dan jejakinya melalui masa. Bukan hanya "ada kucing pada 0:32" tetapi "kucing masuk pada 0:32, bergerak ke sofa pada 0:45, dan keluar dari bingkai pada 1:12."
Penyuntingan Pintar
Analisis rakaman dan cadangkan potongan berdasarkan kandungan. Cari momen terbaik, kenal pasti sempadan adegan, fahami rentak.
Analisis Kandungan
Terangkan apa yang berlaku dalam video dengan butiran yang mencukupi untuk berguna. Bukan "dua orang bercakap" tetapi "segmen temu bual, tetamu menerangkan ciri produk, momen penglibatan tinggi pada 3:45."
Penjejakan Objek
Jejak objek sebagai "tiub" berterusan melalui video, walaupun ia keluar dan masuk semula bingkai. Ini membolehkan pemilihan tepat untuk kesan, penyingkiran, atau penekanan.
Inovasi Teknikal: Grounding Ruang-Masa
AI video terdahulu bekerja dalam dua dimensi: ruang (apa dalam bingkai ini) atau masa (bila sesuatu berlaku). Vidi2 menggabungkan kedua-duanya ke dalam apa yang ByteDance panggil "Spatio-Temporal Grounding" (STG).
Pendekatan Tradisional:
- Ruang: "Kereta berada di koordinat piksel (450, 320)"
- Temporal: "Sebuah kereta muncul pada cap masa 0:15"
- Hasil: Maklumat terputus yang memerlukan korelasi manual
Vidi2 STG:
- Digabungkan: "Kereta merah berada di (450, 320) pada 0:15, bergerak ke (890, 340) pada 0:18, keluar ke kanan pada 0:22"
- Hasil: Trajektori objek lengkap melalui ruang dan masa
Ini penting kerana tugas penyuntingan sebenar memerlukan kedua-dua dimensi. "Buang mikrofon boom" perlu tahu di mana ia muncul (ruang) dan berapa lama (temporal). Vidi2 mengendalikan ini sebagai satu pertanyaan.
Penanda Aras: Mengalahkan Gergasi
Di sini ia menjadi menarik. Pada penanda aras VUE-STG ByteDance untuk grounding ruang-masa, Vidi2 mengatasi kedua-dua Gemini 2.0 Flash dan GPT-4o, walaupun mempunyai parameter lebih sedikit daripada kedua-duanya.
Satu kaveat: penanda aras ini dicipta oleh ByteDance. Pengesahan bebas pada penanda aras pihak ketiga akan mengukuhkan tuntutan ini. Yang berkata, pendekatan seni bina khusus adalah kukuh.
Keputusan penanda aras mencadangkan bahawa pemahaman video mendapat manfaat daripada reka bentuk khusus lebih daripada skala mentah. Model yang dibina untuk video dari awal boleh mengatasi model tujuan umum yang lebih besar yang merawat video sebagai lanjutan pemahaman imej.
Sudah dalam Pengeluaran: TikTok Smart Split
Ini bukan vaporware. Vidi2 menggerakkan ciri "Smart Split" TikTok, yang:
- βMengekstrak sorotan secara automatik daripada video panjang
- βMenjana sarikata yang disegerakkan dengan pertuturan
- βMembina semula susun atur untuk nisbah aspek berbeza
- βMengenal pasti titik potongan optimum berdasarkan kandungan
Berjuta-juta pencipta menggunakan Smart Split setiap hari. Model ini terbukti pada skala, bukan teori.
Sumber Terbuka: Jalankannya Sendiri
ByteDance mengeluarkan Vidi2 di GitHub di bawah lesen CC BY-NC 4.0. Itu bermakna percuma untuk penyelidikan, pendidikan, dan projek peribadi, tetapi penggunaan komersial memerlukan pelesenan berasingan. Implikasinya:
Untuk Pembangun:
- Bina saluran paip analisis video tersuai
- Integrasikan pemahaman ke dalam alat sedia ada
- Penalaan halus untuk domain khusus
- Tiada kos API pada skala
Untuk Enterprise:
- Proses rakaman sensitif secara tempatan
- Bina aliran kerja penyuntingan proprietari
- Elakkan kunci vendor
- Sesuaikan untuk jenis kandungan dalaman
Pelepasan sumber terbuka mengikuti corak yang telah kita lihat dengan LTX Video dan makmal AI China lain: melepaskan model berkuasa secara terbuka manakala pesaing Barat menyimpan milik mereka secara proprietari.
Aplikasi Praktikal
Biarkan saya terangkan beberapa aliran kerja sebenar yang Vidi2 bolehkan:
Penggunaan Semula Kandungan
Input: Rakaman podcast 2 jam Output: 10 klip pendek momen terbaik, setiap satu dengan potongan intro/outro yang betul
Model mengenal pasti momen menarik, mencari titik potongan semula jadi, dan mengekstrak klip yang berfungsi sebagai kandungan berdiri sendiri.
Pengurusan Video Latihan
Input: 500 jam rakaman latihan korporat Pertanyaan: "Cari semua segmen yang menerangkan aliran kerja CRM baharu"
Daripada menatal manual atau bergantung pada metadata yang tidak boleh dipercayai, Vidi2 sebenarnya menonton dan memahami kandungan.
Sorotan Sukan
Input: Rakaman perlawanan penuh Output: Gulungan sorotan dengan semua momen pemarkahan, panggilan rapat, dan perayaan
Model memahami konteks sukan dengan cukup baik untuk mengenal pasti momen bermakna, bukan hanya pergerakan.
Semakan Pengawasan
Input: 24 jam rakaman keselamatan Pertanyaan: "Cari semua kejadian orang masuk melalui pintu sisi selepas 6 petang"
Grounding ruang-masa bermakna jawapan tepat dengan cap masa dan lokasi yang tepat.
Bagaimana Ia Berbanding dengan Model Penjanaan
- Berfungsi dengan rakaman sedia ada
- Menjimatkan masa penyuntingan, bukan masa penjanaan
- Skala ke perpustakaan video besar
- Tiada prompting kreatif diperlukan
- Praktikal untuk enterprise dengan segera
- Mencipta kandungan baharu dari tiada
- Alat ekspresi kreatif
- Aplikasi pemasaran dan pengiklanan
- Kualiti berkembang dengan pantas
- Menarik tetapi kes penggunaan berbeza
Ini bukan teknologi yang bersaing. Mereka menyelesaikan masalah yang berbeza. Aliran kerja video AI yang lengkap memerlukan kedua-duanya: penjanaan untuk mencipta kandungan baharu, pemahaman untuk bekerja dengan kandungan sedia ada.
Gambaran Lebih Besar
Pemahaman video adalah di mana AI bergerak dari "demo yang mengagumkan" ke "alat harian." Penjanaan mendapat perhatian. Pemahaman menyelesaikan kerja.
Pertimbangkan apa yang ini bolehkan:
- Setiap enterprise mempunyai kandungan video terperangkap dalam arkib
- Setiap pencipta menghabiskan lebih banyak masa mengedit daripada merakam
- Setiap platform memerlukan penyederhanaan dan penemuan kandungan yang lebih baik
- Setiap penyelidik mempunyai rakaman yang tidak dapat mereka analisis dengan cekap
Vidi2 menangani semua ini. Pelepasan sumber terbuka bermakna keupayaan ini kini boleh diakses oleh sesiapa sahaja yang mempunyai pengiraan yang mencukupi.
Bermula
Model ini tersedia di GitHub dengan dokumentasi dan demo. Keperluan:
- GPU NVIDIA dengan sekurang-kurangnya 24GB VRAM untuk model penuh
- Versi terkuantum tersedia untuk GPU yang lebih kecil
- Python 3.10+ dengan PyTorch 2.0+
Permulaan Pantas:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Dokumentasi terutamanya dalam bahasa Inggeris walaupun ByteDance adalah syarikat China, mencerminkan audiens sasaran global.
Apa Maksudnya untuk Industri
Landskap video AI kini mempunyai dua trek yang berbeza:
| Trek | Pemimpin | Fokus | Nilai |
|---|---|---|---|
| Penjanaan | Runway, Sora, Veo, Kling | Cipta video baharu | Ekspresi kreatif |
| Pemahaman | Vidi2, (lain muncul) | Analisis video sedia ada | Produktiviti |
Kedua-duanya akan matang. Kedua-duanya akan berintegrasi. Timbunan video AI lengkap 2026 akan menjana, mengedit, dan memahami dengan lancar.
Buat masa ini, Vidi2 mewakili pilihan sumber terbuka paling berkemampuan untuk pemahaman video. Jika anda mempunyai rakaman untuk dianalisis, penyuntingan untuk diautomatikkan, atau kandungan untuk disusun, ini adalah model untuk diterokai.
Pandangan Saya
Saya telah menghabiskan bertahun-tahun membina saluran paip pemprosesan video. Sebelum dan selepas dengan model seperti Vidi2 adalah jelas. Tugas yang memerlukan timbunan penglihatan komputer tersuai, anotasi manual, dan heuristik yang rapuh kini boleh diselesaikan dengan prompt.
Alat AI terbaik tidak menggantikan pertimbangan manusia. Mereka membuang kerja yang membosankan yang menghalang manusia daripada menggunakan pertimbangan pada skala.
Vidi2 tidak menggantikan editor. Ia memberikan editor keupayaan yang sebelumnya mustahil pada skala. Dan dengan akses terbuka (untuk penggunaan bukan komersial), keupayaan ini tersedia kepada sesiapa sahaja yang sanggup menyediakan infrastruktur.
Masa depan video bukan hanya penjanaan. Ia adalah pemahaman. Dan masa depan itu kini sumber terbuka.
Sumber
Adakah artikel ini membantu?

Damien
Pembangun AIPembangun AI dari Lyon yang suka menukarkan konsep ML kompleks menjadi resipi ringkas. Apabila tidak menyahpepijat model, anda akan menemui beliau berbasikal melalui lembah RhΓ΄ne.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

Revolusi Video AI Sumber Terbuka: Bolehkah GPU Pengguna Bersaing dengan Gergasi Teknologi?
ByteDance dan Tencent baru sahaja mengeluarkan model video sumber terbuka yang berjalan pada perkakasan pengguna. Ini mengubah segala-galanya untuk pencipta bebas.

YouTube Membawa Veo 3 Fast ke Shorts: Penjanaan Video AI Percuma untuk 2.5 Bilion Pengguna
Google mengintegrasikan model Veo 3 Fast terus ke YouTube Shorts, menawarkan penjanaan video daripada teks dengan audio secara percuma untuk pencipta di seluruh dunia. Inilah maknanya untuk platform dan kebolehcapaian video AI.

Kling 2.6: Pengklonan Suara dan Kawalan Gerakan Mentakrifkan Semula Penciptaan Video AI
Kemas kini terbaru Kuaishou memperkenalkan penjanaan audio-visual serentak, latihan suara tersuai dan tangkapan gerakan tepat yang boleh mengubah cara pencipta menghampiri penghasilan video AI.