ByteDance Vidi2：編集者のように動画を理解するAI

誰もが動画生成に夢中になっている間、ByteDanceは静かに別の問題を解決しました。それは、AIに経験豊富な編集者のように動画を理解させることです。Vidi2は何時間もの生の映像を見て、重要な部分を正確に抽出できます。

誰も語らない問題

現在、優れたAI動画生成ツールが存在します。Runway Gen-4.5は品質チャートのトップに位置しています。Kling O1は同期した音声を生成します。しかし、動画制作の厳しい現実があります。それは、ほとんどの時間が制作ではなく編集に費やされるということです。

結婚式のビデオグラファーは5分のハイライト動画のために8時間の映像を撮影します。コンテンツクリエイターは60秒のTikTokを作るために45分録画します。企業チームはSharePointに埋もれた200時間のトレーニング映像を抱えています。

💡

動画生成は見出しを飾ります。動画理解が実際の作業を行います。

Vidi2はこのギャップに対処します。これは別の生成ツールではありません。動画を視聴し、何が起こっているかを理解し、そのコンテンツを大規模に扱うのを支援するAIです。

Vidi2が実際に行うこと

ByteDanceはVidi2を「動画理解と制作のためのLarge Multimodal Model」と説明しています。この120億パラメータのモデルは以下の点で優れています：

🔍

時空間グラウンディング

動画内の任意のオブジェクトを見つけ、時間を通して追跡します。単に「0:32に猫がいる」ではなく、「猫は0:32に入り、0:45にソファに移動し、1:12にフレームから出る」というレベルです。

✂️

インテリジェント編集

映像を分析し、コンテンツに基づいてカットを提案します。最高の瞬間を見つけ、シーンの境界を識別し、ペーシングを理解します。

📝

コンテンツ分析

動画で何が起こっているかを、役立つレベルの詳細で説明します。「二人が話している」ではなく、「インタビューセグメント、ゲストが製品機能を説明、3:45に高エンゲージメントの瞬間」というレベルです。

🎯

オブジェクト追跡

オブジェクトを動画を通して連続的な「チューブ」として追跡します。フレームを出入りする場合でも追跡できます。これにより、エフェクト、削除、または強調のための正確な選択が可能になります。

技術的イノベーション：時空間グラウンディング

従来の動画AIは二次元で動作していました。空間（このフレームに何があるか）または時間（何かがいつ起こるか）です。Vidi2は両方を組み合わせて、ByteDanceが「時空間グラウンディング」（STG）と呼ぶものを実現しています。

従来のアプローチ:

空間：「車はピクセル座標（450、320）にある」
時間：「車はタイムスタンプ0:15に現れる」
結果：手動での相関が必要な切断された情報

Vidi2 STG:

統合：「赤い車は0:15に（450、320）にあり、0:18に（890、340）に移動し、0:22に右側に退出する」
結果：空間と時間を通した完全なオブジェクトの軌跡

これが重要なのは、実際の編集タスクには両方の次元が必要だからです。「ブームマイクを削除する」には、それがどこに現れるか（空間）とどれくらいの間（時間）を知る必要があります。Vidi2はこれを単一のクエリとして処理します。

ベンチマーク：巨人を打ち負かす

12B

パラメータ

動画理解

オープン

ソース

ここが興味深い点です。ByteDanceのVUE-STGベンチマーク（時空間グラウンディング用）において、Vidi2はGemini 2.0 FlashとGPT-4oの両方を上回っています。両方よりもパラメータが少ないにもかかわらずです。

💡

注意点：これらのベンチマークはByteDanceによって作成されました。サードパーティのベンチマークでの独立した検証があれば、これらの主張はより強化されるでしょう。とはいえ、専門的なアーキテクチャアプローチは健全です。

ベンチマーク結果は、動画理解が生のスケールよりも専門的な設計から恩恵を受けることを示唆しています。動画のためにゼロから構築されたモデルは、動画を画像理解の拡張として扱うより大きな汎用モデルを上回ることができます。

すでに本番環境で：TikTok Smart Split

これは実現していないものではありません。Vidi2はTikTokの「Smart Split」機能を支えており、以下のことを行います：

✓長い動画から自動的にハイライトを抽出
✓音声に同期した字幕を生成
✓異なるアスペクト比のためにレイアウトを再構築
✓コンテンツに基づいて最適なカットポイントを識別

何百万ものクリエイターが毎日Smart Splitを使用しています。このモデルは大規模で実証されており、理論的なものではありません。

オープンソース：自分で実行する

ByteDanceはVidi2をCC BY-NC 4.0ライセンスでGitHubにリリースしました。これは、研究、教育、個人プロジェクトは無料ですが、商用利用には別途ライセンスが必要であることを意味します。その影響：

開発者向け:

カスタム動画分析パイプラインの構築
既存のツールへの理解の統合
特定のドメインへのファインチューニング
大規模でのAPIコストなし

企業向け:

機密映像をローカルで処理
独自の編集ワークフローの構築
ベンダーロックインの回避
内部コンテンツタイプへのカスタマイズ

このオープンソースリリースは、LTX Videoや他の中国のAIラボで見られるパターンに従っています。西洋の競合他社が独自のものを保持している間、強力なモデルをオープンにリリースしています。

実用的なアプリケーション

Vidi2が可能にするいくつかの実際のワークフローを見てみましょう：

コンテンツの再利用

入力：2時間のポッドキャスト録音出力：最高の瞬間の10の短いクリップ、それぞれ適切なイントロ/アウトロカット付き

モデルは魅力的な瞬間を識別し、自然なカットポイントを見つけ、スタンドアロンコンテンツとして機能するクリップを抽出します。

トレーニング動画管理

入力：500時間の企業トレーニング映像クエリ：「新しいCRMワークフローを説明するすべてのセグメントを見つける」

手動でのスクラビングや信頼できないメタデータに頼る代わりに、Vidi2は実際にコンテンツを視聴して理解します。

スポーツハイライト

入力：フルマッチ録画出力：すべての得点の瞬間、際どいプレー、祝福を含むハイライトリール

モデルはスポーツのコンテキストを十分に理解して、単なる動きではなく意味のある瞬間を識別します。

監視レビュー

入力：24時間のセキュリティ映像クエリ：「午後6時以降に横のドアから入るすべての人を見つける」

時空間グラウンディングは、正確なタイムスタンプと場所での正確な回答を意味します。

生成モデルとの比較

✓動画理解（Vidi2）

既存の映像で動作
生成時間ではなく編集時間を節約
大規模な動画ライブラリにスケール
クリエイティブなプロンプティングは不要
企業にとってすぐに実用的

✓動画生成（Runway、Sora）

ゼロから新しいコンテンツを作成
クリエイティブな表現ツール
マーケティングと広告のアプリケーション
急速に成長する品質
刺激的だが異なる使用例

これらは競合する技術ではありません。異なる問題を解決します。完全なAI動画ワークフローには両方が必要です。新しいコンテンツを作成するための生成、既存のコンテンツを扱うための理解です。

より大きな視点

⚠️

動画理解は、AIが「印象的なデモ」から「日常のツール」に移行する場所です。生成は注目を集めます。理解は作業を完了させます。

これが何を可能にするかを考えてください：

すべての企業がアーカイブに閉じ込められた動画コンテンツを持っている
すべてのクリエイターが撮影よりも編集に多くの時間を費やしている
すべてのプラットフォームがより良いコンテンツモデレーションと発見を必要としている
すべての研究者が効率的に分析できない映像を持っている

Vidi2はこれらすべてに対処します。オープンソースリリースは、これらの機能が十分な計算能力を持つ誰にでも利用可能になったことを意味します。

始め方

モデルはドキュメントとデモ付きでGitHubで利用可能です。要件：

フルモデルには少なくとも24GB VRAMのNVIDIA GPU
より小さなGPU用の量子化バージョンが利用可能
Python 3.10+ with PyTorch 2.0+

クイックスタート:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

ByteDanceは中国企業ですが、ドキュメントは主に英語で、グローバルなターゲットオーディエンスを反映しています。

これが業界にとって何を意味するか

AI動画の状況には現在、2つの異なるトラックがあります：

トラック	リーダー	焦点	価値
生成	Runway、Sora、Veo、Kling	新しい動画を作成	クリエイティブな表現
理解	Vidi2、（他が登場中）	既存の動画を分析	生産性

両方が成熟します。両方が統合されます。2026年の完全なAI動画スタックは、シームレスに生成、編集、理解します。

現時点では、Vidi2は動画理解のための最も有能なオープンソースオプションを表しています。分析する映像、自動化する編集、または整理するコンテンツがある場合、これは探求すべきモデルです。

私の考え

私は何年も動画処理パイプラインの構築に費やしてきました。Vidi2のようなモデルでの前後は明確です。カスタムコンピュータービジョンスタック、手動アノテーション、脆弱なヒューリスティックを必要としたタスクが、今やプロンプトで解決できます。

💡

最高のAIツールは人間の判断を置き換えません。人間が大規模に判断を適用することを妨げる退屈な作業を取り除きます。

Vidi2は編集者を置き換えません。編集者に以前は大規模では不可能だった能力を与えます。そして、オープンアクセス（非商用利用の場合）により、これらの能力はインフラストラクチャを設定する意欲のある誰にでも利用可能です。

動画の未来は生成だけではありません。それは理解です。そして、その未来は今やオープンソースです。

出典

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)