ByteDance Vidi2: AI, ami úgy érti a videót, mint egy szakértő vágó

Amíg mindenki a videó generálás iránt rajong, a ByteDance csendben megoldott egy másik problémát: megtanította az AI-t videót érteni, mint egy tapasztalt vágó. A Vidi2 képes órákig tartó nyers felvételeket megnézni és pontosan kinyerni azt, ami számít.

A probléma, amiről senki nem beszél

Ma már hihetetlen AI videó generátoraink vannak. A Runway Gen-4.5 vezeti a minőségi rangsorokat. A Kling O1 szinkronizált hangot generál. De itt van a videó gyártás piszkos titka: az idő nagy része vágásra megy, nem létrehozásra.

Egy esküvői videós 8 órát forgat egy 5 perces összefoglalóhoz. Egy tartalomkészítő 45 percet rögzít, hogy 60 másodperces TikTokot készítsen. Egy vállalati csapatnak 200 óra képzési anyaga van eltemetve a SharePointban.

💡

A videó generálás kapja a címlapokat. A videó értelmezés végzi a tényleges munkát.

A Vidi2 ezt a rést kezeli. Nem még egy generátor. Ez egy AI, amely megnézi a videót, megérti, mi történik, és segít ezzel a tartalommal dolgozni nagy léptékben.

Mit csinál tulajdonképpen a Vidi2

A ByteDance a Vidi2-t "Nagy multimodális modellként a videó értelmezéshez és létrehozásához" írja le. A 12 milliárd paraméteres modell a következőkben jeleskedik:

🔍

Térbeli-időbeli lehorgonyzás

Bármely objektum megtalálása egy videóban és nyomon követése az időben. Nem csak "ott van egy macska 0:32-nél", hanem "a macska belép 0:32-nél, a kanapéra mozog 0:45-nél és elhagyja a képkockát 1:12-nél."

✂️

Intelligens vágás

A felvétel elemzése és vágások javaslása a tartalom alapján. A legjobb pillanatok megtalálása, jelenet határok azonosítása, tempó értelmezése.

📝

Tartalom elemzés

Leírni, mi történik a videóban elég részletesen, hogy hasznos legyen. Nem "két ember beszélget", hanem "interjú szegmens, vendég a termék funkciókat magyarázza, nagy elkötelezettség pillanata 3:45-nél."

🎯

Objektum követés

Objektumok nyomon követése folyamatos "csövekként" a videón keresztül, még akkor is, ha elhagyják és újra belépnek a képkockába. Ez pontos kiválasztást tesz lehetővé effektusokhoz, eltávolításhoz vagy hangsúlyozáshoz.

A technikai innováció: Térbeli-időbeli lehorgonyzás

A korábbi videó AI két dimenzióban dolgozott: tér (mi van ebben a képkockában) vagy idő (mikor történik valami). A Vidi2 mindkettőt kombinálja abban, amit a ByteDance "Térbeli-időbeli lehorgonyzásnak" (STG) nevez.

Hagyományos megközelítés:

Térbeli: "Az autó a (450, 320) pixel koordinátákon van"
Időbeli: "Egy autó megjelenik 0:15-ös időbélyegnél"
Eredmény: Szétkapcsolt információ, amely kézi korrelációt igényel

Vidi2 STG:

Kombinált: "A piros autó a (450, 320)-on van 0:15-nél, a (890, 340)-re mozog 0:18-nál, jobbra kilép 0:22-nél"
Eredmény: Teljes objektum pálya a térben és időben

Ez azért fontos, mert a valós vágási feladatok mindkét dimenziót igénylik. A "Távolítsd el a mikrofon rúdját" tudnia kell, hol jelenik meg (térbeli) és meddig (időbeli). A Vidi2 ezt egyetlen lekérdezésként kezeli.

Benchmarkok: Legyőzni az óriásokat

12B

Paraméterek

Videó megértése

Open

Forráskód

Itt lesz érdekes. A ByteDance VUE-STG benchmarkján a térbeli-időbeli lehorgonyzáshoz a Vidi2 felülmúlja mind a Gemini 2.0 Flash-t, mind a GPT-4o-t, annak ellenére, hogy mindkettőnél kevesebb paramétere van.

💡

Figyelem: ezeket a benchmarkokat a ByteDance készítette. A független ellenőrzés harmadik fél benchmarkokon megerősítené ezeket az állításokat. Ennek ellenére a speciális architektúra megközelítés megalapozott.

A benchmark eredmények azt sugallják, hogy a videó értelmezés inkább a speciális tervezésből profitál, mint a nyers méretből. Egy alapoktól videóhoz épített modell felülmúlhatja a nagyobb általános célú modelleket, amelyek a videót a kép értelmezés kiterjesztéseként kezelik.

Már a termelésben: TikTok Smart Split

Ez nem ködös tervek. A Vidi2 működteti a TikTok "Smart Split" funkcióját, amely:

✓Automatikusan kinyeri a kiemeléseket hosszú videókból
✓Feliratokat generál, amelyek szinkronizáltak a beszédhez
✓Újraépíti az elrendezést különböző képarányokhoz
✓Azonosítja az optimális vágási pontokat a tartalom alapján

Alkotók milliói használják naponta a Smart Split-et. A modell bizonyított nagy léptékben, nem elméleti.

Nyílt forráskód: Futtassa saját maga

A ByteDance kiadta a Vidi2-t a GitHubon CC BY-NC 4.0 licenc alatt. Ez azt jelenti, hogy ingyenes kutatáshoz, oktatáshoz és személyes projektekhez, de a kereskedelmi használat külön licencelést igényel. A következmények:

Fejlesztők számára:

Egyedi videó elemzési pipeline-ok építése
Értelmezés integrálása meglévő eszközökbe
Finomhangolás specifikus területekhez
Nincs API költség nagy léptékben

Vállalatok számára:

Érzékeny felvételek helyi feldolgozása
Saját vágási munkafolyamatok építése
Szállítói beszállítottság elkerülése
Testreszabás belső tartalom típusokhoz

A nyílt forráskódú kiadás egy mintát követ, amelyet láttunk az LTX Video és más kínai AI laboratóriumok esetében: erős modellek nyílt kiadása, miközben a nyugati versenytársak a sajátjukat tulajdonként tartják.

Gyakorlati alkalmazások

Hadd mutassam be néhány valós munkafolyamatot, amelyet a Vidi2 lehetővé tesz:

Tartalom újracélzás

Bemenet: 2 órás podcast felvétel Kimenet: 10 rövid klip a legjobb pillanatokból, mindegyik megfelelő intro/outro vágásokkal

A modell azonosítja a vonzó pillanatokat, megtalálja a természetes vágási pontokat és kivon klipeket, amelyek önálló tartalomként működnek.

Képzési videó kezelés

Bemenet: 500 óra vállalati képzési felvétel Lekérdezés: "Találd meg az összes szegmenst, amely az új CRM munkafolyamatot magyarázza"

Kézi görgetés vagy megbízhatatlan metaadatokra hagyatkozás helyett a Vidi2 ténylegesen megnézi és megérti a tartalmat.

Sport kiemelések

Bemenet: Teljes mérkőzés felvétel Kimenet: Kiemelés összeállítás minden pontszerző pillanattal, közeli helyzettel és ünnepléssel

A modell elég jól érti a sport kontextust, hogy azonosítsa a jelentős pillanatokat, nem csak a mozgást.

Megfigyelés áttekintés

Bemenet: 24 óra biztonsági felvétel Lekérdezés: "Találd meg az összes esetet, amikor emberek belépnek az oldalsó ajtón este 6 után"

A térbeli-időbeli lehorgonyzás pontos válaszokat jelent pontos időbélyegekkel és helyszínekkel.

Hogyan hasonlít össze a generatív modellekkel

✓Videó értelmezés (Vidi2)

Meglévő felvételekkel dolgozik
Vágási időt takarít meg, nem generálási időt
Hatalmas videó könyvtárakra skálázódik
Nem igényel kreatív promptolást
Azonnal gyakorlati vállalatoknak

✓Videó generálás (Runway, Sora)

Új tartalmat hoz létre a semmiből
Kreatív kifejezési eszköz
Marketing és reklám alkalmazások
Minőség gyorsan növekszik
Izgalmas, de más használati eset

Ezek nem versengő technológiák. Különböző problémákat oldanak meg. Egy teljes AI videó munkafolyamathoz mindkettő kell: generálás új tartalom létrehozásához, értelmezés a meglévő tartalommal való munkához.

A nagyobb kép

⚠️

A videó értelmezés az, ahol az AI áttér a "lenyűgöző demóból" a "napi eszközbe". A generálás kapja a figyelmet. Az értelmezés végzi a munkát.

Fontolja meg, mit tesz ez lehetővé:

Minden vállalat videó tartalommal rendelkezik archívumokban csapdába ejtve
Minden alkotó több időt tölt vágással, mint forgatással
Minden platform jobb tartalom moderálást és felfedezést igényel
Minden kutató olyan felvételekkel rendelkezik, amelyeket nem tud hatékonyan elemezni

A Vidi2 mindezt kezeli. A nyílt forráskódú kiadás azt jelenti, hogy ezek a képességek most elérhetők bárki számára, aki elegendő számítási kapacitással rendelkezik.

Kezdő lépések

A modell elérhető a GitHubon dokumentációval és demókkal. Követelmények:

NVIDIA GPU legalább 24GB VRAM-mal a teljes modellhez
Kvantált verziók elérhetők kisebb GPU-khoz
Python 3.10+ PyTorch 2.0+-szal

Gyors kezdés:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

A dokumentáció elsősorban angol nyelvű annak ellenére, hogy a ByteDance kínai cég, ami a globális célközönséget tükrözi.

Mit jelent ez az iparág számára

Az AI videó környezet most két különálló sávval rendelkezik:

Sáv	Vezetők	Fókusz	Érték
Generálás	Runway, Sora, Veo, Kling	Új videó létrehozása	Kreatív kifejezés
Értelmezés	Vidi2, (mások feltűnőben)	Meglévő videó elemzése	Termelékenység

Mindkettő érett lesz. Mindkettő integrálódik. A 2026-os teljes AI videó stack zökkenőmentesen generál, vág és ért.

Egyelőre a Vidi2 képviseli a legképesebb nyílt forráskódú opciót videó értelmezéshez. Ha van elemzendő felvétele, automatizálandó vágása vagy rendezendő tartalma, ez a modell az, amit felfedezhet.

Az én véleményem

Éveket töltöttem videó feldolgozási pipeline-ok építésével. Az előtte és utána a Vidi2-höz hasonló modellekkel markáns. Feladatok, amelyek egyedi számítógépes látás stackeket, kézi annotációt és törékeny heurisztikákat igényeltek, most egy prompttal megoldhatók.

💡

A legjobb AI eszközök nem helyettesítik az emberi ítéletet. Eltávolítják az unalmas munkát, amely megakadályozza az embereket abban, hogy nagy léptékben alkalmazzák az ítéletet.

A Vidi2 nem helyettesíti a vágókat. Olyan képességeket ad a vágóknak, amelyek korábban nagy léptékben lehetetlenek voltak. És nyílt hozzáféréssel (nem kereskedelmi használatra), ezek a képességek bárki számára elérhetők, aki hajlandó beállítani az infrastruktúrát.

A videó jövője nem csak generálás. Ez értelmezés. És ez a jövő most nyílt forráskódú.

Források

ByteDance Vidi2 GitHub Repository
Vidi2 Research Paper (arXiv)
ByteDance Releases Vidi2 Open-Source AI Model (WinBuzzer)