ByteDance Vidi2: AI, ami úgy érti a videót, mint egy szakértő vágó
A ByteDance most nyílt forráskódúvá tette a Vidi2-t, egy 12 milliárd paraméteres modellt, amely elég jól érti a videó tartalmat ahhoz, hogy órákig tartó felvételeket automatikusan csiszolt klipekké vágjon. Már működteti a TikTok Smart Split funkciót.

Amíg mindenki a videó generálás iránt rajong, a ByteDance csendben megoldott egy másik problémát: megtanította az AI-t videót érteni, mint egy tapasztalt vágó. A Vidi2 képes órákig tartó nyers felvételeket megnézni és pontosan kinyerni azt, ami számít.
A probléma, amiről senki nem beszél
Ma már hihetetlen AI videó generátoraink vannak. A Runway Gen-4.5 vezeti a minőségi rangsorokat. A Kling O1 szinkronizált hangot generál. De itt van a videó gyártás piszkos titka: az idő nagy része vágásra megy, nem létrehozásra.
Egy esküvői videós 8 órát forgat egy 5 perces összefoglalóhoz. Egy tartalomkészítő 45 percet rögzít, hogy 60 másodperces TikTokot készítsen. Egy vállalati csapatnak 200 óra képzési anyaga van eltemetve a SharePointban.
A videó generálás kapja a címlapokat. A videó értelmezés végzi a tényleges munkát.
A Vidi2 ezt a rést kezeli. Nem még egy generátor. Ez egy AI, amely megnézi a videót, megérti, mi történik, és segít ezzel a tartalommal dolgozni nagy léptékben.
Mit csinál tulajdonképpen a Vidi2
A ByteDance a Vidi2-t "Nagy multimodális modellként a videó értelmezéshez és létrehozásához" írja le. A 12 milliárd paraméteres modell a következőkben jeleskedik:
Térbeli-időbeli lehorgonyzás
Bármely objektum megtalálása egy videóban és nyomon követése az időben. Nem csak "ott van egy macska 0:32-nél", hanem "a macska belép 0:32-nél, a kanapéra mozog 0:45-nél és elhagyja a képkockát 1:12-nél."
Intelligens vágás
A felvétel elemzése és vágások javaslása a tartalom alapján. A legjobb pillanatok megtalálása, jelenet határok azonosítása, tempó értelmezése.
Tartalom elemzés
Leírni, mi történik a videóban elég részletesen, hogy hasznos legyen. Nem "két ember beszélget", hanem "interjú szegmens, vendég a termék funkciókat magyarázza, nagy elkötelezettség pillanata 3:45-nél."
Objektum követés
Objektumok nyomon követése folyamatos "csövekként" a videón keresztül, még akkor is, ha elhagyják és újra belépnek a képkockába. Ez pontos kiválasztást tesz lehetővé effektusokhoz, eltávolításhoz vagy hangsúlyozáshoz.
A technikai innováció: Térbeli-időbeli lehorgonyzás
A korábbi videó AI két dimenzióban dolgozott: tér (mi van ebben a képkockában) vagy idő (mikor történik valami). A Vidi2 mindkettőt kombinálja abban, amit a ByteDance "Térbeli-időbeli lehorgonyzásnak" (STG) nevez.
Hagyományos megközelítés:
- Térbeli: "Az autó a (450, 320) pixel koordinátákon van"
- Időbeli: "Egy autó megjelenik 0:15-ös időbélyegnél"
- Eredmény: Szétkapcsolt információ, amely kézi korrelációt igényel
Vidi2 STG:
- Kombinált: "A piros autó a (450, 320)-on van 0:15-nél, a (890, 340)-re mozog 0:18-nál, jobbra kilép 0:22-nél"
- Eredmény: Teljes objektum pálya a térben és időben
Ez azért fontos, mert a valós vágási feladatok mindkét dimenziót igénylik. A "Távolítsd el a mikrofon rúdját" tudnia kell, hol jelenik meg (térbeli) és meddig (időbeli). A Vidi2 ezt egyetlen lekérdezésként kezeli.
Benchmarkok: Legyőzni az óriásokat
Itt lesz érdekes. A ByteDance VUE-STG benchmarkján a térbeli-időbeli lehorgonyzáshoz a Vidi2 felülmúlja mind a Gemini 2.0 Flash-t, mind a GPT-4o-t, annak ellenére, hogy mindkettőnél kevesebb paramétere van.
Figyelem: ezeket a benchmarkokat a ByteDance készítette. A független ellenőrzés harmadik fél benchmarkokon megerősítené ezeket az állításokat. Ennek ellenére a speciális architektúra megközelítés megalapozott.
A benchmark eredmények azt sugallják, hogy a videó értelmezés inkább a speciális tervezésből profitál, mint a nyers méretből. Egy alapoktól videóhoz épített modell felülmúlhatja a nagyobb általános célú modelleket, amelyek a videót a kép értelmezés kiterjesztéseként kezelik.
Már a termelésben: TikTok Smart Split
Ez nem ködös tervek. A Vidi2 működteti a TikTok "Smart Split" funkcióját, amely:
- ✓Automatikusan kinyeri a kiemeléseket hosszú videókból
- ✓Feliratokat generál, amelyek szinkronizáltak a beszédhez
- ✓Újraépíti az elrendezést különböző képarányokhoz
- ✓Azonosítja az optimális vágási pontokat a tartalom alapján
Alkotók milliói használják naponta a Smart Split-et. A modell bizonyított nagy léptékben, nem elméleti.
Nyílt forráskód: Futtassa saját maga
A ByteDance kiadta a Vidi2-t a GitHubon CC BY-NC 4.0 licenc alatt. Ez azt jelenti, hogy ingyenes kutatáshoz, oktatáshoz és személyes projektekhez, de a kereskedelmi használat külön licencelést igényel. A következmények:
Fejlesztők számára:
- Egyedi videó elemzési pipeline-ok építése
- Értelmezés integrálása meglévő eszközökbe
- Finomhangolás specifikus területekhez
- Nincs API költség nagy léptékben
Vállalatok számára:
- Érzékeny felvételek helyi feldolgozása
- Saját vágási munkafolyamatok építése
- Szállítói beszállítottság elkerülése
- Testreszabás belső tartalom típusokhoz
A nyílt forráskódú kiadás egy mintát követ, amelyet láttunk az LTX Video és más kínai AI laboratóriumok esetében: erős modellek nyílt kiadása, miközben a nyugati versenytársak a sajátjukat tulajdonként tartják.
Gyakorlati alkalmazások
Hadd mutassam be néhány valós munkafolyamatot, amelyet a Vidi2 lehetővé tesz:
Tartalom újracélzás
Bemenet: 2 órás podcast felvétel Kimenet: 10 rövid klip a legjobb pillanatokból, mindegyik megfelelő intro/outro vágásokkal
A modell azonosítja a vonzó pillanatokat, megtalálja a természetes vágási pontokat és kivon klipeket, amelyek önálló tartalomként működnek.
Képzési videó kezelés
Bemenet: 500 óra vállalati képzési felvétel Lekérdezés: "Találd meg az összes szegmenst, amely az új CRM munkafolyamatot magyarázza"
Kézi görgetés vagy megbízhatatlan metaadatokra hagyatkozás helyett a Vidi2 ténylegesen megnézi és megérti a tartalmat.
Sport kiemelések
Bemenet: Teljes mérkőzés felvétel Kimenet: Kiemelés összeállítás minden pontszerző pillanattal, közeli helyzettel és ünnepléssel
A modell elég jól érti a sport kontextust, hogy azonosítsa a jelentős pillanatokat, nem csak a mozgást.
Megfigyelés áttekintés
Bemenet: 24 óra biztonsági felvétel Lekérdezés: "Találd meg az összes esetet, amikor emberek belépnek az oldalsó ajtón este 6 után"
A térbeli-időbeli lehorgonyzás pontos válaszokat jelent pontos időbélyegekkel és helyszínekkel.
Hogyan hasonlít össze a generatív modellekkel
- Meglévő felvételekkel dolgozik
- Vágási időt takarít meg, nem generálási időt
- Hatalmas videó könyvtárakra skálázódik
- Nem igényel kreatív promptolást
- Azonnal gyakorlati vállalatoknak
- Új tartalmat hoz létre a semmiből
- Kreatív kifejezési eszköz
- Marketing és reklám alkalmazások
- Minőség gyorsan növekszik
- Izgalmas, de más használati eset
Ezek nem versengő technológiák. Különböző problémákat oldanak meg. Egy teljes AI videó munkafolyamathoz mindkettő kell: generálás új tartalom létrehozásához, értelmezés a meglévő tartalommal való munkához.
A nagyobb kép
A videó értelmezés az, ahol az AI áttér a "lenyűgöző demóból" a "napi eszközbe". A generálás kapja a figyelmet. Az értelmezés végzi a munkát.
Fontolja meg, mit tesz ez lehetővé:
- Minden vállalat videó tartalommal rendelkezik archívumokban csapdába ejtve
- Minden alkotó több időt tölt vágással, mint forgatással
- Minden platform jobb tartalom moderálást és felfedezést igényel
- Minden kutató olyan felvételekkel rendelkezik, amelyeket nem tud hatékonyan elemezni
A Vidi2 mindezt kezeli. A nyílt forráskódú kiadás azt jelenti, hogy ezek a képességek most elérhetők bárki számára, aki elegendő számítási kapacitással rendelkezik.
Kezdő lépések
A modell elérhető a GitHubon dokumentációval és demókkal. Követelmények:
- NVIDIA GPU legalább 24GB VRAM-mal a teljes modellhez
- Kvantált verziók elérhetők kisebb GPU-khoz
- Python 3.10+ PyTorch 2.0+-szal
Gyors kezdés:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"A dokumentáció elsősorban angol nyelvű annak ellenére, hogy a ByteDance kínai cég, ami a globális célközönséget tükrözi.
Mit jelent ez az iparág számára
Az AI videó környezet most két különálló sávval rendelkezik:
| Sáv | Vezetők | Fókusz | Érték |
|---|---|---|---|
| Generálás | Runway, Sora, Veo, Kling | Új videó létrehozása | Kreatív kifejezés |
| Értelmezés | Vidi2, (mások feltűnőben) | Meglévő videó elemzése | Termelékenység |
Mindkettő érett lesz. Mindkettő integrálódik. A 2026-os teljes AI videó stack zökkenőmentesen generál, vág és ért.
Egyelőre a Vidi2 képviseli a legképesebb nyílt forráskódú opciót videó értelmezéshez. Ha van elemzendő felvétele, automatizálandó vágása vagy rendezendő tartalma, ez a modell az, amit felfedezhet.
Az én véleményem
Éveket töltöttem videó feldolgozási pipeline-ok építésével. Az előtte és utána a Vidi2-höz hasonló modellekkel markáns. Feladatok, amelyek egyedi számítógépes látás stackeket, kézi annotációt és törékeny heurisztikákat igényeltek, most egy prompttal megoldhatók.
A legjobb AI eszközök nem helyettesítik az emberi ítéletet. Eltávolítják az unalmas munkát, amely megakadályozza az embereket abban, hogy nagy léptékben alkalmazzák az ítéletet.
A Vidi2 nem helyettesíti a vágókat. Olyan képességeket ad a vágóknak, amelyek korábban nagy léptékben lehetetlenek voltak. És nyílt hozzáféréssel (nem kereskedelmi használatra), ezek a képességek bárki számára elérhetők, aki hajlandó beállítani az infrastruktúrát.
A videó jövője nem csak generálás. Ez értelmezés. És ez a jövő most nyílt forráskódú.
Források
Hasznos volt ez a cikk?

Damien
AI FejlesztőAI fejlesztő Lyonból, aki szereti az összetett gépi tanulási koncepciókat egyszerű receptekké alakítani. Amikor épp nem modelleket hibakeres, a Rhône-völgyön kerékpározik.
Kapcsolódó cikkek
Fedezd fel ezeket a kapcsolódó bejegyzéseket

ByteDance Seedance 1.5 Pro: A modell, amely együtt generál hangot és videót
A ByteDance kiadja a Seedance 1.5 Pro-t natív audio-vizuális generálással, mozi-minőségű kameravezérléssel és többnyelvű szájszinkronnal. Ingyenesen elérhető a CapCut-on.

Kling 2.6: A hangklónozás és a mozgásvezérlés újraértelmezi az AI videókészítését
A Kuaishou legújabb frissítése egyidejű audió-vizuális generálást, egyéni hangképzést és precíz mozgásrögzítést hoz, ami alapjaiban változtathatja meg a tartalomkészítők AI videókészítési módszereit.

Pika 2.5: Az AI videó demokratizálása sebesség, ár és kreatív eszközök révén
A Pika Labs kiadja a 2.5-ös verziót, amely gyorsabb generálást, fejlett fizikát és kreatív eszközöket, például Pikaframes-t és Pikaffects-t kombinál, hogy az AI videót mindenki számára elérhetővé tegye.