Meta Pixel
DamienDamien
7 min read
1386 szó

ByteDance Vidi2: AI, ami úgy érti a videót, mint egy szakértő vágó

A ByteDance most nyílt forráskódúvá tette a Vidi2-t, egy 12 milliárd paraméteres modellt, amely elég jól érti a videó tartalmat ahhoz, hogy órákig tartó felvételeket automatikusan csiszolt klipekké vágjon. Már működteti a TikTok Smart Split funkciót.

ByteDance Vidi2: AI, ami úgy érti a videót, mint egy szakértő vágó

Amíg mindenki a videó generálás iránt rajong, a ByteDance csendben megoldott egy másik problémát: megtanította az AI-t videót érteni, mint egy tapasztalt vágó. A Vidi2 képes órákig tartó nyers felvételeket megnézni és pontosan kinyerni azt, ami számít.

A probléma, amiről senki nem beszél

Ma már hihetetlen AI videó generátoraink vannak. A Runway Gen-4.5 vezeti a minőségi rangsorokat. A Kling O1 szinkronizált hangot generál. De itt van a videó gyártás piszkos titka: az idő nagy része vágásra megy, nem létrehozásra.

Egy esküvői videós 8 órát forgat egy 5 perces összefoglalóhoz. Egy tartalomkészítő 45 percet rögzít, hogy 60 másodperces TikTokot készítsen. Egy vállalati csapatnak 200 óra képzési anyaga van eltemetve a SharePointban.

💡

A videó generálás kapja a címlapokat. A videó értelmezés végzi a tényleges munkát.

A Vidi2 ezt a rést kezeli. Nem még egy generátor. Ez egy AI, amely megnézi a videót, megérti, mi történik, és segít ezzel a tartalommal dolgozni nagy léptékben.

Mit csinál tulajdonképpen a Vidi2

A ByteDance a Vidi2-t "Nagy multimodális modellként a videó értelmezéshez és létrehozásához" írja le. A 12 milliárd paraméteres modell a következőkben jeleskedik:

🔍

Térbeli-időbeli lehorgonyzás

Bármely objektum megtalálása egy videóban és nyomon követése az időben. Nem csak "ott van egy macska 0:32-nél", hanem "a macska belép 0:32-nél, a kanapéra mozog 0:45-nél és elhagyja a képkockát 1:12-nél."

✂️

Intelligens vágás

A felvétel elemzése és vágások javaslása a tartalom alapján. A legjobb pillanatok megtalálása, jelenet határok azonosítása, tempó értelmezése.

📝

Tartalom elemzés

Leírni, mi történik a videóban elég részletesen, hogy hasznos legyen. Nem "két ember beszélget", hanem "interjú szegmens, vendég a termék funkciókat magyarázza, nagy elkötelezettség pillanata 3:45-nél."

🎯

Objektum követés

Objektumok nyomon követése folyamatos "csövekként" a videón keresztül, még akkor is, ha elhagyják és újra belépnek a képkockába. Ez pontos kiválasztást tesz lehetővé effektusokhoz, eltávolításhoz vagy hangsúlyozáshoz.

A technikai innováció: Térbeli-időbeli lehorgonyzás

A korábbi videó AI két dimenzióban dolgozott: tér (mi van ebben a képkockában) vagy idő (mikor történik valami). A Vidi2 mindkettőt kombinálja abban, amit a ByteDance "Térbeli-időbeli lehorgonyzásnak" (STG) nevez.

Hagyományos megközelítés:

  • Térbeli: "Az autó a (450, 320) pixel koordinátákon van"
  • Időbeli: "Egy autó megjelenik 0:15-ös időbélyegnél"
  • Eredmény: Szétkapcsolt információ, amely kézi korrelációt igényel

Vidi2 STG:

  • Kombinált: "A piros autó a (450, 320)-on van 0:15-nél, a (890, 340)-re mozog 0:18-nál, jobbra kilép 0:22-nél"
  • Eredmény: Teljes objektum pálya a térben és időben

Ez azért fontos, mert a valós vágási feladatok mindkét dimenziót igénylik. A "Távolítsd el a mikrofon rúdját" tudnia kell, hol jelenik meg (térbeli) és meddig (időbeli). A Vidi2 ezt egyetlen lekérdezésként kezeli.

Benchmarkok: Legyőzni az óriásokat

12B
Paraméterek
#1
Videó megértése
Open
Forráskód

Itt lesz érdekes. A ByteDance VUE-STG benchmarkján a térbeli-időbeli lehorgonyzáshoz a Vidi2 felülmúlja mind a Gemini 2.0 Flash-t, mind a GPT-4o-t, annak ellenére, hogy mindkettőnél kevesebb paramétere van.

💡

Figyelem: ezeket a benchmarkokat a ByteDance készítette. A független ellenőrzés harmadik fél benchmarkokon megerősítené ezeket az állításokat. Ennek ellenére a speciális architektúra megközelítés megalapozott.

A benchmark eredmények azt sugallják, hogy a videó értelmezés inkább a speciális tervezésből profitál, mint a nyers méretből. Egy alapoktól videóhoz épített modell felülmúlhatja a nagyobb általános célú modelleket, amelyek a videót a kép értelmezés kiterjesztéseként kezelik.

Már a termelésben: TikTok Smart Split

Ez nem ködös tervek. A Vidi2 működteti a TikTok "Smart Split" funkcióját, amely:

  • Automatikusan kinyeri a kiemeléseket hosszú videókból
  • Feliratokat generál, amelyek szinkronizáltak a beszédhez
  • Újraépíti az elrendezést különböző képarányokhoz
  • Azonosítja az optimális vágási pontokat a tartalom alapján

Alkotók milliói használják naponta a Smart Split-et. A modell bizonyított nagy léptékben, nem elméleti.

Nyílt forráskód: Futtassa saját maga

A ByteDance kiadta a Vidi2-t a GitHubon CC BY-NC 4.0 licenc alatt. Ez azt jelenti, hogy ingyenes kutatáshoz, oktatáshoz és személyes projektekhez, de a kereskedelmi használat külön licencelést igényel. A következmények:

Fejlesztők számára:

  • Egyedi videó elemzési pipeline-ok építése
  • Értelmezés integrálása meglévő eszközökbe
  • Finomhangolás specifikus területekhez
  • Nincs API költség nagy léptékben

Vállalatok számára:

  • Érzékeny felvételek helyi feldolgozása
  • Saját vágási munkafolyamatok építése
  • Szállítói beszállítottság elkerülése
  • Testreszabás belső tartalom típusokhoz

A nyílt forráskódú kiadás egy mintát követ, amelyet láttunk az LTX Video és más kínai AI laboratóriumok esetében: erős modellek nyílt kiadása, miközben a nyugati versenytársak a sajátjukat tulajdonként tartják.

Gyakorlati alkalmazások

Hadd mutassam be néhány valós munkafolyamatot, amelyet a Vidi2 lehetővé tesz:

Tartalom újracélzás

Bemenet: 2 órás podcast felvétel Kimenet: 10 rövid klip a legjobb pillanatokból, mindegyik megfelelő intro/outro vágásokkal

A modell azonosítja a vonzó pillanatokat, megtalálja a természetes vágási pontokat és kivon klipeket, amelyek önálló tartalomként működnek.

Képzési videó kezelés

Bemenet: 500 óra vállalati képzési felvétel Lekérdezés: "Találd meg az összes szegmenst, amely az új CRM munkafolyamatot magyarázza"

Kézi görgetés vagy megbízhatatlan metaadatokra hagyatkozás helyett a Vidi2 ténylegesen megnézi és megérti a tartalmat.

Sport kiemelések

Bemenet: Teljes mérkőzés felvétel Kimenet: Kiemelés összeállítás minden pontszerző pillanattal, közeli helyzettel és ünnepléssel

A modell elég jól érti a sport kontextust, hogy azonosítsa a jelentős pillanatokat, nem csak a mozgást.

Megfigyelés áttekintés

Bemenet: 24 óra biztonsági felvétel Lekérdezés: "Találd meg az összes esetet, amikor emberek belépnek az oldalsó ajtón este 6 után"

A térbeli-időbeli lehorgonyzás pontos válaszokat jelent pontos időbélyegekkel és helyszínekkel.

Hogyan hasonlít össze a generatív modellekkel

Videó értelmezés (Vidi2)
  • Meglévő felvételekkel dolgozik
  • Vágási időt takarít meg, nem generálási időt
  • Hatalmas videó könyvtárakra skálázódik
  • Nem igényel kreatív promptolást
  • Azonnal gyakorlati vállalatoknak
Videó generálás (Runway, Sora)
  • Új tartalmat hoz létre a semmiből
  • Kreatív kifejezési eszköz
  • Marketing és reklám alkalmazások
  • Minőség gyorsan növekszik
  • Izgalmas, de más használati eset

Ezek nem versengő technológiák. Különböző problémákat oldanak meg. Egy teljes AI videó munkafolyamathoz mindkettő kell: generálás új tartalom létrehozásához, értelmezés a meglévő tartalommal való munkához.

A nagyobb kép

⚠️

A videó értelmezés az, ahol az AI áttér a "lenyűgöző demóból" a "napi eszközbe". A generálás kapja a figyelmet. Az értelmezés végzi a munkát.

Fontolja meg, mit tesz ez lehetővé:

  • Minden vállalat videó tartalommal rendelkezik archívumokban csapdába ejtve
  • Minden alkotó több időt tölt vágással, mint forgatással
  • Minden platform jobb tartalom moderálást és felfedezést igényel
  • Minden kutató olyan felvételekkel rendelkezik, amelyeket nem tud hatékonyan elemezni

A Vidi2 mindezt kezeli. A nyílt forráskódú kiadás azt jelenti, hogy ezek a képességek most elérhetők bárki számára, aki elegendő számítási kapacitással rendelkezik.

Kezdő lépések

A modell elérhető a GitHubon dokumentációval és demókkal. Követelmények:

  • NVIDIA GPU legalább 24GB VRAM-mal a teljes modellhez
  • Kvantált verziók elérhetők kisebb GPU-khoz
  • Python 3.10+ PyTorch 2.0+-szal

Gyors kezdés:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

A dokumentáció elsősorban angol nyelvű annak ellenére, hogy a ByteDance kínai cég, ami a globális célközönséget tükrözi.

Mit jelent ez az iparág számára

Az AI videó környezet most két különálló sávval rendelkezik:

SávVezetőkFókuszÉrték
GenerálásRunway, Sora, Veo, KlingÚj videó létrehozásaKreatív kifejezés
ÉrtelmezésVidi2, (mások feltűnőben)Meglévő videó elemzéseTermelékenység

Mindkettő érett lesz. Mindkettő integrálódik. A 2026-os teljes AI videó stack zökkenőmentesen generál, vág és ért.

Egyelőre a Vidi2 képviseli a legképesebb nyílt forráskódú opciót videó értelmezéshez. Ha van elemzendő felvétele, automatizálandó vágása vagy rendezendő tartalma, ez a modell az, amit felfedezhet.

Az én véleményem

Éveket töltöttem videó feldolgozási pipeline-ok építésével. Az előtte és utána a Vidi2-höz hasonló modellekkel markáns. Feladatok, amelyek egyedi számítógépes látás stackeket, kézi annotációt és törékeny heurisztikákat igényeltek, most egy prompttal megoldhatók.

💡

A legjobb AI eszközök nem helyettesítik az emberi ítéletet. Eltávolítják az unalmas munkát, amely megakadályozza az embereket abban, hogy nagy léptékben alkalmazzák az ítéletet.

A Vidi2 nem helyettesíti a vágókat. Olyan képességeket ad a vágóknak, amelyek korábban nagy léptékben lehetetlenek voltak. És nyílt hozzáféréssel (nem kereskedelmi használatra), ezek a képességek bárki számára elérhetők, aki hajlandó beállítani az infrastruktúrát.

A videó jövője nem csak generálás. Ez értelmezés. És ez a jövő most nyílt forráskódú.


Források

Hasznos volt ez a cikk?

Damien

Damien

AI Fejlesztő

AI fejlesztő Lyonból, aki szereti az összetett gépi tanulási koncepciókat egyszerű receptekké alakítani. Amikor épp nem modelleket hibakeres, a Rhône-völgyön kerékpározik.

Kapcsolódó cikkek

Fedezd fel ezeket a kapcsolódó bejegyzéseket

Tetszett a cikk?

Fedezz fel további érdekességeket, és maradj naprakész a legújabb tartalmainkkal.

ByteDance Vidi2: AI, ami úgy érti a videót, mint egy szakértő vágó