Meta Pixel
DamienDamien
7 min read
1360 orð

ByteDance Vidi2: Gervigreind sem skilur myndskeið eins og klippari

ByteDance gaf nýlega út Vidi2 sem opinn hugbúnað, 12 milljarða færibreyta líkan sem skilur myndbandsefni nægilega vel til að breyta klukkutíma löngum upptökum sjálfkrafa í fullunnar klippur. Það knýr nú þegar TikTok Smart Split.

ByteDance Vidi2: Gervigreind sem skilur myndskeið eins og klippari

Á meðan allir einbeita sér að myndbandagerð leysti ByteDance annað vandamál: að fá gervigreind til að skilja myndskeið eins og reyndir klipparar. Vidi2 getur horft á klukkutíma langa hráa upptöku og fundið nákvæmlega það sem skiptir máli.

Vandamálið sem enginn talar um

Við höfum frábæra gervigreinda myndbandagerðarforrit núna. Runway Gen-4.5 er efst á gæðalistanum. Kling O1 býr til samstillt hljóð. En hér er óþægilega sannleikurinn um myndbandagerð: megnið af tímanum fer í klippingu, ekki framleiðslu.

Brúðkaupsmyndatökumaður skráir 8 klukkustundir fyrir 5 mínútna hápunkta. Efnishöfundur tekur upp í 45 mínútur til að búa til 60 sekúndna TikTok. Fyrirtækisteymi er með 200 klukkustundir af þjálfunarefni grafið niður í SharePoint.

💡

Myndbandagerð fær fyrirsagnirnar. Myndbandsskilningur vinnur raunverulega vinnuna.

Vidi2 tekur á þessu bili. Þetta er ekki enn einn gerðarforritið. Þetta er gervigreind sem horfir á myndskeið, skilur hvað er að gerast og hjálpar þér að vinna með það efni í stórum stíl.

Hvað Vidi2 gerir í raun

ByteDance lýsir Vidi2 sem "Large Multimodal Model fyrir myndbandsskilning og gerð." 12 milljarða færibreyta líkanið er öflugt í:

🔍

Rými-tímagrunnur

Finna hvaða hlut sem er í myndskeiði og fylgjast með honum í gegnum tímann. Ekki bara "það er köttur á 0:32" heldur "kötturinn kemur inn á 0:32, færist að sófanum á 0:45 og fer úr mynd á 1:12."

✂️

Gáfuð klipping

Greina upptökur og stinga upp á klippingum byggðum á efni. Finna bestu augnablikin, bera kennsl á sviðsmörk, skilja hraða.

📝

Efnisgreining

Lýsa því sem gerist í myndskeiði með nægum smáatriðum til að vera gagnlegt. Ekki "tveir að tala" heldur "viðtalshluti, gestur útskýrir vörueiginleika, mikill áhugi á 3:45."

🎯

Hluturrakning

Rekja hluti sem samfelldar "pípur" í gegnum myndskeið, jafnvel þegar þeir fara úr mynd og koma aftur inn. Þetta gerir nákvæma valkost fyrir áhrif, fjarlægingu eða áherslu kleift.

Tækninýjungin: Rými-tímagrunnur

Fyrri myndbandagervigreind virkaði í tveim víddum: rúm (hvað er í þessari mynd) eða tíma (hvenær gerist eitthvað). Vidi2 sameinar hvort tveggja í það sem ByteDance kallar "Spatio-Temporal Grounding" (STG).

Hefðbundin nálgun:

  • Rúm: "Bíllinn er á pixlahniti (450, 320)"
  • Tími: "Bíll birtist á tímastimpli 0:15"
  • Niðurstaða: Ótengdar upplýsingar sem krefjast handvirkrar tengingar

Vidi2 STG:

  • Sameinað: "Rauði bíllinn er á (450, 320) á 0:15, færist í (890, 340) á 0:18, fer út til hægri á 0:22"
  • Niðurstaða: Fullkomin hluturferill í gegnum rúm og tíma

Þetta skiptir máli vegna þess að raunveruleg klippiverk krefjast beggja vídda. "Fjarlægja bóminn" þarf að vita hvar hann birtist (rúm) og hve lengi (tími). Vidi2 sér um þetta sem eina fyrirspurn.

Viðmiðunarpróf: Að sigra risin

12B
Færibreytur
#1
Myndbandsskilningur
Opinn
Hugbúnaður

Hér verður þetta áhugavert. Á VUE-STG viðmiðunarprófi ByteDance fyrir rými-tímagrunn er Vidi2 betri en bæði Gemini 2.0 Flash og GPT-4o, þrátt fyrir að hafa færri færibreytur en bæði.

💡

Fyrirvari: þessi viðmiðunarpróf voru búin til af ByteDance. Óháð sannprófun á prófum þriðja aðila myndi styrkja þessar fullyrðingar. Sem sagt, sérhæfð arkitektúrnálgunin er traust.

Niðurstöður viðmiðunarprófanna benda til þess að myndbandsskilningur nýtist betur af sérhæfðri hönnun en hrárri stærðargráðu. Líkan byggt fyrir myndskeið frá grunni getur verið betra en stærri almenn líkön sem meðhöndla myndskeið sem framhald af myndaskilningi.

Þegar í framleiðslu: TikTok Smart Split

Þetta er ekki gufa. Vidi2 knýr "Smart Split" eiginleika TikTok, sem:

  • Dregur sjálfkrafa út hápunkta úr löngum myndböndum
  • Býr til skjátexta samstillta við tal
  • Endurbyggir skipulag fyrir mismunandi stærðarhlutföll
  • Finnur bestu klippingarpunkta byggða á efni

Milljónir höfunda nota Smart Split daglega. Líkanið er sannað í stórum stíl, ekki fræðilegt.

Opinn hugbúnaður: Keyrðu það sjálfur

ByteDance gaf út Vidi2 á GitHub með CC BY-NC 4.0 leyfi. Það þýðir ókeypis fyrir rannsóknir, menntun og persónuleg verkefni, en viðskiptanotkun krefst sérstaks leyfis. Áhrifin:

Fyrir forritara:

  • Byggja sérsniðnar myndbandagreiningarlínur
  • Samþætta skilning við núverandi verkfæri
  • Fínstilla fyrir ákveðin svið
  • Enginn API kostnaður í stórum stíl

Fyrir fyrirtæki:

  • Vinna úr viðkvæmum upptökum staðbundið
  • Byggja sérstætt klippiflæði
  • Forðast lánsþjónustu
  • Sérsníða fyrir innri efnistegundir

Opna hugbúnaðarútgáfan fylgir mynstri sem við höfum séð með LTX Video og öðrum kínverskum gervigreindarstofulaunum: að gefa út öflug líkön opinskátt á meðan vestræn keppinautar halda sínum lokuðum.

Hagnýt notkun

Látum mig fara í gegnum raunveruleg vinnuflæði sem Vidi2 gerir kleift:

Endurnotkun efnis

Inntak: 2 klukkustunda podcast upptaka Úttak: 10 stuttar klippur af bestu augnablikunum, hver með viðeigandi intro/outro klippingu

Líkanið finnur spennandi augnablik, finnur náttúrulega klippingarpunkta og dregur út klippur sem virka sem sjálfstætt efni.

Stjórnun þjálfunarmyndskeiða

Inntak: 500 klukkustundir af fyrirtækjaþjálfunarupptökum Fyrirspurn: "Finndu alla hluta sem útskýra nýja CRM vinnuferlið"

Í stað handvirkrar leitarinnar eða að treysta á óáreiðanlega metadata horfir Vidi2 í raun á og skilur efnið.

Íþróttahápunktar

Inntak: Full leikjaupptaka Úttak: Hápunktaklippa með öllum stigaaugnablikum, nánum uppákomum og fögnuði

Líkanið skilur íþróttasamhengi nægilega vel til að finna merkileg augnablik, ekki bara hreyfingu.

Öryggismyndayfirferð

Inntak: 24 klukkustundir öryggismyndbandsupptaka Fyrirspurn: "Finndu öll tilvik þar sem fólk kemur inn um hliðardyrnar eftir klukkan 6 síðdegis"

Rými-tímagrunnur þýðir nákvæm svör með nákvæmum tímastimplum og staðsetningum.

Hvernig það er borið saman við gerðarlíkön

Myndbandsskilningur (Vidi2)
  • Vinnur með núverandi upptökur
  • Sparar klippitíma, ekki gerðartíma
  • Stækkar í risastór myndbandssöfn
  • Krefst ekki skapandi fyrirspurna
  • Hagnýtt fyrir fyrirtæki strax
Myndbandagerð (Runway, Sora)
  • Býr til nýtt efni úr engu
  • Skapandi tjáningartæki
  • Markaðs- og auglýsinganotkun
  • Vaxandi gæði hratt
  • Spennandi en önnur notkun

Þetta eru ekki samkeppnistækni. Þau leysa mismunandi vandamál. Fullkomið gervigreinda myndbandsvinnuflæði þarfnast beggja: gerð fyrir nýtt efni, skilningur fyrir vinnu með núverandi efni.

Stærri myndin

⚠️

Myndbandsskilningur er þar sem gervigreind færist frá "áhrifamikilli sýningu" í "daglegt verkfæri." Gerð fær athygli. Skilningur vinnur vinnuna.

Hugleiddu hvað þetta gerir kleift:

  • Hvert fyrirtæki er með myndbandsefni fast í skjalasöfnum
  • Hver höfundur eyðir meiri tíma í klippingu en upptöku
  • Hver vettvangur þarf betri efnisstjórnun og uppgötvun
  • Hver rannsakandi er með upptökur sem þeir geta ekki greint á skilvirkan hátt

Vidi2 tekur á þessu öllu. Opna hugbúnaðarútgáfan þýðir að þessi hæfni er nú aðgengileg öllum með nægilegan tölvuafl.

Að byrja

Líkanið er aðgengilegt á GitHub með skjölum og sýningum. Kröfur:

  • NVIDIA GPU með að minnsta kosti 24GB VRAM fyrir fullt líkan
  • Magnbirtar útgáfur í boði fyrir minni GPU
  • Python 3.10+ með PyTorch 2.0+

Fljótlegur upphafspunktur:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Skjölin eru aðallega á ensku þrátt fyrir að ByteDance sé kínverskt fyrirtæki, sem endurspeglar alþjóðlega markhóp.

Hvað þetta þýðir fyrir greinina

Gervigreinda myndbandssviðið hefur nú tvær aðskildar brautir:

BrautLeiðtogarÁherslaGildi
GerðRunway, Sora, Veo, KlingBúa til nýtt myndskeiðSkapandi tjáning
SkilningurVidi2, (aðrir að koma)Greina núverandi myndskeiðFramleiðni

Bæði munu þroskast. Bæði munu sameinast. Fullkomna gervigreinda myndbandsstakkurinn 2026 mun búa til, klippa og skilja hnökralaust.

Í bili er Vidi2 öflugasti opni hugbúnaðurkosturinn fyrir myndbandsskilning. Ef þú ert með upptökur til að greina, klippingu til að gera sjálfvirka eða efni til að skipuleggja er þetta líkanið til að kanna.

Mín skoðun

Ég hef eytt árum í að byggja myndbandsvinnslulínur. Munurinn fyrir og eftir með líkönum eins og Vidi2 er skýr. Verkefni sem kröfðust sérsniðinna tölvusjónstakka, handvirkrar merkingar og brothættra heuristics er nú hægt að leysa með fyrirspurn.

💡

Bestu gervigreindatækin koma ekki í stað mannlegs mats. Þau fjarlægja leiðinlegu vinnuna sem kemur í veg fyrir að menn geti beitt mati í stórum stíl.

Vidi2 kemur ekki í stað klippara. Það gefur klippurum hæfni sem áður var ómöguleg í stórum stíl. Og með opnum aðgangi (fyrir óviðskiptalega notkun) er þessi hæfni aðgengileg öllum sem eru tilbúnir að setja upp innviðina.

Framtíð myndskeiðs er ekki bara gerð. Það er skilningur. Og sú framtíð er nú opinn hugbúnaður.


Heimildir

Var þessi grein gagnleg?

Damien

Damien

Gervigreindarforritari

Gervigreindarforritari frá Lyon sem elskar að breyta flóknum ML hugmyndum í einfaldar uppskriftir. Þegar hann er ekki að kemba villur úr líkönum finnurðu hann á hjólinu í gegnum Rhône dalinn.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

ByteDance Vidi2: Gervigreind sem skilur myndskeið eins og klippari