ByteDance Vidi2: AI li Tifhem il-Vidjow bħal Editor Professjonali
ByteDance għadu kemm ħareġ Vidi2, mudell ta' 12B parametru li jifhem il-kontenut tal-vidjow tajjeb biżżejjed biex awtomatikament jeditja sigħat ta' filmati f'clips raffinati. Diġà jħaddem TikTok Smart Split.

Filwaqt li kulħadd jossessjonaw fuq il-ġenerazzjoni tal-vidjow, ByteDance solviet problema differenti bil-kwiet: ħolqot AI li tifhem il-vidjow bħal editor esperjenzat. Vidi2 tista' tara sigħat ta' filmati mhux maħduma u testratta eżattament dak li jgħodd.
Il-Problema li Ħadd Ma Jitkellimx Dwariha
Għandna ġeneraturi tal-vidjow tal-AI inkredibbli issa. Runway Gen-4.5 jmexxil-charts tal-kwalità. Kling O1 jiġġenera awdjo sinkronizzat. Imma dan huwa s-sigriet mhux tant sabiħ tal-produzzjoni tal-vidjow: il-biċċa l-kbira tal-ħin tmur fl-editing, mhux fil-ħolqien.
Vidjogrfu ta' tieġ jirreġistra 8 sigħat ta' filmati biex jagħmel highlight reel ta' 5 minuti. Kreatur tal-kontenut jirrekordja 45 minuta biex jagħmel TikTok ta' 60 sekonda. Tim ta' intrapriża għandu 200 siegħa ta' filmati ta' taħriġ midfuna fi SharePoint.
Il-ġenerazzjoni tal-vidjow tirċievi t-titoli. Il-fehim tal-vidjow jagħmel ix-xogħol veru.
Vidi2 tindirizza din il-lakuna. M'hijiex ġeneratur ieħor. Hija AI li tara vidjow, tifhem x'qed jiġri, u tgħinek taħdem ma' dak il-kontenut fuq skala.
X'tagħmel Vidi2 Fir-Realtà
ByteDance tiddeskrivi Vidi2 bħala "Mudell Multimodali Kbir għall-Fehim u l-Ħolqien tal-Vidjow." Il-mudell ta' 12-il biljun parametru jeċċella f':
Spatio-Temporal Grounding
Sib kwalunkwe oġġett f'vidjow u ssegwih mal-ħin. Mhux biss "hemm qattus fl-0:32" imma "il-qattus jidħol fl-0:32, jimxi lejn is-sufan fl-0:45, u joħroġ mill-frame fl-1:12."
Editing Intelliġenti
Analizza filmati u ssugġerixxi qtugħ ibbażati fuq il-kontenut. Sib l-aħjar mumenti, identifika l-konfini tax-xena, ifhem ir-ritmu.
Analiżi tal-Kontenut
Iddeskrivi x'jiġri fil-vidjow b'dettalji biżżejjed biex tkun utli. Mhux "żewġ persuni jitkellmu" imma "segment ta' intervista, mistieden jispjega l-karatteristiċi tal-prodott, mument ta' engagement għoli fl-3:45."
Tracking tal-Oġġetti
Issegwi l-oġġetti bħala "tubes" kontinwi permezz tal-vidjow, anki meta joħorġu u jerġgħu jidħlu fil-frame. Dan jippermetti għażla preċiża għal effetti, tneħħija, jew enfasi.
L-Innovazzjoni Teknika: Spatio-Temporal Grounding
L-AI tal-vidjow preċedenti ħadmet f'żewġ dimensjonijiet: spazju (x'hemm f'dan il-frame) jew ħin (meta jiġri xi ħaġa). Vidi2 tgħaqqad it-tnejn f'dak li ByteDance tissejjaħ "Spatio-Temporal Grounding" (STG).
Approċċ Tradizzjonali:
- Spazjali: "Il-karozza hija fil-koordinati tal-pixel (450, 320)"
- Temporali: "Karozza tidher fit-timestamp 0:15"
- Riżultat: Informazzjoni maqtugħa li teħtieġ korrelazzjoni manwali
Vidi2 STG:
- Magħquda: "Il-karozza ħamra hija f'(450, 320) fl-0:15, timxi lejn (890, 340) fl-0:18, toħroġ mil-lemin fl-0:22"
- Riżultat: Traġettorja kompluta tal-oġġett fl-ispazju u fiż-żmien
Dan huwa importanti għax dmirijiet ta' editing reali jeħtieġu ż-żewġ dimensjonijiet. "Neħħi l-boom mic" jeħtieġ tkun taf fejn jidher (spazjali) u għal kemm żmien (temporali). Vidi2 timmaniġġja dan bħala query waħda.
Benchmarks: Tirbħu l-Kbarat
Hawn huwa fejn isir interessanti. Fuq il-benchmark VUE-STG ta' ByteDance għall-spatio-temporal grounding, Vidi2 taqbeż kemm Gemini 2.0 Flash kif ukoll GPT-4o, minkejja li għandha inqas parametri mit-tnejn.
Kawtela: dawn il-benchmarks inħolqu minn ByteDance. Verifika indipendenti fuq benchmarks ta' partijiet terzi tkabbar dawn l-allegazzjonijiet. Madankollu, l-approċċ ta' arkitettura speċjalizzata huwa sod.
Ir-riżultati tal-benchmark jissuġġerixxu li l-fehim tal-vidjow jibbenefikaw minn disinn speċjalizzat aktar milli minn skala pura. Mudell mibni għall-vidjow mill-bidu jista' jaqbeż mudelli akbar ta' skop ġenerali li jittrattaw il-vidjow bħala estensjoni tal-fehim tal-immaġni.
Diġà fil-Produzzjoni: TikTok Smart Split
Dan mhux vaporware. Vidi2 tħaddem il-karatteristika "Smart Split" ta' TikTok, li:
- ✓Testratta awtomatikament highlights minn vidjows twal
- ✓Tiġġenera subtitles sinkronizzati mal-kliem
- ✓Tirrikostrwixxi l-layout għal proporzjonijiet aspett differenti
- ✓Tidentifika l-aħjar punti ta' qtugħ ibbażati fuq il-kontenut
Miljuni ta' kreaturi jużaw Smart Split kuljum. Il-mudell huwa pruvat fuq skala, mhux teoretiku.
Open Source: Mexxi Int Stess
ByteDance ħarġet Vidi2 fuq GitHub taħt liċenzja CC BY-NC 4.0. Dan ifisser b'xejn għar-riċerka, l-edukazzjoni, u l-proġetti personali, iżda l-użu kummerċjali jeħtieġ liċenzjar separat. L-implikazzjonijiet:
Għall-Iżviluppaturi:
- Ibni pipelines personalizzati ta' analiżi tal-vidjow
- Integra l-fehim fl-għodod eżistenti
- Fine-tune għal dominji speċifiċi
- Ebda spejjeż tal-API fuq skala
Għall-Intrapriżi:
- Ipproċessa filmati sensittivi lokalment
- Ibni workflows ta' editing propjetarji
- Evita vendor lock-in
- Personalizza għal tipi ta' kontenut intern
Ir-rilaxxa open-source issegwi pattern li rajna ma' LTX Video u laboratorji oħra tal-AI Ċiniżi: jirrilaxxa mudelli qawwija miftuħa filwaqt li l-kompetituri tal-Punent iżommuhom propjetarji.
Applikazzjonijiet Prattiċi
Ħa nimxi miegħek permezz ta' xi workflows reali li Vidi2 tippermetti:
Ripproponar tal-Kontenut
Input: Irrekordjar ta' podcast ta' sagħtejn Output: 10 clips qosra tal-aħjar mumenti, kull wieħed b'cuts intro/outro xierqa
Il-mudell jidentifika mumenti ingaġġanti, isib punti ta' qtugħ naturali, u jestratta clips li jaħdmu bħala kontenut awtonomu.
Ġestjoni ta' Vidjows ta' Taħriġ
Input: 500 siegħa ta' filmati ta' taħriġ korporattiv Query: "Sib is-segmenti kollha li jispjegaw il-workflow il-ġdid tal-CRM"
Minflok ta' scrubbing manwali jew li ssir tafda fuq metadata mhux affidabbli, Vidi2 tara u tifhem il-kontenut fir-realtà.
Highlights tal-Isports
Input: Irrekordjar sħiħ ta' partita Output: Highlight reel bil-mumenti kollha ta' skorjar, każijiet qrib, u ċelebrazzjonijiet
Il-mudell tifhem il-kuntest tal-isports tajjeb biżżejjed biex tidentifika mumenti ta' sinjifikat, mhux biss moviment.
Reviżjoni ta' Sorveljanza
Input: 24 siegħa ta' filmati ta' sigurtà Query: "Sib l-istanzi kollha ta' nies li jidħlu mill-bieb tal-ġenb wara s-6 PM"
Spatio-temporal grounding tfisser tweġibiet preċiżi b'timestamps u postijiet eżatti.
Kif Taqabbel ma' Mudelli ta' Ġenerazzjoni
- Taħdem ma' filmati eżistenti
- Tiffranka ħin ta' editing, mhux ħin ta' ġenerazzjoni
- Tiskala għal libreriji massivi tal-vidjow
- Ebda prompting kreattiv meħtieġ
- Prattiku għall-intrapriża immedjatament
- Toħloq kontenut ġdid mix-xejn
- Għodda ta' espressjoni kreattiva
- Applikazzjonijiet ta' marketing u reklami
- Kwalità tikber malajr
- Eċċitanti iżda każijiet ta' użu differenti
Dawn mhumiex teknoloġiji kompetittivi. Isolvu problemi differenti. Workflow komplut tal-AI tal-vidjow jeħtieġ it-tnejn: ġenerazzjoni biex toħloq kontenut ġdid, fehim biex taħdem ma' kontenut eżistenti.
Il-Kwadru Ikbar
Il-fehim tal-vidjow huwa fejn l-AI timxi minn "demo impressjonanti" għal "għodda ta' kuljum." Il-ġenerazzjoni tirċievi l-attenzjoni. Il-fehim jagħmel ix-xogħol.
Ikkunsidra x'dan jippermetti:
- Kull intrapriża għandha kontenut tal-vidjow imqaxxar fl-arkivji
- Kull kreatur jqatta' aktar ħin jeditja milli jirreġistra
- Kull pjattaforma għandha bżonn moderazzjoni u skoperta aħjar tal-kontenut
- Kull riċerkatur għandu filmati li ma jistax janalizza b'mod effiċjenti
Vidi2 tindirizza dan kollu. Ir-rilaxxa open-source tfisser li dawn il-kapaċitajiet issa huma aċċessibbli għal kull min għandu kompjuta suffiċjenti.
Kif Tibda
Il-mudell huwa disponibbli fuq GitHub b'dokumentazzjoni u demos. Rekwiżiti:
- GPU NVIDIA b'mill-inqas 24GB VRAM għall-mudell sħiħ
- Verżjonijiet quantized disponibbli għal GPUs iżgħar
- Python 3.10+ b'PyTorch 2.0+
Quick Start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Id-dokumentazzjoni hija primarjament bl-Ingliż minkejja li ByteDance hija kumpanija Ċiniża, li tirrifletti l-udjenza globali fil-mira.
X'Dan Ifisser għall-Industrija
Il-pajsaġġ tal-AI tal-vidjow issa għandu żewġ binari distinti:
| Binarju | Leaders | Fokus | Valur |
|---|---|---|---|
| Ġenerazzjoni | Runway, Sora, Veo, Kling | Oħloq vidjow ġdid | Espressjoni kreattiva |
| Fehim | Vidi2, (oħrajn li qed joħorġu) | Analizza vidjow eżistenti | Produttività |
It-tnejn se jimmaturaw. It-tnejn se jintegraw. L-istiva kompluta tal-AI tal-vidjow tal-2026 se tiġġenera, teditja, u tifhem b'mod seamless.
Għalissa, Vidi2 tirrappreżenta l-aktar għażla kapaċi open-source għall-fehim tal-vidjow. Jekk għandek filmati biex tanalizza, editing biex awtomatizza, jew kontenut biex torganizza, dan huwa l-mudell biex tesplora.
Il-Fehmda Tiegħi
Qattajt snin nibni pipelines ta' pproċessar tal-vidjow. Il-qabel u wara b'mudelli bħal Vidi2 huwa stark. Dmirijiet li kienu jeħtieġu stacks ta' kompjuter vision personalizzati, annotazzjoni manwali, u euristiċi fraġli issa jistgħu jinsolvu b'prompt.
L-aħjar għodod tal-AI ma jissostitwixxux il-ġudizzju uman. Ineħħu x-xogħol tedjuż li jipprevjeni lill-bnedmin milli japplikaw ġudizzju fuq skala.
Vidi2 ma tissostitwixxix editors. Tagħti lill-editors kapaċitajiet li kienu qabel impossibbli fuq skala. U b'aċċess miftuħ (għal użu mhux kummerċjali), dawn il-kapaċitajiet huma disponibbli għal kull min hu lest li jwaqqaf l-infrastruttura.
Il-futur tal-vidjow mhux biss ġenerazzjoni. Huwa fehim. U dak il-futur issa huwa open source.
Sorsi
Dan l-artiklu kien utli?

Damien
Żviluppatur AIŻviluppatur AI minn Lyon li jħobb itrasforma kunċetti kumplessi tal-ML f'riċetti sempliċi. Meta ma jkunx qed jiddebbugja mudelli, issibuh jiċċikla mal-wied tar-Rhône.
Artikli Relatati
Kompli esplora b'dawn il-postijiet relatati

ByteDance Seedance 1.5 Pro: Il-Mudell Li Jiġġenera Audio u Vidjo Flimkien
ByteDance tirrilaxxa Seedance 1.5 Pro b'ġenerazzjoni awdjoviżiva nattiva, kontrolli tal-kamera ta' livell tas-cinema, u sinkronizzazzjoni tal-labbra multilingwi. Disponibbli b'xejn fuq CapCut.

YouTube Iġib Veo 3 Fast għal Shorts: Ġenerazzjoni ta' Video bl-IA B'xejn għal 2.5 Biljun Utent
Google tintegra l-mudell Veo 3 Fast direttament f'YouTube Shorts, toffri ġenerazzjoni ta' video mit-test għall-awdjo b'xejn għall-kreaturi madwar id-dinja. Dan hu x'ifisser għall-pjattaforma u l-aċċessibbiltà tal-video bl-IA.

Kling 2.6: Il-Klonazzjoni tal-Vuci u l-Kontroll tal-Moviment Jiddefinixxi mill-Gdid il-Kreazzjoni ta' Vidjo bl-AI
L-ahhar aggiornament ta' Kuaishou jintroduci generazzjoni simultanja awdjo-vizwali, tahrig personalizzat tal-vuci, u motion capture preciz li jista' jibdel kif il-kreaturi japprowcjaw il-produzzjoni ta' vidjo bl-AI.