Meta Pixel
DamienDamien
16 min read
1208 단어

ByteDance Vidi2: 편집자처럼 비디오를 이해하는 AI

ByteDance가 120억 개의 매개변수를 가진 Vidi2를 오픈소스로 공개했습니다. 수 시간의 영상을 자동으로 완성도 높은 클립으로 편집할 수 있을 만큼 비디오 콘텐츠를 깊이 이해하는 모델입니다. 이미 TikTok Smart Split에 활용되고 있습니다.

ByteDance Vidi2: 편집자처럼 비디오를 이해하는 AI

모두가 비디오 생성에 집중하는 동안, ByteDance는 조용히 다른 문제를 해결했습니다. 바로 숙련된 편집자처럼 AI가 비디오를 이해하도록 만드는 것입니다. Vidi2는 수 시간의 원본 영상을 시청하고 정확히 중요한 부분만을 추출할 수 있습니다.

아무도 이야기하지 않는 문제

이제 우리에게는 놀라운 AI 비디오 생성기가 있습니다. Runway Gen-4.5는 품질 차트에서 최상위를 차지하고 있습니다. Kling O1은 동기화된 오디오를 생성합니다. 하지만 비디오 제작의 숨겨진 진실이 있습니다. 대부분의 시간은 생성이 아닌 편집에 소요됩니다.

결혼식 비디오그래퍼는 5분짜리 하이라이트 릴을 위해 8시간의 영상을 촬영합니다. 콘텐츠 크리에이터는 60초짜리 TikTok을 만들기 위해 45분을 녹화합니다. 기업 팀은 SharePoint에 묻혀있는 200시간의 교육 영상을 보유하고 있습니다.

💡

비디오 생성은 헤드라인을 장식합니다. 비디오 이해는 실제 작업을 수행합니다.

Vidi2는 이러한 격차를 해결합니다. 이것은 또 다른 생성기가 아닙니다. 비디오를 시청하고, 무슨 일이 일어나는지 이해하며, 대규모로 해당 콘텐츠 작업을 도와주는 AI입니다.

Vidi2가 실제로 하는 일

ByteDance는 Vidi2를 "비디오 이해 및 생성을 위한 대규모 멀티모달 모델"로 설명합니다. 120억 개의 매개변수 모델은 다음 분야에서 뛰어납니다.

🔍

시공간적 그라운딩

비디오에서 모든 객체를 찾아 시간에 따라 추적합니다. 단순히 "0:32에 고양이가 있다"가 아니라 "고양이가 0:32에 들어와서 0:45에 소파로 이동하고 1:12에 프레임을 벗어난다"는 식입니다.

✂️

지능형 편집

영상을 분석하고 콘텐츠를 기반으로 컷을 제안합니다. 최고의 순간을 찾고, 장면 경계를 식별하며, 페이싱을 이해합니다.

📝

콘텐츠 분석

유용할 정도로 충분한 세부 정보로 비디오에서 일어나는 일을 설명합니다. "두 사람이 대화 중"이 아니라 "인터뷰 세그먼트, 게스트가 제품 기능 설명 중, 3:45에 높은 참여 순간"입니다.

🎯

객체 추적

객체가 프레임을 벗어나고 다시 들어올 때에도 비디오 전체에서 연속적인 "튜브"로 추적합니다. 이를 통해 효과, 제거 또는 강조를 위한 정밀한 선택이 가능합니다.

기술적 혁신: 시공간적 그라운딩

이전의 비디오 AI는 두 가지 차원에서 작동했습니다. 공간(이 프레임에 무엇이 있는가) 또는 시간(무언가가 언제 일어나는가)입니다. Vidi2는 ByteDance가 "시공간적 그라운딩"(STG)이라고 부르는 것으로 둘을 결합합니다.

전통적인 접근 방식:

  • 공간: "차량이 픽셀 좌표 (450, 320)에 있습니다"
  • 시간: "차량이 타임스탬프 0:15에 나타납니다"
  • 결과: 수동 상관관계가 필요한 연결되지 않은 정보

Vidi2 STG:

  • 결합: "빨간 차가 0:15에 (450, 320)에 있고, 0:18에 (890, 340)으로 이동하며, 0:22에 오른쪽으로 나갑니다"
  • 결과: 공간과 시간을 통한 완전한 객체 궤적

이것이 중요한 이유는 실제 편집 작업에 두 차원이 모두 필요하기 때문입니다. "붐 마이크 제거"는 어디에 나타나는지(공간)와 얼마나 오래(시간) 알아야 합니다. Vidi2는 이것을 단일 쿼리로 처리합니다.

벤치마크: 거대 기업들을 능가하다

12B
매개변수
#1
비디오 이해
오픈
소스

여기서 흥미로운 부분이 있습니다. ByteDance의 시공간적 그라운딩 VUE-STG 벤치마크에서 Vidi2는 두 모델보다 적은 매개변수를 가지고 있음에도 불구하고 Gemini 2.0 Flash와 GPT-4o를 모두 능가합니다.

💡

주의사항: 이러한 벤치마크는 ByteDance가 만들었습니다. 제3자 벤치마크에 대한 독립적인 검증이 이러한 주장을 강화할 것입니다. 그렇긴 해도, 특화된 아키텍처 접근 방식은 타당합니다.

벤치마크 결과는 비디오 이해가 원시 규모보다 특화된 설계로부터 더 많은 이점을 얻는다는 것을 시사합니다. 처음부터 비디오를 위해 구축된 모델은 비디오를 이미지 이해의 확장으로 취급하는 더 큰 범용 모델을 능가할 수 있습니다.

이미 프로덕션에 적용: TikTok Smart Split

이것은 허황된 약속이 아닙니다. Vidi2는 TikTok의 "Smart Split" 기능을 구동하며, 다음을 수행합니다.

  • 긴 비디오에서 자동으로 하이라이트 추출
  • 음성에 동기화된 자막 생성
  • 다양한 화면 비율을 위한 레이아웃 재구성
  • 콘텐츠를 기반으로 최적의 컷 포인트 식별

수백만 명의 크리에이터가 매일 Smart Split을 사용합니다. 이 모델은 이론적인 것이 아니라 대규모로 입증되었습니다.

오픈 소스: 직접 실행하기

ByteDance는 CC BY-NC 4.0 라이선스로 GitHub에 Vidi2를 공개했습니다. 이는 연구, 교육 및 개인 프로젝트에는 무료이지만 상업적 사용에는 별도의 라이선스가 필요합니다. 그 의미는 다음과 같습니다.

개발자를 위한:

  • 맞춤형 비디오 분석 파이프라인 구축
  • 기존 도구에 이해 기능 통합
  • 특정 도메인을 위한 미세 조정
  • 대규모 API 비용 없음

기업을 위한:

  • 민감한 영상을 로컬에서 처리
  • 독점 편집 워크플로 구축
  • 벤더 종속 방지
  • 내부 콘텐츠 유형에 맞게 사용자 정의

오픈소스 릴리스는 LTX Video 및 기타 중국 AI 연구소에서 볼 수 있는 패턴을 따릅니다. 서양 경쟁사들이 독점적으로 유지하는 동안 강력한 모델을 공개적으로 릴리스하는 것입니다.

실용적인 응용 분야

Vidi2가 가능하게 하는 실제 워크플로를 살펴보겠습니다.

콘텐츠 재활용

입력: 2시간 팟캐스트 녹음 출력: 각각 적절한 인트로/아웃트로 컷이 있는 최고의 순간 10개의 짧은 클립

모델은 매력적인 순간을 식별하고, 자연스러운 컷 포인트를 찾으며, 독립적인 콘텐츠로 작동하는 클립을 추출합니다.

교육 비디오 관리

입력: 500시간의 기업 교육 영상 쿼리: "새로운 CRM 워크플로를 설명하는 모든 세그먼트 찾기"

수동 스크러빙이나 신뢰할 수 없는 메타데이터에 의존하는 대신, Vidi2는 실제로 콘텐츠를 시청하고 이해합니다.

스포츠 하이라이트

입력: 전체 경기 녹화 출력: 모든 득점 순간, 아슬아슬한 순간, 축하 장면이 있는 하이라이트 릴

모델은 단순한 움직임뿐만 아니라 의미 있는 순간을 식별할 수 있을 만큼 스포츠 맥락을 잘 이해합니다.

감시 검토

입력: 24시간의 보안 영상 쿼리: "오후 6시 이후 측면 문으로 들어오는 사람들의 모든 사례 찾기"

시공간적 그라운딩은 정확한 타임스탬프와 위치가 있는 정확한 답변을 의미합니다.

생성 모델과 비교

비디오 이해 (Vidi2)
  • 기존 영상으로 작업
  • 생성 시간이 아닌 편집 시간 절약
  • 대규모 비디오 라이브러리로 확장
  • 창의적인 프롬프팅 불필요
  • 즉시 기업에 실용적
비디오 생성 (Runway, Sora)
  • 무에서 새로운 콘텐츠 생성
  • 창의적 표현 도구
  • 마케팅 및 광고 응용
  • 품질 빠르게 성장 중
  • 흥미롭지만 다른 사용 사례

이것들은 경쟁 기술이 아닙니다. 서로 다른 문제를 해결합니다. 완전한 AI 비디오 워크플로에는 둘 다 필요합니다. 새로운 콘텐츠 생성을 위한 생성, 기존 콘텐츠 작업을 위한 이해입니다.

더 큰 그림

⚠️

비디오 이해는 AI가 "인상적인 데모"에서 "일상 도구"로 이동하는 곳입니다. 생성은 관심을 끕니다. 이해는 일을 완수합니다.

이것이 가능하게 하는 것을 고려해보십시오.

  • 모든 기업에는 아카이브에 갇혀있는 비디오 콘텐츠가 있습니다
  • 모든 크리에이터는 촬영보다 편집에 더 많은 시간을 소비합니다
  • 모든 플랫폼은 더 나은 콘텐츠 조정 및 발견이 필요합니다
  • 모든 연구자는 효율적으로 분석할 수 없는 영상을 가지고 있습니다

Vidi2는 이 모든 것을 다룹니다. 오픈소스 릴리스는 이러한 기능이 이제 충분한 컴퓨팅 능력을 가진 모든 사람이 접근할 수 있음을 의미합니다.

시작하기

모델은 문서 및 데모와 함께 GitHub에서 사용할 수 있습니다. 요구 사항:

  • 전체 모델을 위한 최소 24GB VRAM의 NVIDIA GPU
  • 더 작은 GPU를 위한 양자화된 버전 사용 가능
  • PyTorch 2.0+가 있는 Python 3.10+

빠른 시작:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

ByteDance가 중국 회사임에도 불구하고 문서는 주로 영어로 되어 있어 글로벌 대상 고객을 반영합니다.

업계에 미치는 의미

AI 비디오 환경에는 이제 두 가지 뚜렷한 트랙이 있습니다.

트랙선두주자초점가치
생성Runway, Sora, Veo, Kling새 비디오 생성창의적 표현
이해Vidi2, (신흥 기타)기존 비디오 분석생산성

둘 다 성숙해질 것입니다. 둘 다 통합될 것입니다. 2026년의 완전한 AI 비디오 스택은 원활하게 생성, 편집 및 이해할 것입니다.

현재로서는 Vidi2가 비디오 이해를 위한 가장 강력한 오픈소스 옵션을 나타냅니다. 분석할 영상, 자동화할 편집 또는 정리할 콘텐츠가 있다면 탐색할 모델입니다.

제 견해

저는 수년간 비디오 처리 파이프라인을 구축해왔습니다. Vidi2와 같은 모델을 사용한 전후는 극명합니다. 맞춤형 컴퓨터 비전 스택, 수동 주석 및 취약한 휴리스틱이 필요했던 작업을 이제 프롬프트로 해결할 수 있습니다.

💡

최고의 AI 도구는 인간의 판단을 대체하지 않습니다. 인간이 대규모로 판단을 적용하는 것을 방해하는 지루한 작업을 제거합니다.

Vidi2는 편집자를 대체하지 않습니다. 이전에는 대규모로 불가능했던 기능을 편집자에게 제공합니다. 그리고 오픈 액세스(비상업적 사용)를 통해 이러한 기능은 인프라를 설정할 의향이 있는 모든 사람이 사용할 수 있습니다.

비디오의 미래는 단순한 생성이 아닙니다. 이해입니다. 그리고 그 미래는 이제 오픈 소스입니다.


출처

이 글이 도움이 되었나요?

Damien

Damien

AI 개발자

복잡한 머신러닝 개념을 간단한 레시피로 바꾸는 것을 좋아하는 리옹 출신 AI 개발자입니다. 모델 디버깅을 하지 않을 때는 론 계곡을 자전거로 누비고 있습니다.

관련 글

관련 글을 더 살펴보세요

이 글이 마음에 드셨나요?

더 많은 인사이트를 발견하고 최신 콘텐츠 소식을 받아보세요.

ByteDance Vidi2: 편집자처럼 비디오를 이해하는 AI