Meta Pixel
DamienDamien
11 min read
2049 từ

ByteDance Vidi2: AI hiểu video như một biên tập viên

ByteDance vừa mở mã nguồn Vidi2, mô hình 12 tỷ tham số hiểu nội dung video đủ tốt để tự động biên tập hàng giờ cảnh quay thành các clip hoàn thiện. Nó đã cung cấp sức mạnh cho TikTok Smart Split.

ByteDance Vidi2: AI hiểu video như một biên tập viên

Trong khi mọi người đều ám ảnh với việc tạo video, ByteDance đã lặng lẽ giải quyết một vấn đề khác: làm cho AI hiểu video như một biên tập viên có kinh nghiệm. Vidi2 có thể xem hàng giờ cảnh quay thô và trích xuất chính xác những gì quan trọng.

Vấn đề không ai nói đến

Bây giờ chúng ta có những bộ tạo video AI đáng kinh ngạc. Runway Gen-4.5 đứng đầu bảng xếp hạng chất lượng. Kling O1 tạo âm thanh đồng bộ. Nhưng đây là bí mật bẩn thỉu của sản xuất video: phần lớn thời gian dành cho việc biên tập, không phải sáng tạo.

Một người quay phim đám cưới quay 8 giờ cảnh quay cho một đoạn video điểm nổi bật 5 phút. Một người sáng tạo nội dung ghi âm 45 phút để tạo TikTok 60 giây. Một nhóm doanh nghiệp có 200 giờ cảnh quay đào tạo bị chôn vùi trong SharePoint.

💡

Tạo video lên trang nhất. Hiểu video làm công việc thực sự.

Vidi2 giải quyết khoảng trống này. Nó không phải là một bộ tạo khác. Đó là một AI xem video, hiểu những gì đang xảy ra và giúp bạn làm việc với nội dung đó ở quy mô lớn.

Vidi2 thực sự làm gì

ByteDance mô tả Vidi2 là "Mô hình đa phương thức lớn để hiểu và sáng tạo video". Mô hình 12 tỷ tham số xuất sắc trong:

🔍

Định vị không gian-thời gian

Tìm bất kỳ đối tượng nào trong video và theo dõi nó theo thời gian. Không chỉ "có một con mèo ở 0:32" mà là "con mèo vào ở 0:32, di chuyển đến ghế sofa ở 0:45, và rời khỏi khung hình ở 1:12."

✂️

Biên tập thông minh

Phân tích cảnh quay và đề xuất các cắt dựa trên nội dung. Tìm những khoảnh khắc tốt nhất, xác định ranh giới cảnh, hiểu nhịp độ.

📝

Phân tích nội dung

Mô tả những gì xảy ra trong video với đủ chi tiết để hữu ích. Không phải "hai người đang nói chuyện" mà là "đoạn phỏng vấn, khách giải thích các tính năng sản phẩm, khoảnh khắc tương tác cao ở 3:45."

🎯

Theo dõi đối tượng

Theo dõi các đối tượng như "ống" liên tục qua video, ngay cả khi chúng rời khỏi và quay lại khung hình. Điều này cho phép lựa chọn chính xác cho hiệu ứng, loại bỏ hoặc nhấn mạnh.

Đổi mới kỹ thuật: Định vị không gian-thời gian

AI video trước đây hoạt động theo hai chiều: không gian (có gì trong khung hình này) hoặc thời gian (khi nào điều gì đó xảy ra). Vidi2 kết hợp cả hai thành cái mà ByteDance gọi là "Định vị không gian-thời gian" (STG).

Cách tiếp cận truyền thống:

  • Không gian: "Chiếc xe ở tọa độ pixel (450, 320)"
  • Thời gian: "Một chiếc xe xuất hiện ở dấu thời gian 0:15"
  • Kết quả: Thông tin bị ngắt kết nối yêu cầu tương quan thủ công

Vidi2 STG:

  • Kết hợp: "Chiếc xe đỏ ở (450, 320) lúc 0:15, di chuyển đến (890, 340) lúc 0:18, thoát bên phải lúc 0:22"
  • Kết quả: Quỹ đạo đối tượng hoàn chỉnh qua không gian và thời gian

Điều này quan trọng vì các tác vụ biên tập thực tế yêu cầu cả hai chiều. "Loại bỏ mic boom" cần biết nó xuất hiện ở đâu (không gian) và trong bao lâu (thời gian). Vidi2 xử lý điều này như một truy vấn duy nhất.

Điểm chuẩn: Đánh bại những gã khổng lồ

12B
Tham số
#1
Hiểu video
Mở
Nguồn

Đây là nơi thú vị. Trên điểm chuẩn VUE-STG của ByteDance cho định vị không gian-thời gian, Vidi2 vượt trội cả Gemini 2.0 Flash và GPT-4o, mặc dù có ít tham số hơn cả hai.

💡

Một lưu ý: các điểm chuẩn này được tạo bởi ByteDance. Xác minh độc lập trên các điểm chuẩn của bên thứ ba sẽ củng cố những tuyên bố này. Điều đó nói rằng, phương pháp kiến trúc chuyên biệt là đúng đắn.

Kết quả điểm chuẩn cho thấy việc hiểu video hưởng lợi từ thiết kế chuyên biệt nhiều hơn quy mô thô. Một mô hình được xây dựng cho video từ đầu có thể vượt trội hơn các mô hình mục đích chung lớn hơn coi video như một phần mở rộng của hiểu hình ảnh.

Đã hoạt động: TikTok Smart Split

Đây không phải là hàng ảo. Vidi2 cung cấp sức mạnh cho tính năng "Smart Split" của TikTok, thực hiện:

  • Tự động trích xuất điểm nổi bật từ video dài
  • Tạo phụ đề đồng bộ với lời nói
  • Tái tạo bố cục cho các tỷ lệ khung hình khác nhau
  • Xác định điểm cắt tối ưu dựa trên nội dung

Hàng triệu người sáng tạo sử dụng Smart Split hàng ngày. Mô hình được chứng minh ở quy mô, không phải lý thuyết.

Mã nguồn mở: Chạy tự mình

ByteDance phát hành Vidi2 trên GitHub theo giấy phép CC BY-NC 4.0. Điều đó có nghĩa là miễn phí cho nghiên cứu, giáo dục và dự án cá nhân, nhưng sử dụng thương mại yêu cầu cấp phép riêng. Hệ quả:

Cho nhà phát triển:

  • Xây dựng các đường ống phân tích video tùy chỉnh
  • Tích hợp hiểu biết vào các công cụ hiện có
  • Tinh chỉnh cho các lĩnh vực cụ thể
  • Không có chi phí API ở quy mô lớn

Cho doanh nghiệp:

  • Xử lý cảnh quay nhạy cảm cục bộ
  • Xây dựng quy trình biên tập độc quyền
  • Tránh khóa nhà cung cấp
  • Tùy chỉnh cho các loại nội dung nội bộ

Bản phát hành mã nguồn mở theo mô hình mà chúng ta đã thấy với LTX Video và các phòng thí nghiệm AI Trung Quốc khác: phát hành các mô hình mạnh mẽ một cách công khai trong khi các đối thủ phương Tây giữ mô hình của họ độc quyền.

Ứng dụng thực tế

Hãy để tôi hướng dẫn một số quy trình làm việc thực tế mà Vidi2 cho phép:

Tái sử dụng nội dung

Đầu vào: Bản ghi podcast 2 giờ Đầu ra: 10 clip ngắn về những khoảnh khắc tốt nhất, mỗi clip có cắt giới thiệu/kết thúc phù hợp

Mô hình xác định các khoảnh khắc hấp dẫn, tìm điểm cắt tự nhiên và trích xuất các clip hoạt động như nội dung độc lập.

Quản lý video đào tạo

Đầu vào: 500 giờ cảnh quay đào tạo doanh nghiệp Truy vấn: "Tìm tất cả các đoạn giải thích quy trình làm việc CRM mới"

Thay vì tua thủ công hoặc dựa vào siêu dữ liệu không đáng tin cậy, Vidi2 thực sự xem và hiểu nội dung.

Điểm nổi bật thể thao

Đầu vào: Bản ghi trận đấu đầy đủ Đầu ra: Đoạn phim nổi bật với tất cả các khoảnh khắc ghi bàn, tình huống sát nút và ăn mừng

Mô hình hiểu bối cảnh thể thao đủ tốt để xác định các khoảnh khắc có ý nghĩa, không chỉ là chuyển động.

Xem xét giám sát

Đầu vào: 24 giờ cảnh quay an ninh Truy vấn: "Tìm tất cả các trường hợp người vào qua cửa bên sau 6 giờ chiều"

Định vị không gian-thời gian có nghĩa là câu trả lời chính xác với dấu thời gian và vị trí chính xác.

So sánh với các mô hình tạo

Hiểu video (Vidi2)
  • Làm việc với cảnh quay hiện có
  • Tiết kiệm thời gian biên tập, không phải thời gian tạo
  • Mở rộng quy mô đến thư viện video khổng lồ
  • Không cần nhắc nhở sáng tạo
  • Thực tế cho doanh nghiệp ngay lập tức
Tạo video (Runway, Sora)
  • Tạo nội dung mới từ con số không
  • Công cụ biểu đạt sáng tạo
  • Ứng dụng tiếp thị và quảng cáo
  • Chất lượng tăng nhanh
  • Thú vị nhưng trường hợp sử dụng khác

Đây không phải là các công nghệ cạnh tranh. Chúng giải quyết các vấn đề khác nhau. Một quy trình làm việc video AI hoàn chỉnh cần cả hai: tạo để tạo nội dung mới, hiểu để làm việc với nội dung hiện có.

Bức tranh lớn hơn

⚠️

Hiểu video là nơi AI chuyển từ "bản demo ấn tượng" sang "công cụ hàng ngày". Tạo nhận được sự chú ý. Hiểu hoàn thành công việc.

Hãy xem xét điều này cho phép:

  • Mọi doanh nghiệp đều có nội dung video bị mắc kẹt trong lưu trữ
  • Mọi người sáng tạo đều dành nhiều thời gian biên tập hơn quay phim
  • Mọi nền tảng đều cần kiểm duyệt và khám phá nội dung tốt hơn
  • Mọi nhà nghiên cứu đều có cảnh quay họ không thể phân tích hiệu quả

Vidi2 giải quyết tất cả những điều này. Bản phát hành mã nguồn mở có nghĩa là các khả năng này hiện có thể truy cập được cho bất kỳ ai có đủ tính toán.

Bắt đầu

Mô hình có sẵn trên GitHub với tài liệu và bản demo. Yêu cầu:

  • GPU NVIDIA với ít nhất 24GB VRAM cho mô hình đầy đủ
  • Các phiên bản lượng tử hóa có sẵn cho GPU nhỏ hơn
  • Python 3.10+ với PyTorch 2.0+

Bắt đầu nhanh:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Tài liệu chủ yếu bằng tiếng Anh mặc dù ByteDance là một công ty Trung Quốc, phản ánh đối tượng mục tiêu toàn cầu.

Điều này có ý nghĩa gì đối với ngành

Bối cảnh video AI hiện có hai hướng riêng biệt:

HướngNgười dẫn đầuTrọng tâmGiá trị
TạoRunway, Sora, Veo, KlingTạo video mớiBiểu đạt sáng tạo
HiểuVidi2, (những người khác đang nổi lên)Phân tích video hiện cóNăng suất

Cả hai sẽ trưởng thành. Cả hai sẽ tích hợp. Bộ video AI hoàn chỉnh của năm 2026 sẽ tạo, biên tập và hiểu một cách liền mạch.

Hiện tại, Vidi2 đại diện cho tùy chọn mã nguồn mở có khả năng nhất để hiểu video. Nếu bạn có cảnh quay để phân tích, biên tập để tự động hóa hoặc nội dung để tổ chức, đây là mô hình cần khám phá.

Ý kiến của tôi

Tôi đã dành nhiều năm xây dựng các đường ống xử lý video. Trước và sau với các mô hình như Vidi2 là rõ ràng. Các tác vụ yêu cầu các ngăn xếp thị giác máy tính tùy chỉnh, chú thích thủ công và heuristics mong manh giờ đây có thể được giải quyết bằng một lời nhắc.

💡

Các công cụ AI tốt nhất không thay thế phán đoán của con người. Chúng loại bỏ công việc tẻ nhạt ngăn cản con người áp dụng phán đoán ở quy mô lớn.

Vidi2 không thay thế các biên tập viên. Nó mang lại cho các biên tập viên các khả năng trước đây không thể có ở quy mô lớn. Và với quyền truy cập mở (cho sử dụng phi thương mại), các khả năng này có sẵn cho bất kỳ ai sẵn sàng thiết lập cơ sở hạ tầng.

Tương lai của video không chỉ là tạo. Đó là hiểu. Và tương lai đó hiện là mã nguồn mở.


Nguồn

Bài viết này có hữu ích không?

Damien

Damien

Nhà phát triển AI

Nhà phát triển AI đến từ Lyon, yêu thích việc biến các khái niệm ML phức tạp thành những công thức đơn giản. Khi không debug các mô hình, bạn sẽ thấy anh ấy đạp xe qua thung lũng Rhône.

Bài viết liên quan

Tiếp tục khám phá với những bài viết liên quan

Bạn có thích bài viết này không?

Khám phá thêm thông tin chi tiết và cập nhật những nội dung mới nhất của chúng tôi.

ByteDance Vidi2: AI hiểu video như một biên tập viên