ByteDance Vidi2: AI hiểu video như một biên tập viên

Trong khi mọi người đều ám ảnh với việc tạo video, ByteDance đã lặng lẽ giải quyết một vấn đề khác: làm cho AI hiểu video như một biên tập viên có kinh nghiệm. Vidi2 có thể xem hàng giờ cảnh quay thô và trích xuất chính xác những gì quan trọng.

Vấn đề không ai nói đến

Bây giờ chúng ta có những bộ tạo video AI đáng kinh ngạc. Runway Gen-4.5 đứng đầu bảng xếp hạng chất lượng. Kling O1 tạo âm thanh đồng bộ. Nhưng đây là bí mật bẩn thỉu của sản xuất video: phần lớn thời gian dành cho việc biên tập, không phải sáng tạo.

Một người quay phim đám cưới quay 8 giờ cảnh quay cho một đoạn video điểm nổi bật 5 phút. Một người sáng tạo nội dung ghi âm 45 phút để tạo TikTok 60 giây. Một nhóm doanh nghiệp có 200 giờ cảnh quay đào tạo bị chôn vùi trong SharePoint.

💡

Tạo video lên trang nhất. Hiểu video làm công việc thực sự.

Vidi2 giải quyết khoảng trống này. Nó không phải là một bộ tạo khác. Đó là một AI xem video, hiểu những gì đang xảy ra và giúp bạn làm việc với nội dung đó ở quy mô lớn.

Vidi2 thực sự làm gì

ByteDance mô tả Vidi2 là "Mô hình đa phương thức lớn để hiểu và sáng tạo video". Mô hình 12 tỷ tham số xuất sắc trong:

🔍

Định vị không gian-thời gian

Tìm bất kỳ đối tượng nào trong video và theo dõi nó theo thời gian. Không chỉ "có một con mèo ở 0:32" mà là "con mèo vào ở 0:32, di chuyển đến ghế sofa ở 0:45, và rời khỏi khung hình ở 1:12."

✂️

Biên tập thông minh

Phân tích cảnh quay và đề xuất các cắt dựa trên nội dung. Tìm những khoảnh khắc tốt nhất, xác định ranh giới cảnh, hiểu nhịp độ.

📝

Phân tích nội dung

Mô tả những gì xảy ra trong video với đủ chi tiết để hữu ích. Không phải "hai người đang nói chuyện" mà là "đoạn phỏng vấn, khách giải thích các tính năng sản phẩm, khoảnh khắc tương tác cao ở 3:45."

🎯

Theo dõi đối tượng

Theo dõi các đối tượng như "ống" liên tục qua video, ngay cả khi chúng rời khỏi và quay lại khung hình. Điều này cho phép lựa chọn chính xác cho hiệu ứng, loại bỏ hoặc nhấn mạnh.

Đổi mới kỹ thuật: Định vị không gian-thời gian

AI video trước đây hoạt động theo hai chiều: không gian (có gì trong khung hình này) hoặc thời gian (khi nào điều gì đó xảy ra). Vidi2 kết hợp cả hai thành cái mà ByteDance gọi là "Định vị không gian-thời gian" (STG).

Cách tiếp cận truyền thống:

Không gian: "Chiếc xe ở tọa độ pixel (450, 320)"
Thời gian: "Một chiếc xe xuất hiện ở dấu thời gian 0:15"
Kết quả: Thông tin bị ngắt kết nối yêu cầu tương quan thủ công

Vidi2 STG:

Kết hợp: "Chiếc xe đỏ ở (450, 320) lúc 0:15, di chuyển đến (890, 340) lúc 0:18, thoát bên phải lúc 0:22"
Kết quả: Quỹ đạo đối tượng hoàn chỉnh qua không gian và thời gian

Điều này quan trọng vì các tác vụ biên tập thực tế yêu cầu cả hai chiều. "Loại bỏ mic boom" cần biết nó xuất hiện ở đâu (không gian) và trong bao lâu (thời gian). Vidi2 xử lý điều này như một truy vấn duy nhất.

Điểm chuẩn: Đánh bại những gã khổng lồ

12B

Tham số

Hiểu video

Mở

Nguồn

Đây là nơi thú vị. Trên điểm chuẩn VUE-STG của ByteDance cho định vị không gian-thời gian, Vidi2 vượt trội cả Gemini 2.0 Flash và GPT-4o, mặc dù có ít tham số hơn cả hai.

💡

Một lưu ý: các điểm chuẩn này được tạo bởi ByteDance. Xác minh độc lập trên các điểm chuẩn của bên thứ ba sẽ củng cố những tuyên bố này. Điều đó nói rằng, phương pháp kiến trúc chuyên biệt là đúng đắn.

Kết quả điểm chuẩn cho thấy việc hiểu video hưởng lợi từ thiết kế chuyên biệt nhiều hơn quy mô thô. Một mô hình được xây dựng cho video từ đầu có thể vượt trội hơn các mô hình mục đích chung lớn hơn coi video như một phần mở rộng của hiểu hình ảnh.

Đã hoạt động: TikTok Smart Split

Đây không phải là hàng ảo. Vidi2 cung cấp sức mạnh cho tính năng "Smart Split" của TikTok, thực hiện:

✓Tự động trích xuất điểm nổi bật từ video dài
✓Tạo phụ đề đồng bộ với lời nói
✓Tái tạo bố cục cho các tỷ lệ khung hình khác nhau
✓Xác định điểm cắt tối ưu dựa trên nội dung

Hàng triệu người sáng tạo sử dụng Smart Split hàng ngày. Mô hình được chứng minh ở quy mô, không phải lý thuyết.

Mã nguồn mở: Chạy tự mình

ByteDance phát hành Vidi2 trên GitHub theo giấy phép CC BY-NC 4.0. Điều đó có nghĩa là miễn phí cho nghiên cứu, giáo dục và dự án cá nhân, nhưng sử dụng thương mại yêu cầu cấp phép riêng. Hệ quả:

Cho nhà phát triển:

Xây dựng các đường ống phân tích video tùy chỉnh
Tích hợp hiểu biết vào các công cụ hiện có
Tinh chỉnh cho các lĩnh vực cụ thể
Không có chi phí API ở quy mô lớn

Cho doanh nghiệp:

Xử lý cảnh quay nhạy cảm cục bộ
Xây dựng quy trình biên tập độc quyền
Tránh khóa nhà cung cấp
Tùy chỉnh cho các loại nội dung nội bộ

Bản phát hành mã nguồn mở theo mô hình mà chúng ta đã thấy với LTX Video và các phòng thí nghiệm AI Trung Quốc khác: phát hành các mô hình mạnh mẽ một cách công khai trong khi các đối thủ phương Tây giữ mô hình của họ độc quyền.

Ứng dụng thực tế

Hãy để tôi hướng dẫn một số quy trình làm việc thực tế mà Vidi2 cho phép:

Tái sử dụng nội dung

Đầu vào: Bản ghi podcast 2 giờ Đầu ra: 10 clip ngắn về những khoảnh khắc tốt nhất, mỗi clip có cắt giới thiệu/kết thúc phù hợp

Mô hình xác định các khoảnh khắc hấp dẫn, tìm điểm cắt tự nhiên và trích xuất các clip hoạt động như nội dung độc lập.

Quản lý video đào tạo

Đầu vào: 500 giờ cảnh quay đào tạo doanh nghiệp Truy vấn: "Tìm tất cả các đoạn giải thích quy trình làm việc CRM mới"

Thay vì tua thủ công hoặc dựa vào siêu dữ liệu không đáng tin cậy, Vidi2 thực sự xem và hiểu nội dung.

Điểm nổi bật thể thao

Đầu vào: Bản ghi trận đấu đầy đủ Đầu ra: Đoạn phim nổi bật với tất cả các khoảnh khắc ghi bàn, tình huống sát nút và ăn mừng

Mô hình hiểu bối cảnh thể thao đủ tốt để xác định các khoảnh khắc có ý nghĩa, không chỉ là chuyển động.

Xem xét giám sát

Đầu vào: 24 giờ cảnh quay an ninh Truy vấn: "Tìm tất cả các trường hợp người vào qua cửa bên sau 6 giờ chiều"

Định vị không gian-thời gian có nghĩa là câu trả lời chính xác với dấu thời gian và vị trí chính xác.

So sánh với các mô hình tạo

✓Hiểu video (Vidi2)

Làm việc với cảnh quay hiện có
Tiết kiệm thời gian biên tập, không phải thời gian tạo
Mở rộng quy mô đến thư viện video khổng lồ
Không cần nhắc nhở sáng tạo
Thực tế cho doanh nghiệp ngay lập tức

✓Tạo video (Runway, Sora)

Tạo nội dung mới từ con số không
Công cụ biểu đạt sáng tạo
Ứng dụng tiếp thị và quảng cáo
Chất lượng tăng nhanh
Thú vị nhưng trường hợp sử dụng khác

Đây không phải là các công nghệ cạnh tranh. Chúng giải quyết các vấn đề khác nhau. Một quy trình làm việc video AI hoàn chỉnh cần cả hai: tạo để tạo nội dung mới, hiểu để làm việc với nội dung hiện có.

Bức tranh lớn hơn

⚠️

Hiểu video là nơi AI chuyển từ "bản demo ấn tượng" sang "công cụ hàng ngày". Tạo nhận được sự chú ý. Hiểu hoàn thành công việc.

Hãy xem xét điều này cho phép:

Mọi doanh nghiệp đều có nội dung video bị mắc kẹt trong lưu trữ
Mọi người sáng tạo đều dành nhiều thời gian biên tập hơn quay phim
Mọi nền tảng đều cần kiểm duyệt và khám phá nội dung tốt hơn
Mọi nhà nghiên cứu đều có cảnh quay họ không thể phân tích hiệu quả

Vidi2 giải quyết tất cả những điều này. Bản phát hành mã nguồn mở có nghĩa là các khả năng này hiện có thể truy cập được cho bất kỳ ai có đủ tính toán.

Bắt đầu

Mô hình có sẵn trên GitHub với tài liệu và bản demo. Yêu cầu:

GPU NVIDIA với ít nhất 24GB VRAM cho mô hình đầy đủ
Các phiên bản lượng tử hóa có sẵn cho GPU nhỏ hơn
Python 3.10+ với PyTorch 2.0+

Bắt đầu nhanh:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Tài liệu chủ yếu bằng tiếng Anh mặc dù ByteDance là một công ty Trung Quốc, phản ánh đối tượng mục tiêu toàn cầu.

Điều này có ý nghĩa gì đối với ngành

Bối cảnh video AI hiện có hai hướng riêng biệt:

Hướng	Người dẫn đầu	Trọng tâm	Giá trị
Tạo	Runway, Sora, Veo, Kling	Tạo video mới	Biểu đạt sáng tạo
Hiểu	Vidi2, (những người khác đang nổi lên)	Phân tích video hiện có	Năng suất

Cả hai sẽ trưởng thành. Cả hai sẽ tích hợp. Bộ video AI hoàn chỉnh của năm 2026 sẽ tạo, biên tập và hiểu một cách liền mạch.

Hiện tại, Vidi2 đại diện cho tùy chọn mã nguồn mở có khả năng nhất để hiểu video. Nếu bạn có cảnh quay để phân tích, biên tập để tự động hóa hoặc nội dung để tổ chức, đây là mô hình cần khám phá.

Ý kiến của tôi

Tôi đã dành nhiều năm xây dựng các đường ống xử lý video. Trước và sau với các mô hình như Vidi2 là rõ ràng. Các tác vụ yêu cầu các ngăn xếp thị giác máy tính tùy chỉnh, chú thích thủ công và heuristics mong manh giờ đây có thể được giải quyết bằng một lời nhắc.

💡

Các công cụ AI tốt nhất không thay thế phán đoán của con người. Chúng loại bỏ công việc tẻ nhạt ngăn cản con người áp dụng phán đoán ở quy mô lớn.

Vidi2 không thay thế các biên tập viên. Nó mang lại cho các biên tập viên các khả năng trước đây không thể có ở quy mô lớn. Và với quyền truy cập mở (cho sử dụng phi thương mại), các khả năng này có sẵn cho bất kỳ ai sẵn sàng thiết lập cơ sở hạ tầng.

Tương lai của video không chỉ là tạo. Đó là hiểu. Và tương lai đó hiện là mã nguồn mở.

Nguồn

Kho GitHub ByteDance Vidi2
Bài báo nghiên cứu Vidi2 (arXiv)
ByteDance phát hành mô hình AI mã nguồn mở Vidi2 (WinBuzzer)

ByteDance Vidi2: AI hiểu video như một biên tập viên

Vấn đề không ai nói đến

Vidi2 thực sự làm gì

Định vị không gian-thời gian

Biên tập thông minh

Phân tích nội dung

Theo dõi đối tượng

Đổi mới kỹ thuật: Định vị không gian-thời gian

Điểm chuẩn: Đánh bại những gã khổng lồ

Đã hoạt động: TikTok Smart Split

Mã nguồn mở: Chạy tự mình

Ứng dụng thực tế

Tái sử dụng nội dung

Quản lý video đào tạo

Điểm nổi bật thể thao

Xem xét giám sát

So sánh với các mô hình tạo

Bức tranh lớn hơn

Bắt đầu

Điều này có ý nghĩa gì đối với ngành

Ý kiến của tôi

Nguồn

Damien

Bài viết liên quan

ByteDance Seedance 1.5 Pro: Mô hình tạo âm thanh và video cùng lúc

Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI

Pika 2.5: Đại chúng hóa Video AI thông qua Tốc độ, Giá cả và Công cụ Sáng tạo

Bạn có thích bài viết này không?