ByteDance Vidi2: AI hiểu video như một biên tập viên
ByteDance vừa mở mã nguồn Vidi2, mô hình 12 tỷ tham số hiểu nội dung video đủ tốt để tự động biên tập hàng giờ cảnh quay thành các clip hoàn thiện. Nó đã cung cấp sức mạnh cho TikTok Smart Split.

Trong khi mọi người đều ám ảnh với việc tạo video, ByteDance đã lặng lẽ giải quyết một vấn đề khác: làm cho AI hiểu video như một biên tập viên có kinh nghiệm. Vidi2 có thể xem hàng giờ cảnh quay thô và trích xuất chính xác những gì quan trọng.
Vấn đề không ai nói đến
Bây giờ chúng ta có những bộ tạo video AI đáng kinh ngạc. Runway Gen-4.5 đứng đầu bảng xếp hạng chất lượng. Kling O1 tạo âm thanh đồng bộ. Nhưng đây là bí mật bẩn thỉu của sản xuất video: phần lớn thời gian dành cho việc biên tập, không phải sáng tạo.
Một người quay phim đám cưới quay 8 giờ cảnh quay cho một đoạn video điểm nổi bật 5 phút. Một người sáng tạo nội dung ghi âm 45 phút để tạo TikTok 60 giây. Một nhóm doanh nghiệp có 200 giờ cảnh quay đào tạo bị chôn vùi trong SharePoint.
Tạo video lên trang nhất. Hiểu video làm công việc thực sự.
Vidi2 giải quyết khoảng trống này. Nó không phải là một bộ tạo khác. Đó là một AI xem video, hiểu những gì đang xảy ra và giúp bạn làm việc với nội dung đó ở quy mô lớn.
Vidi2 thực sự làm gì
ByteDance mô tả Vidi2 là "Mô hình đa phương thức lớn để hiểu và sáng tạo video". Mô hình 12 tỷ tham số xuất sắc trong:
Định vị không gian-thời gian
Tìm bất kỳ đối tượng nào trong video và theo dõi nó theo thời gian. Không chỉ "có một con mèo ở 0:32" mà là "con mèo vào ở 0:32, di chuyển đến ghế sofa ở 0:45, và rời khỏi khung hình ở 1:12."
Biên tập thông minh
Phân tích cảnh quay và đề xuất các cắt dựa trên nội dung. Tìm những khoảnh khắc tốt nhất, xác định ranh giới cảnh, hiểu nhịp độ.
Phân tích nội dung
Mô tả những gì xảy ra trong video với đủ chi tiết để hữu ích. Không phải "hai người đang nói chuyện" mà là "đoạn phỏng vấn, khách giải thích các tính năng sản phẩm, khoảnh khắc tương tác cao ở 3:45."
Theo dõi đối tượng
Theo dõi các đối tượng như "ống" liên tục qua video, ngay cả khi chúng rời khỏi và quay lại khung hình. Điều này cho phép lựa chọn chính xác cho hiệu ứng, loại bỏ hoặc nhấn mạnh.
Đổi mới kỹ thuật: Định vị không gian-thời gian
AI video trước đây hoạt động theo hai chiều: không gian (có gì trong khung hình này) hoặc thời gian (khi nào điều gì đó xảy ra). Vidi2 kết hợp cả hai thành cái mà ByteDance gọi là "Định vị không gian-thời gian" (STG).
Cách tiếp cận truyền thống:
- Không gian: "Chiếc xe ở tọa độ pixel (450, 320)"
- Thời gian: "Một chiếc xe xuất hiện ở dấu thời gian 0:15"
- Kết quả: Thông tin bị ngắt kết nối yêu cầu tương quan thủ công
Vidi2 STG:
- Kết hợp: "Chiếc xe đỏ ở (450, 320) lúc 0:15, di chuyển đến (890, 340) lúc 0:18, thoát bên phải lúc 0:22"
- Kết quả: Quỹ đạo đối tượng hoàn chỉnh qua không gian và thời gian
Điều này quan trọng vì các tác vụ biên tập thực tế yêu cầu cả hai chiều. "Loại bỏ mic boom" cần biết nó xuất hiện ở đâu (không gian) và trong bao lâu (thời gian). Vidi2 xử lý điều này như một truy vấn duy nhất.
Điểm chuẩn: Đánh bại những gã khổng lồ
Đây là nơi thú vị. Trên điểm chuẩn VUE-STG của ByteDance cho định vị không gian-thời gian, Vidi2 vượt trội cả Gemini 2.0 Flash và GPT-4o, mặc dù có ít tham số hơn cả hai.
Một lưu ý: các điểm chuẩn này được tạo bởi ByteDance. Xác minh độc lập trên các điểm chuẩn của bên thứ ba sẽ củng cố những tuyên bố này. Điều đó nói rằng, phương pháp kiến trúc chuyên biệt là đúng đắn.
Kết quả điểm chuẩn cho thấy việc hiểu video hưởng lợi từ thiết kế chuyên biệt nhiều hơn quy mô thô. Một mô hình được xây dựng cho video từ đầu có thể vượt trội hơn các mô hình mục đích chung lớn hơn coi video như một phần mở rộng của hiểu hình ảnh.
Đã hoạt động: TikTok Smart Split
Đây không phải là hàng ảo. Vidi2 cung cấp sức mạnh cho tính năng "Smart Split" của TikTok, thực hiện:
- ✓Tự động trích xuất điểm nổi bật từ video dài
- ✓Tạo phụ đề đồng bộ với lời nói
- ✓Tái tạo bố cục cho các tỷ lệ khung hình khác nhau
- ✓Xác định điểm cắt tối ưu dựa trên nội dung
Hàng triệu người sáng tạo sử dụng Smart Split hàng ngày. Mô hình được chứng minh ở quy mô, không phải lý thuyết.
Mã nguồn mở: Chạy tự mình
ByteDance phát hành Vidi2 trên GitHub theo giấy phép CC BY-NC 4.0. Điều đó có nghĩa là miễn phí cho nghiên cứu, giáo dục và dự án cá nhân, nhưng sử dụng thương mại yêu cầu cấp phép riêng. Hệ quả:
Cho nhà phát triển:
- Xây dựng các đường ống phân tích video tùy chỉnh
- Tích hợp hiểu biết vào các công cụ hiện có
- Tinh chỉnh cho các lĩnh vực cụ thể
- Không có chi phí API ở quy mô lớn
Cho doanh nghiệp:
- Xử lý cảnh quay nhạy cảm cục bộ
- Xây dựng quy trình biên tập độc quyền
- Tránh khóa nhà cung cấp
- Tùy chỉnh cho các loại nội dung nội bộ
Bản phát hành mã nguồn mở theo mô hình mà chúng ta đã thấy với LTX Video và các phòng thí nghiệm AI Trung Quốc khác: phát hành các mô hình mạnh mẽ một cách công khai trong khi các đối thủ phương Tây giữ mô hình của họ độc quyền.
Ứng dụng thực tế
Hãy để tôi hướng dẫn một số quy trình làm việc thực tế mà Vidi2 cho phép:
Tái sử dụng nội dung
Đầu vào: Bản ghi podcast 2 giờ Đầu ra: 10 clip ngắn về những khoảnh khắc tốt nhất, mỗi clip có cắt giới thiệu/kết thúc phù hợp
Mô hình xác định các khoảnh khắc hấp dẫn, tìm điểm cắt tự nhiên và trích xuất các clip hoạt động như nội dung độc lập.
Quản lý video đào tạo
Đầu vào: 500 giờ cảnh quay đào tạo doanh nghiệp Truy vấn: "Tìm tất cả các đoạn giải thích quy trình làm việc CRM mới"
Thay vì tua thủ công hoặc dựa vào siêu dữ liệu không đáng tin cậy, Vidi2 thực sự xem và hiểu nội dung.
Điểm nổi bật thể thao
Đầu vào: Bản ghi trận đấu đầy đủ Đầu ra: Đoạn phim nổi bật với tất cả các khoảnh khắc ghi bàn, tình huống sát nút và ăn mừng
Mô hình hiểu bối cảnh thể thao đủ tốt để xác định các khoảnh khắc có ý nghĩa, không chỉ là chuyển động.
Xem xét giám sát
Đầu vào: 24 giờ cảnh quay an ninh Truy vấn: "Tìm tất cả các trường hợp người vào qua cửa bên sau 6 giờ chiều"
Định vị không gian-thời gian có nghĩa là câu trả lời chính xác với dấu thời gian và vị trí chính xác.
So sánh với các mô hình tạo
- Làm việc với cảnh quay hiện có
- Tiết kiệm thời gian biên tập, không phải thời gian tạo
- Mở rộng quy mô đến thư viện video khổng lồ
- Không cần nhắc nhở sáng tạo
- Thực tế cho doanh nghiệp ngay lập tức
- Tạo nội dung mới từ con số không
- Công cụ biểu đạt sáng tạo
- Ứng dụng tiếp thị và quảng cáo
- Chất lượng tăng nhanh
- Thú vị nhưng trường hợp sử dụng khác
Đây không phải là các công nghệ cạnh tranh. Chúng giải quyết các vấn đề khác nhau. Một quy trình làm việc video AI hoàn chỉnh cần cả hai: tạo để tạo nội dung mới, hiểu để làm việc với nội dung hiện có.
Bức tranh lớn hơn
Hiểu video là nơi AI chuyển từ "bản demo ấn tượng" sang "công cụ hàng ngày". Tạo nhận được sự chú ý. Hiểu hoàn thành công việc.
Hãy xem xét điều này cho phép:
- Mọi doanh nghiệp đều có nội dung video bị mắc kẹt trong lưu trữ
- Mọi người sáng tạo đều dành nhiều thời gian biên tập hơn quay phim
- Mọi nền tảng đều cần kiểm duyệt và khám phá nội dung tốt hơn
- Mọi nhà nghiên cứu đều có cảnh quay họ không thể phân tích hiệu quả
Vidi2 giải quyết tất cả những điều này. Bản phát hành mã nguồn mở có nghĩa là các khả năng này hiện có thể truy cập được cho bất kỳ ai có đủ tính toán.
Bắt đầu
Mô hình có sẵn trên GitHub với tài liệu và bản demo. Yêu cầu:
- GPU NVIDIA với ít nhất 24GB VRAM cho mô hình đầy đủ
- Các phiên bản lượng tử hóa có sẵn cho GPU nhỏ hơn
- Python 3.10+ với PyTorch 2.0+
Bắt đầu nhanh:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"Tài liệu chủ yếu bằng tiếng Anh mặc dù ByteDance là một công ty Trung Quốc, phản ánh đối tượng mục tiêu toàn cầu.
Điều này có ý nghĩa gì đối với ngành
Bối cảnh video AI hiện có hai hướng riêng biệt:
| Hướng | Người dẫn đầu | Trọng tâm | Giá trị |
|---|---|---|---|
| Tạo | Runway, Sora, Veo, Kling | Tạo video mới | Biểu đạt sáng tạo |
| Hiểu | Vidi2, (những người khác đang nổi lên) | Phân tích video hiện có | Năng suất |
Cả hai sẽ trưởng thành. Cả hai sẽ tích hợp. Bộ video AI hoàn chỉnh của năm 2026 sẽ tạo, biên tập và hiểu một cách liền mạch.
Hiện tại, Vidi2 đại diện cho tùy chọn mã nguồn mở có khả năng nhất để hiểu video. Nếu bạn có cảnh quay để phân tích, biên tập để tự động hóa hoặc nội dung để tổ chức, đây là mô hình cần khám phá.
Ý kiến của tôi
Tôi đã dành nhiều năm xây dựng các đường ống xử lý video. Trước và sau với các mô hình như Vidi2 là rõ ràng. Các tác vụ yêu cầu các ngăn xếp thị giác máy tính tùy chỉnh, chú thích thủ công và heuristics mong manh giờ đây có thể được giải quyết bằng một lời nhắc.
Các công cụ AI tốt nhất không thay thế phán đoán của con người. Chúng loại bỏ công việc tẻ nhạt ngăn cản con người áp dụng phán đoán ở quy mô lớn.
Vidi2 không thay thế các biên tập viên. Nó mang lại cho các biên tập viên các khả năng trước đây không thể có ở quy mô lớn. Và với quyền truy cập mở (cho sử dụng phi thương mại), các khả năng này có sẵn cho bất kỳ ai sẵn sàng thiết lập cơ sở hạ tầng.
Tương lai của video không chỉ là tạo. Đó là hiểu. Và tương lai đó hiện là mã nguồn mở.
Nguồn
Bài viết này có hữu ích không?

Damien
Nhà phát triển AINhà phát triển AI đến từ Lyon, yêu thích việc biến các khái niệm ML phức tạp thành những công thức đơn giản. Khi không debug các mô hình, bạn sẽ thấy anh ấy đạp xe qua thung lũng Rhône.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

ByteDance Seedance 1.5 Pro: Mô hình tạo âm thanh và video cùng lúc
ByteDance phát hành Seedance 1.5 Pro với khả năng tạo âm thanh-hình ảnh tích hợp, điều khiển camera cấp điện ảnh và đồng bộ môi với nhiều ngôn ngữ. Có sẵn miễn phí trên CapCut.

Kling 2.6: Sao chép giọng nói và kiểm soát chuyển động định nghĩa lại video AI
Bản cập nhật mới nhất của Kuaishou giới thiệu khả năng tạo âm thanh và hình ảnh đồng thời, huấn luyện giọng nói tùy chỉnh và chụp chuyển động chính xác, có thể thay đổi cách các nhà sáng tạo tiếp cận sản xuất video AI.

Pika 2.5: Đại chúng hóa Video AI thông qua Tốc độ, Giá cả và Công cụ Sáng tạo
Pika Labs phát hành phiên bản 2.5, kết hợp tốc độ tạo nhanh hơn, vật lý nâng cao và các công cụ sáng tạo như Pikaframes và Pikaffects để làm cho video AI có thể tiếp cận được với mọi người.