Các mô hình AI video mã nguồn mở đang dần bắt kịp

Trong nhiều năm qua, việc tạo video AI mã nguồn mở giống như đi xe đạp tham gia cuộc đua siêu xe. Các mô hình thương mại từ OpenAI, Google và Runway thống trị mọi tiêu chuẩn đánh giá, trong khi các lựa chọn mã nguồn mở thậm chí còn gặp khó khăn với tính nhất quán cơ bản. Tuy nhiên, vào cuối năm 2025, mọi thứ đã thay đổi và khoảng cách đang thực sự được thu hẹp.

Những đối thủ mới trong lĩnh vực mã nguồn mở

Xin được nói thẳng: nếu quý vị đã thử tạo video mã nguồn mở cách đây một năm và bỏ cuộc vì thất vọng, đây là lúc để thử lại. Bức tranh đã hoàn toàn thay đổi.

720p

Độ phân giải gốc

24fps

Tốc độ khung hình

14GB

VRAM tối thiểu

Wan 2.2: Bước đột phá MoE

Wan 2.2 của Alibaba xứng đáng được quan tâm đặc biệt. Đây là mô hình video mã nguồn mở đầu tiên sử dụng kiến trúc Mixture-of-Experts (MoE), cùng phương pháp đã làm cho GPT-4 trở nên mạnh mẽ. Kết quả là độ phân giải 720p gốc ở 24fps có thể chạy trên card RTX 4090 tiêu dùng, với 1080p có thể đạt được thông qua nâng cấp AI.

💡

Wan 2.2 được huấn luyện với lượng hình ảnh nhiều hơn 65% và video nhiều hơn 83% so với phiên bản trước. Sự cải thiện chất lượng là rõ ràng.

Mô hình xử lý vật lý một cách đáng ngạc nhiên, duy trì tính bền vững của đối tượng và sự nhất quán của trọng lực mà các mô hình mã nguồn mở trước đây gặp khó khăn. Chưa hoàn hảo, nhưng đã đạt đến mức đủ để có ý nghĩa thực tiễn.

HunyuanVideo 1.5: Làm được nhiều hơn với ít hơn

Tencent đã áp dụng cách tiếp cận khác với HunyuanVideo 1.5. Thay vì mở rộng quy mô, họ thu nhỏ lại, từ 13 tỷ xuống 8,3 tỷ tham số, đồng thời tăng tốc độ và chất lượng.

✓Điểm mạnh

Chạy trên 14GB VRAM với offloading. Tích hợp âm thanh gốc. Mô phỏng vật lý tích hợp sẵn. Kiến trúc hiệu quả.

✗Hạn chế

Chậm hơn các giải pháp đám mây. Yêu cầu thiết lập kỹ thuật. Chưa hoàn thiện như các công cụ thương mại.

Những cải tiến về hiệu suất này có ý nghĩa quan trọng vì chúng đưa việc tạo video nghiêm túc đến laptop và máy trạm, không chỉ các trung tâm dữ liệu.

Open-Sora 2.0: Thí nghiệm 200.000 USD

Đây là một con số đáng suy ngẫm: Open-Sora 2.0 được huấn luyện với chi phí khoảng 200.000 USD. So với hàng trăm triệu USD được chi cho các mô hình thương mại. Tuy nhiên, nó đạt chất lượng tương đương với HunyuanVideo 11 tỷ tham số và thậm chí thách thức mô hình khổng lồ 30 tỷ tham số của Step-Video.

Mã huấn luyện được công khai hoàn toàn. Trọng số có thể tải xuống. Kiến trúc được ghi chép chi tiết. Đây không phải là bản xem trước nghiên cứu, mà là một mô hình sẵn sàng sản xuất mà quý vị có thể chạy ngay hôm nay.

Tại sao khoảng cách đang thu hẹp

Ba lực lượng đang hội tụ:

Giữa năm 2025

Hội tụ kiến trúc

Các mô hình mã nguồn mở đã áp dụng kiến trúc diffusion transformer, bắt kịp những đổi mới của các mô hình thương mại.

Cuối năm 2025

Hiệu quả huấn luyện

Các kỹ thuật mới như MoE và sparse attention đã giảm đáng kể yêu cầu tính toán.

Đầu năm 2026

Đà phát triển cộng đồng

Quy trình ComfyUI, hướng dẫn fine-tuning và công cụ tối ưu hóa đã nhanh chóng trưởng thành.

Xu hướng này tương tự như những gì đã xảy ra với LTX-2 mang 4K đến GPU tiêu dùng, nhưng ở quy mô lớn hơn.

Thực tế

Xin cho phép được thành thật về ý nghĩa thực sự của "đang bắt kịp":

Khía cạnh	Mã nguồn mở	Thương mại
Chất lượng cao nhất	85-90%	100%
Tốc độ tạo	2-5 phút	10-30 giây
Dễ sử dụng	Cần thiết lập kỹ thuật	Web một cú nhấp
Chi phí mỗi video	Miễn phí (sau phần cứng)	$0.10-$2.00
Tùy chỉnh	Không giới hạn	Hạn chế

Mã nguồn mở vẫn còn thua về chất lượng thô và tốc độ. Tuy nhiên, đối với nhiều trường hợp sử dụng, khoảng cách đó không còn quan trọng nữa.

💡

Để biết thêm về cách các mô hình này so sánh với các tùy chọn thương mại, vui lòng xem so sánh chi tiết Sora 2, Runway và Veo 3.

Ai nên quan tâm?

🎨

Nhà sáng tạo độc lập

Tạo video không giới hạn mà không tốn phí đăng ký. Huấn luyện theo phong cách riêng của mình.

🏢

Đội ngũ doanh nghiệp

Triển khai tại chỗ cho nội dung nhạy cảm. Dữ liệu không rời khỏi máy chủ của quý vị.

🔬

Nhà nghiên cứu

Quyền truy cập đầy đủ vào trọng số và kiến trúc. Tự do sửa đổi, thử nghiệm, công bố.

🎮

Nhà phát triển game

Tạo cutscene và tài nguyên cục bộ. Tích hợp vào quy trình phát triển.

Dự báo 6 tháng tới

Dựa trên quỹ đạo hiện tại, chúng tôi dự kiến:

✓Tạo video dưới 10 giây sẽ trở thành tiêu chuẩn vào Q2 2026
✓Các nguyên mẫu tạo thời gian thực sẽ xuất hiện vào giữa năm
○Chất lượng ngang bằng với mô hình thương mại (vẫn còn 12-18 tháng nữa)
✓Việc áp dụng ComfyUI chính thống sẽ tăng tốc

Kiến trúc diffusion transformer vận hành các mô hình này tiếp tục được cải thiện. Mỗi tháng mang đến những tối ưu hóa mới, kỹ thuật huấn luyện mới, cải tiến hiệu suất mới.

Bắt đầu

Nếu quý vị muốn tự mình thử các mô hình này:

Wan 2.2: Yêu cầu RTX 4090 hoặc tương đương. Có sẵn trên GitHub với các node ComfyUI.
HunyuanVideo 1.5: Chạy trên VRAM 14GB trở lên. Có tích hợp Hugging Face.
Open-Sora 2.0: Mã huấn luyện và inference đầy đủ trên GitHub.

⚠️

Các mô hình này yêu cầu sự quen thuộc với Python, CUDA và việc tải mô hình. Chúng chưa phải là giải pháp một cú nhấp.

Bức tranh lớn hơn

Điều thú vị nhất không phải là vị trí hiện tại của video mã nguồn mở, mà là hướng đi của nó. Mọi đột phá trong mô phỏng vật lý và tạo âm thanh gốc cuối cùng sẽ chảy vào các mô hình mã nguồn mở.

Sự dân chủ hóa là có thật. Các công cụ có thể tiếp cận được. Khoảng cách đang thu hẹp.

Đối với các nhà sáng tạo đã bị loại khỏi các gói đăng ký video AI cao cấp, đối với các doanh nghiệp cần giải pháp tại chỗ, đối với các nhà nghiên cứu đang đẩy xa ranh giới của khả năng, đây là thời điểm cần chú ý.

Chiếc xe đạp đang trở thành xe máy. Và cuộc đua siêu xe vừa trở nên thú vị hơn rất nhiều.