Kandinsky 5.0: Giải pháp mã nguồn mở AI tạo video từ Nga
Kandinsky 5.0 mang đến khả năng tạo video 10 giây trên GPU tiêu dùng với giấy phép Apache 2.0. Chúng tôi khám phá cách NABLA attention và flow matching làm cho điều này trở nên khả thi.

Sự chuyển đổi trong lĩnh vực video mã nguồn mở
Khi ByteDance mở mã nguồn mô hình hiểu video của họ và Tencent phát hành HunyuanVideo, chúng ta đã thấy những dấu hiệu đầu tiên của sự thay đổi. Giờ đây, Kandinsky Lab, được hỗ trợ bởi Sberbank, đã phát hành một họ mô hình hoàn chỉnh mà bất kỳ ai cũng có thể chạy, sửa đổi và thương mại hóa theo giấy phép Apache 2.0.
Đây không phải là bản xem trước nghiên cứu hay API bị hạn chế. Toàn bộ trọng số, mã huấn luyện và quy trình suy luận đều có sẵn trên GitHub và Hugging Face.
Họ mô hình
Để hiểu rõ hơn về kiến trúc khuếch tán, vui lòng xem phân tích chuyên sâu về các bộ biến đổi khuếch tán.
Kandinsky 5.0 không phải là một mô hình đơn lẻ mà là một họ gồm ba mô hình.
Video Lite (2 tỷ tham số)
Lựa chọn nhẹ cho phần cứng tiêu dùng. Tạo video 5 đến 10 giây ở độ phân giải 768×512, 24 fps. Chạy trên 12GB VRAM với giảm tải bộ nhớ. Biến thể chưng cất 16 bước tạo clip 5 giây trong 35 đến 60 giây trên H100.
Video Pro (19 tỷ tham số)
Mô hình đầy đủ để có chất lượng tối đa. Xuất video HD ở 1280×768, 24 fps. Yêu cầu GPU cấp trung tâm dữ liệu nhưng mang lại kết quả cạnh tranh với các phương án nguồn đóng.
Mô hình Image Lite 6 tỷ tham số hoàn thiện họ sản phẩm cho việc tạo hình ảnh tĩnh ở độ phân giải 1280×768 hoặc 1024×1024.
Kiến trúc kỹ thuật
Các quyết định kỹ thuật trong Kandinsky 5.0 tiết lộ một nhóm tập trung vào triển khai thực tế hơn là theo đuổi các điểm chuẩn.
Nền tảng: Flow Matching thay vì Khuếch tán
Các mô hình khuếch tán truyền thống học cách đảo ngược quá trình thêm nhiễu từng bước. Flow Matching có cách tiếp cận khác: nó học một đường dẫn trực tiếp từ nhiễu đến hình ảnh thông qua trường dòng chảy liên tục. Lợi thế rất đáng kể.
NABLA: Làm cho video dài trở nên khả thi
Đổi mới thực sự là NABLA, viết tắt của Neighborhood Adaptive Block-Level Attention (Chú ý cấp khối thích ứng lân cận). Cơ chế chú ý transformer tiêu chuẩn mở rộng theo bậc hai với độ dài chuỗi. Đối với video, điều này là thảm họa. Một clip 10 giây ở 24 fps chứa 240 khung hình, mỗi khung có hàng nghìn bản vá không gian. Chú ý đầy đủ trên tất cả chúng là không khả thi về mặt tính toán.
NABLA giải quyết vấn đề này thông qua các mẫu chú ý thưa. Thay vì chú ý đến mọi bản vá trong mọi khung hình, nó tập trung tính toán vào:
- Các vùng lân cận không gian cục bộ trong mỗi khung hình
- Các vùng lân cận thời gian qua các khung hình liền kề
- Các điểm neo toàn cục đã học để có sự nhất quán tầm xa
Kết quả là mở rộng gần như tuyến tính theo độ dài video thay vì bậc hai. Đây là điều làm cho việc tạo 10 giây trở nên khả thi trên phần cứng tiêu dùng.
Để so sánh, hầu hết các mô hình cạnh tranh đều gặp khó khăn với video dài hơn 5 giây nếu không có phần cứng chuyên dụng.
Dựa trên HunyuanVideo
Thay vì huấn luyện mọi thứ từ đầu, Kandinsky 5.0 áp dụng 3D VAE từ dự án HunyuanVideo của Tencent. Bộ mã hóa-giải mã này xử lý việc chuyển đổi giữa không gian pixel và không gian tiềm ẩn nhỏ gọn nơi quá trình khuếch tán hoạt động.
Khả năng hiểu văn bản đến từ Qwen2.5-VL, một mô hình ngôn ngữ-thị giác, kết hợp với nhúng CLIP để neo ngữ nghĩa. Cách tiếp cận bộ mã hóa kép này cho phép mô hình hiểu cả ý nghĩa theo nghĩa đen và phong cách hình ảnh được ngụ ý bởi các lời nhắc.
Hiệu suất: Vị trí hiện tại
Nhóm định vị Video Lite là người có hiệu suất tốt nhất trong các mô hình mã nguồn mở ở cùng lớp tham số. Các điểm chuẩn cho thấy:
| Mô hình | Tham số | Thời lượng tối đa | VRAM (5 giây) |
|---|---|---|---|
| Kandinsky Video Lite | 2 tỷ | 10 giây | 12GB |
| CogVideoX-2B | 2 tỷ | 6 giây | 16GB |
| Open-Sora 1.2 | 1.1 tỷ | 16 giây | 18GB |
Yêu cầu 12GB VRAM mở cửa cho việc triển khai trên các card RTX 3090 và 4090 dành cho người tiêu dùng, một cột mốc quan trọng về khả năng tiếp cận.
So sánh chất lượng khó định lượng hơn. Báo cáo của người dùng cho thấy Kandinsky tạo ra chuyển động nhất quán hơn CogVideoX nhưng thua kém HunyuanVideo về tính chân thực của ảnh. Mô hình chưng cất 16 bước hy sinh một số chi tiết tinh tế để đạt tốc độ, một sự đánh đổi phù hợp với việc tạo nguyên mẫu nhưng có thể không đáp ứng nhu cầu sản xuất cuối cùng.
Chạy Kandinsky cục bộ
Dự án cung cấp các node ComfyUI và script độc lập. Quy trình làm việc văn bản sang video cơ bản:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # Cho card 12GB
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 giây ở 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Giảm tải bộ nhớ di chuyển trọng số mô hình giữa CPU và GPU trong quá trình suy luận. Điều này đánh đổi tốc độ để có khả năng tiếp cận, cho phép các mô hình lớn hơn chạy trên các card nhỏ hơn.
Kết nối với Sberbank
Kandinsky Lab hoạt động dưới Sber AI, bộ phận trí tuệ nhân tạo của Sberbank, ngân hàng lớn nhất Nga. Sự hỗ trợ này giải thích nguồn lực đáng kể đằng sau dự án: huấn luyện nhiều giai đoạn trên dữ liệu độc quyền, huấn luyện sau bằng học tăng cường và nỗ lực kỹ thuật để mở mã nguồn một quy trình sản xuất hoàn chỉnh.
Bối cảnh địa chính trị thêm vào sự phức tạp. Các nhà phát triển phương Tây có thể đối mặt với áp lực thể chế để tránh các mô hình có nguồn gốc Nga. Giấy phép Apache 2.0 rõ ràng về mặt pháp lý, nhưng chính sách tổ chức khác nhau. Đối với các nhà phát triển cá nhân và studio nhỏ, tính toán đơn giản hơn: công nghệ tốt là công nghệ tốt.
Luôn xác minh giấy phép và tuân thủ xuất khẩu cho khu vực pháp lý cụ thể và trường hợp sử dụng của bạn.
Ứng dụng thực tế
Thời lượng 10 giây và yêu cầu phần cứng tiêu dùng mở ra các trường hợp sử dụng cụ thể:
Nội dung xã hội
Trực quan hóa khái niệm
Huấn luyện tùy chỉnh
Nghiên cứu
Triển vọng tương lai
Kandinsky 5.0 đại diện cho một xu hướng rộng hơn: khoảng cách giữa việc tạo video mã nguồn mở và nguồn đóng đang thu hẹp. Một năm trước, các mô hình mở tạo ra các clip ngắn, độ phân giải thấp với các lỗi rõ ràng. Ngày nay, một mô hình 2 tỷ tham số trên phần cứng tiêu dùng tạo video HD 10 giây mà có vẻ không thể vào năm 2023.
Cuộc đua chưa kết thúc. Các nhà lãnh đạo nguồn đóng như Sora 2 và Runway Gen-4.5 vẫn dẫn đầu về chất lượng, thời lượng và khả năng kiểm soát. Nhưng nền tảng đang nâng cao. Đối với nhiều ứng dụng, mã nguồn mở giờ đây đã đủ tốt.
Tài nguyên
Kết luận
Kandinsky 5.0 có thể không đứng đầu mọi điểm chuẩn, nhưng nó thành công ở điều quan trọng nhất: chạy tạo video thực trên phần cứng mà người thực sở hữu, theo giấy phép cho phép sử dụng thương mại thực. Trong cuộc đua dân chủ hóa video AI, nhóm Nga vừa di chuyển vạch đích lại gần hơn.
Đối với các nhà phát triển đang khám phá tạo video mã nguồn mở, Kandinsky 5.0 xứng đáng có một vị trí trong danh sách rút gọn của bạn.
Bài viết này có hữu ích không?

Alexis
Kỹ sư AIKỹ sư AI đến từ Lausanne, kết hợp chiều sâu nghiên cứu với đổi mới thực tiễn. Chia thời gian giữa kiến trúc mô hình và những đỉnh núi Alps.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

Runway GWM-1: Mô Hình Thế Giới Tổng Quát Mô Phỏng Hiện Thực Theo Thời Gian Thực
GWM-1 của Runway đánh dấu sự chuyển đổi mô hình từ tạo video sang mô phỏng thế giới. Khám phá cách mô hình tự hồi quy này tạo ra môi trường có thể khám phá, hình đại diện chân thực và mô phỏng huấn luyện robot.

YouTube Đưa Veo 3 Fast Vào Shorts: Tạo Video AI Miễn Phí Cho 2,5 Tỷ Người Dùng
Google tích hợp mô hình Veo 3 Fast trực tiếp vào YouTube Shorts, cung cấp khả năng tạo video từ văn bản có âm thanh miễn phí cho các nhà sáng tạo trên toàn thế giới. Đây là ý nghĩa của nó đối với nền tảng và khả năng tiếp cận video AI.

Video Language Models: Biên giới Tiếp theo Sau LLM và AI Agents
World models đang dạy AI hiểu thực tế vật lý, cho phép robot lên kế hoạch hành động và mô phỏng kết quả trước khi di chuyển một bộ truyền động nào.