Kandinsky 5.0: Giải pháp mã nguồn mở AI tạo video từ Nga

Bản đồ đổi mới AI tiếp tục thay đổi. Trong khi các phòng thí nghiệm Mỹ theo đuổi các mô hình ngày càng lớn hơn và các công ty Trung Quốc thống trị bảng xếp hạng mã nguồn mở, một nhóm nghiên cứu Nga đã âm thầm phát hành những gì có thể là trình tạo video AI dễ tiếp cận nhất: Kandinsky 5.0.

Sự chuyển đổi trong lĩnh vực video mã nguồn mở

Khi ByteDance mở mã nguồn mô hình hiểu video của họ và Tencent phát hành HunyuanVideo, chúng ta đã thấy những dấu hiệu đầu tiên của sự thay đổi. Giờ đây, Kandinsky Lab, được hỗ trợ bởi Sberbank, đã phát hành một họ mô hình hoàn chỉnh mà bất kỳ ai cũng có thể chạy, sửa đổi và thương mại hóa theo giấy phép Apache 2.0.

10 giây

Thời lượng video

12GB

VRAM tối thiểu

Apache 2.0

Giấy phép

Đây không phải là bản xem trước nghiên cứu hay API bị hạn chế. Toàn bộ trọng số, mã huấn luyện và quy trình suy luận đều có sẵn trên GitHub và Hugging Face.

Họ mô hình

💡

Để hiểu rõ hơn về kiến trúc khuếch tán, vui lòng xem phân tích chuyên sâu về các bộ biến đổi khuếch tán.

Kandinsky 5.0 không phải là một mô hình đơn lẻ mà là một họ gồm ba mô hình.

Video Lite (2 tỷ tham số)

Lựa chọn nhẹ cho phần cứng tiêu dùng. Tạo video 5 đến 10 giây ở độ phân giải 768×512, 24 fps. Chạy trên 12GB VRAM với giảm tải bộ nhớ. Biến thể chưng cất 16 bước tạo clip 5 giây trong 35 đến 60 giây trên H100.

Video Pro (19 tỷ tham số)

Mô hình đầy đủ để có chất lượng tối đa. Xuất video HD ở 1280×768, 24 fps. Yêu cầu GPU cấp trung tâm dữ liệu nhưng mang lại kết quả cạnh tranh với các phương án nguồn đóng.

Mô hình Image Lite 6 tỷ tham số hoàn thiện họ sản phẩm cho việc tạo hình ảnh tĩnh ở độ phân giải 1280×768 hoặc 1024×1024.

Kiến trúc kỹ thuật

Các quyết định kỹ thuật trong Kandinsky 5.0 tiết lộ một nhóm tập trung vào triển khai thực tế hơn là theo đuổi các điểm chuẩn.

Nền tảng: Flow Matching thay vì Khuếch tán

Các mô hình khuếch tán truyền thống học cách đảo ngược quá trình thêm nhiễu từng bước. Flow Matching có cách tiếp cận khác: nó học một đường dẫn trực tiếp từ nhiễu đến hình ảnh thông qua trường dòng chảy liên tục. Lợi thế rất đáng kể.

✓Ưu điểm của Flow Matching

Tính ổn định huấn luyện tốt hơn, hội tụ nhanh hơn và chất lượng tạo có thể dự đoán hơn khi suy luận.

✗Đánh đổi

Yêu cầu thiết kế đường dẫn cẩn thận. Nhóm sử dụng các đường dẫn vận chuyển tối ưu để giảm thiểu khoảng cách giữa nhiễu và phân phối mục tiêu.

NABLA: Làm cho video dài trở nên khả thi

Đổi mới thực sự là NABLA, viết tắt của Neighborhood Adaptive Block-Level Attention (Chú ý cấp khối thích ứng lân cận). Cơ chế chú ý transformer tiêu chuẩn mở rộng theo bậc hai với độ dài chuỗi. Đối với video, điều này là thảm họa. Một clip 10 giây ở 24 fps chứa 240 khung hình, mỗi khung có hàng nghìn bản vá không gian. Chú ý đầy đủ trên tất cả chúng là không khả thi về mặt tính toán.

NABLA giải quyết vấn đề này thông qua các mẫu chú ý thưa. Thay vì chú ý đến mọi bản vá trong mọi khung hình, nó tập trung tính toán vào:

Các vùng lân cận không gian cục bộ trong mỗi khung hình
Các vùng lân cận thời gian qua các khung hình liền kề
Các điểm neo toàn cục đã học để có sự nhất quán tầm xa

Kết quả là mở rộng gần như tuyến tính theo độ dài video thay vì bậc hai. Đây là điều làm cho việc tạo 10 giây trở nên khả thi trên phần cứng tiêu dùng.

💡

Để so sánh, hầu hết các mô hình cạnh tranh đều gặp khó khăn với video dài hơn 5 giây nếu không có phần cứng chuyên dụng.

Dựa trên HunyuanVideo

Thay vì huấn luyện mọi thứ từ đầu, Kandinsky 5.0 áp dụng 3D VAE từ dự án HunyuanVideo của Tencent. Bộ mã hóa-giải mã này xử lý việc chuyển đổi giữa không gian pixel và không gian tiềm ẩn nhỏ gọn nơi quá trình khuếch tán hoạt động.

Khả năng hiểu văn bản đến từ Qwen2.5-VL, một mô hình ngôn ngữ-thị giác, kết hợp với nhúng CLIP để neo ngữ nghĩa. Cách tiếp cận bộ mã hóa kép này cho phép mô hình hiểu cả ý nghĩa theo nghĩa đen và phong cách hình ảnh được ngụ ý bởi các lời nhắc.

Hiệu suất: Vị trí hiện tại

Nhóm định vị Video Lite là người có hiệu suất tốt nhất trong các mô hình mã nguồn mở ở cùng lớp tham số. Các điểm chuẩn cho thấy:

Mô hình	Tham số	Thời lượng tối đa	VRAM (5 giây)
Kandinsky Video Lite	2 tỷ	10 giây	12GB
CogVideoX-2B	2 tỷ	6 giây	16GB
Open-Sora 1.2	1.1 tỷ	16 giây	18GB

Yêu cầu 12GB VRAM mở cửa cho việc triển khai trên các card RTX 3090 và 4090 dành cho người tiêu dùng, một cột mốc quan trọng về khả năng tiếp cận.

So sánh chất lượng khó định lượng hơn. Báo cáo của người dùng cho thấy Kandinsky tạo ra chuyển động nhất quán hơn CogVideoX nhưng thua kém HunyuanVideo về tính chân thực của ảnh. Mô hình chưng cất 16 bước hy sinh một số chi tiết tinh tế để đạt tốc độ, một sự đánh đổi phù hợp với việc tạo nguyên mẫu nhưng có thể không đáp ứng nhu cầu sản xuất cuối cùng.

Chạy Kandinsky cục bộ

Dự án cung cấp các node ComfyUI và script độc lập. Quy trình làm việc văn bản sang video cơ bản:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # Cho card 12GB
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 giây ở 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Giảm tải bộ nhớ di chuyển trọng số mô hình giữa CPU và GPU trong quá trình suy luận. Điều này đánh đổi tốc độ để có khả năng tiếp cận, cho phép các mô hình lớn hơn chạy trên các card nhỏ hơn.

Kết nối với Sberbank

Kandinsky Lab hoạt động dưới Sber AI, bộ phận trí tuệ nhân tạo của Sberbank, ngân hàng lớn nhất Nga. Sự hỗ trợ này giải thích nguồn lực đáng kể đằng sau dự án: huấn luyện nhiều giai đoạn trên dữ liệu độc quyền, huấn luyện sau bằng học tăng cường và nỗ lực kỹ thuật để mở mã nguồn một quy trình sản xuất hoàn chỉnh.

Bối cảnh địa chính trị thêm vào sự phức tạp. Các nhà phát triển phương Tây có thể đối mặt với áp lực thể chế để tránh các mô hình có nguồn gốc Nga. Giấy phép Apache 2.0 rõ ràng về mặt pháp lý, nhưng chính sách tổ chức khác nhau. Đối với các nhà phát triển cá nhân và studio nhỏ, tính toán đơn giản hơn: công nghệ tốt là công nghệ tốt.

⚠️

Luôn xác minh giấy phép và tuân thủ xuất khẩu cho khu vực pháp lý cụ thể và trường hợp sử dụng của bạn.

Ứng dụng thực tế

Thời lượng 10 giây và yêu cầu phần cứng tiêu dùng mở ra các trường hợp sử dụng cụ thể:

🎬

Nội dung xã hội

Video dạng ngắn cho TikTok, Reels và Shorts. Lặp lại nhanh chóng mà không có chi phí API.

🎨

Trực quan hóa khái niệm

Đạo diễn và nhà sản xuất có thể tạo nguyên mẫu cảnh trước khi sản xuất tốn kém.

🔧

Huấn luyện tùy chỉnh

Giấy phép Apache 2.0 cho phép tinh chỉnh trên các bộ dữ liệu độc quyền. Xây dựng các mô hình chuyên biệt cho lĩnh vực của bạn.

📚

Nghiên cứu

Truy cập đầy đủ vào trọng số và kiến trúc cho phép nghiên cứu học thuật về kỹ thuật tạo video.

Triển vọng tương lai

Kandinsky 5.0 đại diện cho một xu hướng rộng hơn: khoảng cách giữa việc tạo video mã nguồn mở và nguồn đóng đang thu hẹp. Một năm trước, các mô hình mở tạo ra các clip ngắn, độ phân giải thấp với các lỗi rõ ràng. Ngày nay, một mô hình 2 tỷ tham số trên phần cứng tiêu dùng tạo video HD 10 giây mà có vẻ không thể vào năm 2023.

Cuộc đua chưa kết thúc. Các nhà lãnh đạo nguồn đóng như Sora 2 và Runway Gen-4.5 vẫn dẫn đầu về chất lượng, thời lượng và khả năng kiểm soát. Nhưng nền tảng đang nâng cao. Đối với nhiều ứng dụng, mã nguồn mở giờ đây đã đủ tốt.

Tài nguyên

Kết luận

Kandinsky 5.0 có thể không đứng đầu mọi điểm chuẩn, nhưng nó thành công ở điều quan trọng nhất: chạy tạo video thực trên phần cứng mà người thực sở hữu, theo giấy phép cho phép sử dụng thương mại thực. Trong cuộc đua dân chủ hóa video AI, nhóm Nga vừa di chuyển vạch đích lại gần hơn.

Đối với các nhà phát triển đang khám phá tạo video mã nguồn mở, Kandinsky 5.0 xứng đáng có một vị trí trong danh sách rút gọn của bạn.