Kandinsky 5.0: คำตอบแบบโอเพนซอร์สจากรัสเซียสำหรับการสร้างวิดีโอด้วย AI
Kandinsky 5.0 นำเสนอการสร้างวิดีโอ 10 วินาทีบน GPU ระดับผู้บริโภคด้วยใบอนุญาต Apache 2.0 เราจะสำรวจว่า NABLA attention และ flow matching ทำให้สิ่งนี้เป็นไปได้อย่างไร

การเปลี่ยนแปลงของภูมิทัศน์วิดีโอโอเพนซอร์ส
เมื่อ ByteDance เปิดซอร์สโมเดลความเข้าใจวิดีโอของพวกเขา และ Tencent ปล่อย HunyuanVideo เราได้เห็นการสั่นสะเทือนครั้งแรกของการเปลี่ยนแปลง ตอนนี้ Kandinsky Lab ที่ได้รับการสนับสนุนจาก Sberbank ได้เปิดตัวกลุ่มโมเดลครบวงจรที่ทุกคนสามารถใช้งาน ปรับแต่ง และนำไปใช้เชิงพาณิชย์ภายใต้ใบอนุญาต Apache 2.0
นี่ไม่ใช่ตัวอย่างการวิจัยหรือ API ที่มีข้อจำกัด น้ำหนักเต็ม โค้ดการฝึก และไปป์ไลน์การอนุมานทั้งหมดพร้อมใช้งานบน GitHub และ Hugging Face
กลุ่มโมเดล
สำหรับบริบทเกี่ยวกับสถาปัตยกรรมดิฟฟิวชัน ดูการวิเคราะห์เชิงลึกของเราเกี่ยวกับ ทรานส์ฟอร์เมอร์ดิฟฟิวชัน
Kandinsky 5.0 ไม่ใช่โมเดลเดียว แต่เป็นกลุ่มของสามโมเดล:
Video Lite (2B พารามิเตอร์)
ตัวเลือกน้ำหนักเบาสำหรับฮาร์ดแวร์ระดับผู้บริโภค สร้างวิดีโอ 5 ถึง 10 วินาทีที่ความละเอียด 768×512, 24 fps ทำงานบน VRAM 12GB ด้วยการออฟโหลดหน่วยความจำ รุ่นที่กลั่น 16 สเต็ปสร้างคลิป 5 วินาทีใน 35 ถึง 60 วินาทีบน H100
Video Pro (19B พารามิเตอร์)
โมเดลเต็มสำหรับคุณภาพสูงสุด ส่งออกวิดีโอ HD ที่ 1280×768, 24 fps ต้องการ GPU ระดับดาต้าเซ็นเตอร์ แต่ให้ผลลัพธ์ที่แข่งขันได้กับทางเลือกแบบปิด
โมเดล Image Lite 6B พารามิเตอร์เติมเต็มกลุ่มสำหรับการสร้างภาพนิ่งที่ความละเอียด 1280×768 หรือ 1024×1024
สถาปัตยกรรมทางเทคนิค
การตัดสินใจทางวิศวกรรมใน Kandinsky 5.0 เผยให้เห็นทีมที่มุ่งเน้นการปรับใช้จริงมากกว่าการไล่ตามเบนช์มาร์ก
รากฐาน: Flow Matching มากกว่า Diffusion
โมเดลดิฟฟิวชันแบบดั้งเดิมเรียนรู้ที่จะย้อนกลับกระบวนการเพิ่มสัญญาณรบกวนทีละขั้นตอน Flow matching ใช้แนวทางที่แตกต่าง: มันเรียนรู้เส้นทางตรงจากสัญญาณรบกวนไปยังภาพผ่านฟิลด์โฟลว์ต่อเนื่อง ข้อได้เปรียบมีนัยสำคัญ:
NABLA: ทำให้วิดีโอยาวเป็นไปได้
นวัตกรรมที่แท้จริงคือ NABLA ย่อมาจาก Neighborhood Adaptive Block-Level Attention การแอทเทนชันทรานส์ฟอร์เมอร์มาตรฐานขยายแบบกำลังสองตามความยาวลำดับ สำหรับวิดีโอ นี่เป็นหายนะ คลิป 10 วินาทีที่ 24 fps มี 240 เฟรม แต่ละเฟรมมีแพตช์เชิงพื้นที่หลายพันแพตช์ การแอทเทนชันแบบเต็มทั่วทั้งหมดเป็นไปไม่ได้ทางการคำนวณ
NABLA แก้ไขปัญหานี้ผ่านรูปแบบการแอทเทนชันแบบกระจาย แทนที่จะแอทเทนด์ทุกแพตช์ในทุกเฟรม มันมุ่งเน้นการคำนวณที่:
- บริเวณใกล้เคียงเชิงพื้นที่ในท้องถิ่น ภายในแต่ละเฟรม
- เพื่อนบ้านตามเวลา ข้ามเฟรมที่อยู่ติดกัน
- จุดยึดทั่วโลกที่เรียนรู้ สำหรับความสอดคล้องระยะไกล
ผลลัพธ์คือการปรับขนาดเกือบเชิงเส้นตามความยาววิดีโอแทนที่จะเป็นกำลังสอง นี่คือสิ่งที่ทำให้การสร้าง 10 วินาทีเป็นไปได้บนฮาร์ดแวร์ระดับผู้บริโภค
เพื่อเปรียบเทียบ โมเดลคู่แข่งส่วนใหญ่ต่อสู้กับวิดีโอที่ยาวกว่า 5 วินาทีหากไม่มีฮาร์ดแวร์เฉพาะทาง
สร้างบน HunyuanVideo
แทนที่จะฝึกทุกอย่างตั้งแต่ต้น Kandinsky 5.0 นำ 3D VAE จากโปรเจกต์ HunyuanVideo ของ Tencent มาใช้ เอนโค้ดเดอร์-ดีโค้ดเดอร์นี้จัดการการแปลระหว่างพื้นที่พิกเซลและพื้นที่แฝงที่กะทัดรัดซึ่งกระบวนการดิฟฟิวชันทำงาน
ความเข้าใจข้อความมาจาก Qwen2.5-VL โมเดลภาษาวิทัศน์ รวมกับการฝังตัว CLIP สำหรับการยึดเหนี่ยวทางความหมาย แนวทางเอนโค้ดเดอร์คู่นี้ช่วยให้โมเดลเข้าใจทั้งความหมายตามตัวอักษรและสไตล์ภาพที่บอกเป็นนัยโดยพรอมต์
ประสิทธิภาพ: ตำแหน่งที่อยู่
ทีมวาง Video Lite เป็นผู้ทำงานได้ดีที่สุดในบรรดาโมเดลโอเพนซอร์สในคลาสพารามิเตอร์ของมัน เบนช์มาร์กแสดง:
| โมเดล | พารามิเตอร์ | ระยะเวลาสูงสุด | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 วินาที | 12GB |
| CogVideoX-2B | 2B | 6 วินาที | 16GB |
| Open-Sora 1.2 | 1.1B | 16 วินาที | 18GB |
ข้อกำหนด VRAM 12GB เปิดประตูสู่การปรับใช้บนการ์ด RTX 3090 และ 4090 ระดับผู้บริโภค ซึ่งเป็นก้าวสำคัญด้านการเข้าถึง
การเปรียบเทียบคุณภาพวัดได้ยากกว่า รายงานจากผู้ใช้แนะนำว่า Kandinsky สร้างการเคลื่อนไหวที่สม่ำเสมอกว่า CogVideoX แต่ตามหลัง HunyuanVideo ในด้านความสมจริงของภาพ โมเดลที่กลั่น 16 สเต็ปเสียสละรายละเอียดบางส่วนเพื่อความเร็ว การแลกเปลี่ยนที่ใช้งานได้ดีสำหรับการสร้างต้นแบบ แต่อาจไม่เหมาะกับความต้องการการผลิตขั้นสุดท้าย
การรัน Kandinsky ในเครื่อง
โปรเจกต์จัดเตรียมโหนด ComfyUI และสคริปต์แบบสแตนด์อโลน เวิร์กโฟลว์ข้อความเป็นวิดีโอพื้นฐาน:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")การออฟโหลดหน่วยความจำย้ายน้ำหนักโมเดลระหว่าง CPU และ GPU ระหว่างการอนุมาน สิ่งนี้แลกเปลี่ยนความเร็วเพื่อการเข้าถึง ทำให้โมเดลขนาดใหญ่ทำงานบนการ์ดขนาดเล็กได้
การเชื่อมต่อ Sberbank
Kandinsky Lab ดำเนินการภายใต้ Sber AI แผนกปัญญาประดิษฐ์ของ Sberbank ธนาคารที่ใหญ่ที่สุดของรัสเซีย การสนับสนุนนี้อธิบายทรัพยากรจำนวนมากเบื้องหลังโปรเจกต์: การฝึกหลายขั้นตอนบนข้อมูลที่เป็นกรรมสิทธิ์ การฝึกหลังด้วยการเรียนรู้เสริมแรง และความพยายามทางวิศวกรรมในการเปิดซอร์สไปป์ไลน์การผลิตที่สมบูรณ์
บริบทภูมิรัฐศาสตร์เพิ่มความซับซ้อน นักพัฒนาตะวันตกอาจเผชิญกับแรงกดดันจากสถาบันเพื่อหลีกเลี่ยงโมเดลที่มาจากรัสเซีย ใบอนุญาต Apache 2.0 ชัดเจนทางกฎหมาย แต่นโยบายองค์กรแตกต่างกัน สำหรับนักพัฒนารายบุคคลและสตูดิโอขนาดเล็ก การคำนวณง่ายกว่า: เทคโนโลยีที่ดีคือเทคโนโลยีที่ดี
ควรตรวจสอบใบอนุญาตและการปฏิบัติตามกฎการส่งออกสำหรับเขตอำนาจและกรณีการใช้งานเฉพาะของคุณเสมอ
การใช้งานจริง
ระยะเวลา 10 วินาทีและความต้องการฮาร์ดแวร์ระดับผู้บริโภคเปิดกรณีการใช้งานเฉพาะ:
เนื้อหาโซเชียล
การแสดงภาพแนวคิด
การฝึกแบบกำหนดเอง
การวิจัย
มองไปข้างหน้า
Kandinsky 5.0 เป็นตัวแทนของแนวโน้มที่กว้างขึ้น: ช่องว่างระหว่างการสร้างวิดีโอแบบโอเพนซอร์สและปิดกำลังแคบลง หนึ่งปีที่แล้ว โมเดลแบบเปิดสร้างคลิปสั้น ความละเอียดต่ำ ด้วยสิ่งประดิษฐ์ที่ชัดเจน วันนี้ โมเดล 2B พารามิเตอร์บนฮาร์ดแวร์ระดับผู้บริโภคสร้างวิดีโอ HD 10 วินาทีที่ดูเหมือนเป็นไปไม่ได้ในปี 2023
การแข่งขันยังไม่จบ ผู้นำแบบปิดเช่น Sora 2 และ Runway Gen-4.5 ยังนำในด้านคุณภาพ ระยะเวลา และการควบคุม แต่พื้นกำลังสูงขึ้น สำหรับแอปพลิเคชันจำนวนมาก โอเพนซอร์สตอนนี้ดีพอแล้ว
สรุป
Kandinsky 5.0 อาจไม่ได้ติดอันดับต้นๆ ในทุกเบนช์มาร์ก แต่มันประสบความสำเร็จในจุดที่สำคัญที่สุด: การรันการสร้างวิดีโอจริงบนฮาร์ดแวร์ที่คนจริงเป็นเจ้าของ ภายใต้ใบอนุญาตที่อนุญาตให้ใช้เชิงพาณิชย์จริง ในการแข่งขันเพื่อทำให้วิดีโอ AI เป็นประชาธิปไตย ทีมรัสเซียเพิ่งย้ายเส้นชัยให้ใกล้ขึ้น
สำหรับนักพัฒนาที่สำรวจการสร้างวิดีโอโอเพนซอร์ส Kandinsky 5.0 สมควรได้รับตำแหน่งในรายการสั้นของคุณ
บทความนี้มีประโยชน์หรือไม่?

Alexis
วิศวกร AIวิศวกร AI จากโลซานน์ที่ผสมผสานความลึกซึ้งในการวิจัยกับนวัตกรรมเชิงปฏิบัติ แบ่งเวลาระหว่างสถาปัตยกรรมโมเดลและยอดเขาแอลไพน์
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

ปฏิวัติวิดีโอ AI แบบโอเพนซอร์ส: GPU สำหรับผู้บริโภคจะแข่งกับยักษ์ใหญ่ด้านเทคโนโลยีได้หรือไม่?
ByteDance และ Tencent เพิ่งเปิดตัวโมเดลวิดีโอโอเพนซอร์สที่รันบนฮาร์ดแวร์สำหรับผู้บริโภค สิ่งนี้เปลี่ยนแปลงทุกอย่างสำหรับครีเอเตอร์อิสระ

Runway GWM-1: โมเดลโลกทั่วไปที่จำลองความเป็นจริงแบบเรียลไทม์
GWM-1 ของ Runway เป็นการเปลี่ยนแปลงกระบวนทัศน์จากการสร้างวิดีโอไปสู่การจำลองโลก สำรวจว่าโมเดลออโตรีเกรสซีฟนี้สร้างสภาพแวดล้อมที่สำรวจได้ อวาตาร์สมจริง และการจำลองการฝึกหุ่นยนต์อย่างไร

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI