Kandinsky 5.0: คำตอบแบบโอเพนซอร์สจากรัสเซียสำหรับการสร้างวิดีโอด้วย AI

ภูมิศาสตร์ของนวัตกรรม AI กำลังเปลี่ยนแปลงอย่างต่อเนื่อง ในขณะที่ห้องปฏิบัติการอเมริกันไล่ตามโมเดลที่ใหญ่ขึ้นเรื่อยๆ และบริษัทจีนครองตารางโอเพนซอร์ส ทีมงานรัสเซียได้เปิดตัวสิ่งที่อาจเป็นเครื่องมือสร้างวิดีโอ AI ที่เข้าถึงได้ง่ายที่สุดอย่างเงียบๆ นั่นคือ Kandinsky 5.0

การเปลี่ยนแปลงของภูมิทัศน์วิดีโอโอเพนซอร์ส

เมื่อ ByteDance เปิดซอร์สโมเดลความเข้าใจวิดีโอของพวกเขา และ Tencent ปล่อย HunyuanVideo เราได้เห็นการสั่นสะเทือนครั้งแรกของการเปลี่ยนแปลง ตอนนี้ Kandinsky Lab ที่ได้รับการสนับสนุนจาก Sberbank ได้เปิดตัวกลุ่มโมเดลครบวงจรที่ทุกคนสามารถใช้งาน ปรับแต่ง และนำไปใช้เชิงพาณิชย์ภายใต้ใบอนุญาต Apache 2.0

10s

ระยะเวลาวิดีโอ

12GB

VRAM ขั้นต่ำ

Apache 2.0

ใบอนุญาต

นี่ไม่ใช่ตัวอย่างการวิจัยหรือ API ที่มีข้อจำกัด น้ำหนักเต็ม โค้ดการฝึก และไปป์ไลน์การอนุมานทั้งหมดพร้อมใช้งานบน GitHub และ Hugging Face

กลุ่มโมเดล

💡

สำหรับบริบทเกี่ยวกับสถาปัตยกรรมดิฟฟิวชัน ดูการวิเคราะห์เชิงลึกของเราเกี่ยวกับ ทรานส์ฟอร์เมอร์ดิฟฟิวชัน

Kandinsky 5.0 ไม่ใช่โมเดลเดียว แต่เป็นกลุ่มของสามโมเดล:

Video Lite (2B พารามิเตอร์)

ตัวเลือกน้ำหนักเบาสำหรับฮาร์ดแวร์ระดับผู้บริโภค สร้างวิดีโอ 5 ถึง 10 วินาทีที่ความละเอียด 768×512, 24 fps ทำงานบน VRAM 12GB ด้วยการออฟโหลดหน่วยความจำ รุ่นที่กลั่น 16 สเต็ปสร้างคลิป 5 วินาทีใน 35 ถึง 60 วินาทีบน H100

Video Pro (19B พารามิเตอร์)

โมเดลเต็มสำหรับคุณภาพสูงสุด ส่งออกวิดีโอ HD ที่ 1280×768, 24 fps ต้องการ GPU ระดับดาต้าเซ็นเตอร์ แต่ให้ผลลัพธ์ที่แข่งขันได้กับทางเลือกแบบปิด

โมเดล Image Lite 6B พารามิเตอร์เติมเต็มกลุ่มสำหรับการสร้างภาพนิ่งที่ความละเอียด 1280×768 หรือ 1024×1024

สถาปัตยกรรมทางเทคนิค

การตัดสินใจทางวิศวกรรมใน Kandinsky 5.0 เผยให้เห็นทีมที่มุ่งเน้นการปรับใช้จริงมากกว่าการไล่ตามเบนช์มาร์ก

รากฐาน: Flow Matching มากกว่า Diffusion

โมเดลดิฟฟิวชันแบบดั้งเดิมเรียนรู้ที่จะย้อนกลับกระบวนการเพิ่มสัญญาณรบกวนทีละขั้นตอน Flow matching ใช้แนวทางที่แตกต่าง: มันเรียนรู้เส้นทางตรงจากสัญญาณรบกวนไปยังภาพผ่านฟิลด์โฟลว์ต่อเนื่อง ข้อได้เปรียบมีนัยสำคัญ:

✓ข้อได้เปรียบของ Flow Matching

เสถียรภาพในการฝึกที่ดีกว่า การบรรจบเร็วขึ้น และคุณภาพการสร้างที่คาดเดาได้มากขึ้นในเวลาอนุมาน

✗ข้อแลกเปลี่ยน

ต้องการการออกแบบเส้นทางอย่างระมัดระวัง ทีมใช้เส้นทางการขนส่งที่เหมาะสมที่ลดระยะทางระหว่างการกระจายสัญญาณรบกวนและเป้าหมาย

NABLA: ทำให้วิดีโอยาวเป็นไปได้

นวัตกรรมที่แท้จริงคือ NABLA ย่อมาจาก Neighborhood Adaptive Block-Level Attention การแอทเทนชันทรานส์ฟอร์เมอร์มาตรฐานขยายแบบกำลังสองตามความยาวลำดับ สำหรับวิดีโอ นี่เป็นหายนะ คลิป 10 วินาทีที่ 24 fps มี 240 เฟรม แต่ละเฟรมมีแพตช์เชิงพื้นที่หลายพันแพตช์ การแอทเทนชันแบบเต็มทั่วทั้งหมดเป็นไปไม่ได้ทางการคำนวณ

NABLA แก้ไขปัญหานี้ผ่านรูปแบบการแอทเทนชันแบบกระจาย แทนที่จะแอทเทนด์ทุกแพตช์ในทุกเฟรม มันมุ่งเน้นการคำนวณที่:

บริเวณใกล้เคียงเชิงพื้นที่ในท้องถิ่น ภายในแต่ละเฟรม
เพื่อนบ้านตามเวลา ข้ามเฟรมที่อยู่ติดกัน
จุดยึดทั่วโลกที่เรียนรู้ สำหรับความสอดคล้องระยะไกล

ผลลัพธ์คือการปรับขนาดเกือบเชิงเส้นตามความยาววิดีโอแทนที่จะเป็นกำลังสอง นี่คือสิ่งที่ทำให้การสร้าง 10 วินาทีเป็นไปได้บนฮาร์ดแวร์ระดับผู้บริโภค

💡

เพื่อเปรียบเทียบ โมเดลคู่แข่งส่วนใหญ่ต่อสู้กับวิดีโอที่ยาวกว่า 5 วินาทีหากไม่มีฮาร์ดแวร์เฉพาะทาง

สร้างบน HunyuanVideo

แทนที่จะฝึกทุกอย่างตั้งแต่ต้น Kandinsky 5.0 นำ 3D VAE จากโปรเจกต์ HunyuanVideo ของ Tencent มาใช้ เอนโค้ดเดอร์-ดีโค้ดเดอร์นี้จัดการการแปลระหว่างพื้นที่พิกเซลและพื้นที่แฝงที่กะทัดรัดซึ่งกระบวนการดิฟฟิวชันทำงาน

ความเข้าใจข้อความมาจาก Qwen2.5-VL โมเดลภาษาวิทัศน์ รวมกับการฝังตัว CLIP สำหรับการยึดเหนี่ยวทางความหมาย แนวทางเอนโค้ดเดอร์คู่นี้ช่วยให้โมเดลเข้าใจทั้งความหมายตามตัวอักษรและสไตล์ภาพที่บอกเป็นนัยโดยพรอมต์

ประสิทธิภาพ: ตำแหน่งที่อยู่

ทีมวาง Video Lite เป็นผู้ทำงานได้ดีที่สุดในบรรดาโมเดลโอเพนซอร์สในคลาสพารามิเตอร์ของมัน เบนช์มาร์กแสดง:

โมเดล	พารามิเตอร์	ระยะเวลาสูงสุด	VRAM (5s)
Kandinsky Video Lite	2B	10 วินาที	12GB
CogVideoX-2B	2B	6 วินาที	16GB
Open-Sora 1.2	1.1B	16 วินาที	18GB

ข้อกำหนด VRAM 12GB เปิดประตูสู่การปรับใช้บนการ์ด RTX 3090 และ 4090 ระดับผู้บริโภค ซึ่งเป็นก้าวสำคัญด้านการเข้าถึง

การเปรียบเทียบคุณภาพวัดได้ยากกว่า รายงานจากผู้ใช้แนะนำว่า Kandinsky สร้างการเคลื่อนไหวที่สม่ำเสมอกว่า CogVideoX แต่ตามหลัง HunyuanVideo ในด้านความสมจริงของภาพ โมเดลที่กลั่น 16 สเต็ปเสียสละรายละเอียดบางส่วนเพื่อความเร็ว การแลกเปลี่ยนที่ใช้งานได้ดีสำหรับการสร้างต้นแบบ แต่อาจไม่เหมาะกับความต้องการการผลิตขั้นสุดท้าย

การรัน Kandinsky ในเครื่อง

โปรเจกต์จัดเตรียมโหนด ComfyUI และสคริปต์แบบสแตนด์อโลน เวิร์กโฟลว์ข้อความเป็นวิดีโอพื้นฐาน:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

การออฟโหลดหน่วยความจำย้ายน้ำหนักโมเดลระหว่าง CPU และ GPU ระหว่างการอนุมาน สิ่งนี้แลกเปลี่ยนความเร็วเพื่อการเข้าถึง ทำให้โมเดลขนาดใหญ่ทำงานบนการ์ดขนาดเล็กได้

การเชื่อมต่อ Sberbank

Kandinsky Lab ดำเนินการภายใต้ Sber AI แผนกปัญญาประดิษฐ์ของ Sberbank ธนาคารที่ใหญ่ที่สุดของรัสเซีย การสนับสนุนนี้อธิบายทรัพยากรจำนวนมากเบื้องหลังโปรเจกต์: การฝึกหลายขั้นตอนบนข้อมูลที่เป็นกรรมสิทธิ์ การฝึกหลังด้วยการเรียนรู้เสริมแรง และความพยายามทางวิศวกรรมในการเปิดซอร์สไปป์ไลน์การผลิตที่สมบูรณ์

บริบทภูมิรัฐศาสตร์เพิ่มความซับซ้อน นักพัฒนาตะวันตกอาจเผชิญกับแรงกดดันจากสถาบันเพื่อหลีกเลี่ยงโมเดลที่มาจากรัสเซีย ใบอนุญาต Apache 2.0 ชัดเจนทางกฎหมาย แต่นโยบายองค์กรแตกต่างกัน สำหรับนักพัฒนารายบุคคลและสตูดิโอขนาดเล็ก การคำนวณง่ายกว่า: เทคโนโลยีที่ดีคือเทคโนโลยีที่ดี

⚠️

ควรตรวจสอบใบอนุญาตและการปฏิบัติตามกฎการส่งออกสำหรับเขตอำนาจและกรณีการใช้งานเฉพาะของคุณเสมอ

การใช้งานจริง

ระยะเวลา 10 วินาทีและความต้องการฮาร์ดแวร์ระดับผู้บริโภคเปิดกรณีการใช้งานเฉพาะ:

🎬

เนื้อหาโซเชียล

วิดีโอแบบสั้นสำหรับ TikTok, Reels และ Shorts การทำซ้ำอย่างรวดเร็วโดยไม่มีค่าใช้จ่าย API

🎨

การแสดงภาพแนวคิด

ผู้กำกับและโปรดิวเซอร์สามารถสร้างต้นแบบฉากก่อนการผลิตที่มีราคาแพง

🔧

การฝึกแบบกำหนดเอง

ใบอนุญาต Apache 2.0 อนุญาตให้ปรับแต่งบนชุดข้อมูลที่เป็นกรรมสิทธิ์ สร้างโมเดลเฉพาะทางสำหรับโดเมนของคุณ

📚

การวิจัย

การเข้าถึงน้ำหนักและสถาปัตยกรรมแบบเต็มช่วยให้สามารถศึกษาวิชาการเกี่ยวกับเทคนิคการสร้างวิดีโอได้

มองไปข้างหน้า

Kandinsky 5.0 เป็นตัวแทนของแนวโน้มที่กว้างขึ้น: ช่องว่างระหว่างการสร้างวิดีโอแบบโอเพนซอร์สและปิดกำลังแคบลง หนึ่งปีที่แล้ว โมเดลแบบเปิดสร้างคลิปสั้น ความละเอียดต่ำ ด้วยสิ่งประดิษฐ์ที่ชัดเจน วันนี้ โมเดล 2B พารามิเตอร์บนฮาร์ดแวร์ระดับผู้บริโภคสร้างวิดีโอ HD 10 วินาทีที่ดูเหมือนเป็นไปไม่ได้ในปี 2023

การแข่งขันยังไม่จบ ผู้นำแบบปิดเช่น Sora 2 และ Runway Gen-4.5 ยังนำในด้านคุณภาพ ระยะเวลา และการควบคุม แต่พื้นกำลังสูงขึ้น สำหรับแอปพลิเคชันจำนวนมาก โอเพนซอร์สตอนนี้ดีพอแล้ว

ทรัพยากร

สรุป

Kandinsky 5.0 อาจไม่ได้ติดอันดับต้นๆ ในทุกเบนช์มาร์ก แต่มันประสบความสำเร็จในจุดที่สำคัญที่สุด: การรันการสร้างวิดีโอจริงบนฮาร์ดแวร์ที่คนจริงเป็นเจ้าของ ภายใต้ใบอนุญาตที่อนุญาตให้ใช้เชิงพาณิชย์จริง ในการแข่งขันเพื่อทำให้วิดีโอ AI เป็นประชาธิปไตย ทีมรัสเซียเพิ่งย้ายเส้นชัยให้ใกล้ขึ้น

สำหรับนักพัฒนาที่สำรวจการสร้างวิดีโอโอเพนซอร์ส Kandinsky 5.0 สมควรได้รับตำแหน่งในรายการสั้นของคุณ