Kandinsky 5.0: התשובה הרוסית בקוד פתוח ליצירת וידאו בבינה מלאכותית
Kandinsky 5.0 מביא יצירת וידאו של 10 שניות לכרטיסי מסך צרכניים עם רישיון Apache 2.0. אנחנו בודקים איך NABLA attention ו-flow matching עושים את זה אפשרי.

הנוף של וידאו בקוד פתוח משתנה
כש-ByteDance פרסמו את מודל הבנת הוידאו שלהם בקוד פתוח ו-Tencent שחררו את HunyuanVideo, ראינו את הרעידות הראשונות של שינוי. עכשיו Kandinsky Lab, בגיבוי Sberbank, פרסמו משפחה שלמה של מודלים שכולם יכולים להריץ, לשנות ולהשתמש בהם מסחרית תחת רישיון Apache 2.0.
זה לא preview למחקר או API מוגבל. המשקולות המלאות, קוד האימון וה-pipeline של ההיסק זמינים ב-GitHub וב-Hugging Face.
משפחת המודלים
לקונטקסט על ארכיטקטורות דיפוזיה, תראו את הניתוח המעמיק שלנו על diffusion transformers.
Kandinsky 5.0 זה לא מודל אחד אלא משפחה של שלושה:
Video Lite (2 מילארד פרמטרים)
האופציה הקלה לחומרה צרכנית. מייצר סרטונים של 5 עד 10 שניות ברזולוציה 768×512, 24 fps. רץ על 12GB VRAM עם memory offloading. הגרסה ה-distilled של 16 צעדים מייצרת קליפ של 5 שניות ב-35 עד 60 שניות על H100.
Video Pro (19 מילארד פרמטרים)
המודל המלא לאיכות מקסימלית. מוציא וידאו HD ב-1280×768, 24 fps. דורש GPUs מסוג datacenter אבל מספק תוצאות תחרותיות עם אלטרנטיבות closed-source.
מודל Image Lite של 6 מילארד פרמטרים משלים את המשפחה ליצירת תמונות סטילס ברזולוציה 1280×768 או 1024×1024.
ארכיטקטורה טכנית
ההחלטות ההנדסיות ב-Kandinsky 5.0 חושפות צוות שמתמקד ב-deployment מעשי במקום במרדף אחרי benchmarks.
הבסיס: Flow Matching במקום דיפוזיה
מודלי דיפוזיה מסורתיים לומדים להפוך תהליך של הוספת רעש צעד אחרי צעד. Flow matching לוקח גישה אחרת: הוא לומד נתיב ישיר מרעש לתמונה דרך שדה זרימה רצוף. היתרונות משמעותיים:
NABLA: הופך סרטונים ארוכים לאפשריים
החידוש האמיתי הוא NABLA, קיצור של Neighborhood Adaptive Block-Level Attention. Attention סטנדרטי של transformer גדל באופן ריבועי עם אורך ה-sequence. לגבי וידאו, זה קטסטרופלי. קליפ של 10 שניות ב-24 fps מכיל 240 פריימים, כל אחד עם אלפי patches מרחביים. Attention מלא על כולם זה לא ריאלי מבחינה חישובית.
NABLA מטפל בזה דרך דפוסי attention sparse. במקום להתייחס לכל patch בכל פריים, הוא מתמקד בחישוב על:
- שכונות מרחביות מקומיות בתוך כל פריים
- שכנים זמניים על פני פריימים סמוכים
- עוגנים גלובליים נלמדים לקוהרנטיות ארוכת טווח
התוצאה היא scaling כמעט לינארי עם אורך הוידאו במקום ריבועי. זה מה שעושה יצירה של 10 שניות אפשרית על חומרה צרכנית.
להשוואה, רוב המודלים המתחרים מתקשים עם סרטונים ארוכים מ-5 שניות בלי חומרה מיוחדת.
בנוי על HunyuanVideo
במקום לאמן הכל מאפס, Kandinsky 5.0 מאמץ את ה-3D VAE מפרויקט HunyuanVideo של Tencent. ה-encoder-decoder הזה מטפל בתרגום בין מרחב הפיקסלים למרחב הלטנט הקומפקטי שבו תהליך הדיפוזיה עובד.
הבנת טקסט מגיעה מ-Qwen2.5-VL, מודל vision-language, בשילוב עם CLIP embeddings ל-semantic grounding. הגישה הכפולה הזו מאפשרת למודל להבין גם את המשמעות המילולית וגם את הסגנון החזותי שה-prompts מרמזים עליו.
ביצועים: איפה הוא נמצא
הצוות ממקם את Video Lite כה-top performer בין מודלי קוד פתוח בקטגוריית הפרמטרים שלו. Benchmarks מראים:
| מודל | פרמטרים | משך מקסימלי | VRAM (5s) |
|---|---|---|---|
| Kandinsky Video Lite | 2B | 10 שניות | 12GB |
| CogVideoX-2B | 2B | 6 שניות | 16GB |
| Open-Sora 1.2 | 1.1B | 16 שניות | 18GB |
הדרישה של 12GB VRAM פותחת את הדלת ל-deployment על כרטיסי RTX 3090 ו-4090 צרכניים, milestone משמעותי בנגישות.
השוואות איכות קשות יותר לכמת. דיווחים של משתמשים מציעים ש-Kandinsky מייצר תנועה יותר עקבית מ-CogVideoX אבל נשאר מאחורי HunyuanVideo ב-photorealism. המודל ה-distilled של 16 צעדים מוותר על קצת פרטים עדינים לטובת מהירות, trade-off שעובד טוב ל-prototyping אבל אולי לא יספק את צרכי הייצור הסופיים.
הרצת Kandinsky באופן מקומי
הפרויקט מספק ComfyUI nodes וסקריפטים עצמאיים. workflow בסיסי של text-to-video:
from kandinsky5 import Kandinsky5VideoLite
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload() # For 12GB cards
video = model.generate(
prompt="A mountain lake at dawn, mist rising from still water",
num_frames=120, # 5 seconds at 24fps
guidance_scale=7.0,
num_inference_steps=16
)
video.save("output.mp4")Memory offloading מעביר משקולות מודל בין CPU ל-GPU במהלך היסק. זה מחליף מהירות בנגישות, מאפשר למודלים גדולים יותר לרוץ על כרטיסים קטנים יותר.
הקשר של Sberbank
Kandinsky Lab פועל תחת Sber AI, חטיבת הבינה המלאכותית של Sberbank, הבנק הגדול ביותר ברוסיה. הגיבוי הזה מסביר את המשאבים המשמעותיים מאחורי הפרויקט: אימון רב-שלבי על נתונים קנייניים, אימון post-training של reinforcement learning, והמאמץ ההנדסי לפרסם pipeline ייצור שלם בקוד פתוח.
ההקשר הגיאופוליטי מוסיף מורכבות. מפתחים מערביים עשויים להיתקל בלחץ מוסדי להימנע ממודלים ממקור רוסי. רישיון Apache 2.0 ברור משפטית, אבל מדיניות ארגונית משתנה. למפתחים בודדים ואולפנים קטנים יותר, החישוב פשוט יותר: טכנולוגיה טובה זה טכנולוגיה טובה.
תמיד תבדקו רישוי ותאימות לייצוא עבור תחום השיפוט וה-use case הספציפיים שלכם.
אפליקציות מעשיות
משך הזמן של 10 שניות ודרישות החומרה הצרכנית פותחים use cases ספציפיים:
תוכן חברתי
ויזואליזציה של קונספט
אימון מותאם אישית
מחקר
מבט קדימה
Kandinsky 5.0 מייצג טרנד רחב יותר: הפער בין יצירת וידאו בקוד פתוח לסגור מצטמצם. לפני שנה, מודלים פתוחים ייצרו קליפים קצרים ברזולוציה נמוכה עם artifacts ברורים. היום, מודל של 2 מילארד פרמטרים על חומרה צרכנית מייצר וידאו HD של 10 שניות שהיה נראה בלתי אפשרי ב-2023.
המירוץ לא נגמר. מובילים closed-source כמו Sora 2 ו-Runway Gen-4.5 עדיין מובילים באיכות, משך וcontrollability. אבל הרצפה עולה. להרבה אפליקציות, קוד פתוח עכשיו מספיק טוב.
המסקנה
Kandinsky 5.0 אולי לא בטופ של כל benchmark, אבל הוא מצליח איפה שזה הכי חשוב: להריץ יצירת וידאו אמיתית על חומרה שאנשים אמיתיים מחזיקים, תחת רישיון שמאפשר שימוש מסחרי אמיתי. במירוץ לדמוקרטיזציה של וידאו AI, הצוות הרוסי זה עתה הזיז את קו הסיום קרוב יותר.
למפתחים שחוקרים יצירת וידאו בקוד פתוח, Kandinsky 5.0 ראוי למקום ב-shortlist שלכם.
המאמר עזר לכם?

Alexis
מהנדס AIמהנדס AI מלוזאן המשלב עומק מחקרי עם חדשנות מעשית. מחלק את זמנו בין ארכיטקטורות מודלים לפסגות האלפים.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

MiniMax Hailuo 02, מודל הווידאו של בדיקת המחיר בחינה של סין
Hailuo 02 של MiniMax מספק איכות וידאו תחרותית בשבריר מהעלות, עם 10 סרטונים במחיר של קליפ Veo 3 אחד. הנה מה שהופך את המתחרה הסיני הזה לראוי לצפייה.

Kling O1: Kuaishou מצטרפת למירוץ המודלים המולטימודליים המאוחדים
Kuaishou השיקה זה עתה את Kling O1, בינה מלאכותית מולטימודלית מאוחדת שחושבת בוידאו, אודיו וטקסט בו-זמנית. המירוץ על אינטליגנציה אודיו-ויזואלית מתחמם.

Runway GWM-1: מודל העולם הכללי שמדמה מציאות בזמן אמת
ה-GWM-1 של Runway מסמן שינוי פרדיגמה מיצירת וידאו לסימולציה של עולמות. גלה איך המודל האוטורגרסיבי הזה יוצר סביבות שניתן לחקור, אווטרים פוטוריאליסטיים וסימולציות לאימון רובוטים.