Kandinsky 5.0: התשובה הרוסית בקוד פתוח ליצירת וידאו בבינה מלאכותית

הגיאוגרפיה של חדשנות בבינה מלאכותית ממשיכה להשתנות. בזמן שמעבדות אמריקאיות רודפות אחרי מודלים גדולים יותר ויותר וחברות סיניות שולטות ב-leaderboard של קוד פתוח, צוות רוסי פרסם בשקט מה שעשוי להיות מחולל הוידאו AI הכי נגיש עד היום: Kandinsky 5.0.

הנוף של וידאו בקוד פתוח משתנה

כש-ByteDance פרסמו את מודל הבנת הוידאו שלהם בקוד פתוח ו-Tencent שחררו את HunyuanVideo, ראינו את הרעידות הראשונות של שינוי. עכשיו Kandinsky Lab, בגיבוי Sberbank, פרסמו משפחה שלמה של מודלים שכולם יכולים להריץ, לשנות ולהשתמש בהם מסחרית תחת רישיון Apache 2.0.

10s

אורך הוידאו

12GB

מינימום VRAM

Apache 2.0

רישיון

זה לא preview למחקר או API מוגבל. המשקולות המלאות, קוד האימון וה-pipeline של ההיסק זמינים ב-GitHub וב-Hugging Face.

משפחת המודלים

💡

לקונטקסט על ארכיטקטורות דיפוזיה, תראו את הניתוח המעמיק שלנו על diffusion transformers.

Kandinsky 5.0 זה לא מודל אחד אלא משפחה של שלושה:

Video Lite (2 מילארד פרמטרים)

האופציה הקלה לחומרה צרכנית. מייצר סרטונים של 5 עד 10 שניות ברזולוציה 768×512, 24 fps. רץ על 12GB VRAM עם memory offloading. הגרסה ה-distilled של 16 צעדים מייצרת קליפ של 5 שניות ב-35 עד 60 שניות על H100.

Video Pro (19 מילארד פרמטרים)

המודל המלא לאיכות מקסימלית. מוציא וידאו HD ב-1280×768, 24 fps. דורש GPUs מסוג datacenter אבל מספק תוצאות תחרותיות עם אלטרנטיבות closed-source.

מודל Image Lite של 6 מילארד פרמטרים משלים את המשפחה ליצירת תמונות סטילס ברזולוציה 1280×768 או 1024×1024.

ארכיטקטורה טכנית

ההחלטות ההנדסיות ב-Kandinsky 5.0 חושפות צוות שמתמקד ב-deployment מעשי במקום במרדף אחרי benchmarks.

הבסיס: Flow Matching במקום דיפוזיה

מודלי דיפוזיה מסורתיים לומדים להפוך תהליך של הוספת רעש צעד אחרי צעד. Flow matching לוקח גישה אחרת: הוא לומד נתיב ישיר מרעש לתמונה דרך שדה זרימה רצוף. היתרונות משמעותיים:

✓יתרונות Flow Matching

יציבות אימון טובה יותר, התכנסות מהירה יותר, ואיכות יצירה צפויה יותר בזמן היסק.

✗Trade-offs

דורש תכנון נתיב זהיר. הצוות משתמש ב-optimal transport paths שממזערים את המרחק בין רעש להתפלגויות היעד.

NABLA: הופך סרטונים ארוכים לאפשריים

החידוש האמיתי הוא NABLA, קיצור של Neighborhood Adaptive Block-Level Attention. Attention סטנדרטי של transformer גדל באופן ריבועי עם אורך ה-sequence. לגבי וידאו, זה קטסטרופלי. קליפ של 10 שניות ב-24 fps מכיל 240 פריימים, כל אחד עם אלפי patches מרחביים. Attention מלא על כולם זה לא ריאלי מבחינה חישובית.

NABLA מטפל בזה דרך דפוסי attention sparse. במקום להתייחס לכל patch בכל פריים, הוא מתמקד בחישוב על:

שכונות מרחביות מקומיות בתוך כל פריים
שכנים זמניים על פני פריימים סמוכים
עוגנים גלובליים נלמדים לקוהרנטיות ארוכת טווח

התוצאה היא scaling כמעט לינארי עם אורך הוידאו במקום ריבועי. זה מה שעושה יצירה של 10 שניות אפשרית על חומרה צרכנית.

💡

להשוואה, רוב המודלים המתחרים מתקשים עם סרטונים ארוכים מ-5 שניות בלי חומרה מיוחדת.

בנוי על HunyuanVideo

במקום לאמן הכל מאפס, Kandinsky 5.0 מאמץ את ה-3D VAE מפרויקט HunyuanVideo של Tencent. ה-encoder-decoder הזה מטפל בתרגום בין מרחב הפיקסלים למרחב הלטנט הקומפקטי שבו תהליך הדיפוזיה עובד.

הבנת טקסט מגיעה מ-Qwen2.5-VL, מודל vision-language, בשילוב עם CLIP embeddings ל-semantic grounding. הגישה הכפולה הזו מאפשרת למודל להבין גם את המשמעות המילולית וגם את הסגנון החזותי שה-prompts מרמזים עליו.

ביצועים: איפה הוא נמצא

הצוות ממקם את Video Lite כה-top performer בין מודלי קוד פתוח בקטגוריית הפרמטרים שלו. Benchmarks מראים:

מודל	פרמטרים	משך מקסימלי	VRAM (5s)
Kandinsky Video Lite	2B	10 שניות	12GB
CogVideoX-2B	2B	6 שניות	16GB
Open-Sora 1.2	1.1B	16 שניות	18GB

הדרישה של 12GB VRAM פותחת את הדלת ל-deployment על כרטיסי RTX 3090 ו-4090 צרכניים, milestone משמעותי בנגישות.

השוואות איכות קשות יותר לכמת. דיווחים של משתמשים מציעים ש-Kandinsky מייצר תנועה יותר עקבית מ-CogVideoX אבל נשאר מאחורי HunyuanVideo ב-photorealism. המודל ה-distilled של 16 צעדים מוותר על קצת פרטים עדינים לטובת מהירות, trade-off שעובד טוב ל-prototyping אבל אולי לא יספק את צרכי הייצור הסופיים.

הרצת Kandinsky באופן מקומי

הפרויקט מספק ComfyUI nodes וסקריפטים עצמאיים. workflow בסיסי של text-to-video:

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # For 12GB cards
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 5 seconds at 24fps
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

Memory offloading מעביר משקולות מודל בין CPU ל-GPU במהלך היסק. זה מחליף מהירות בנגישות, מאפשר למודלים גדולים יותר לרוץ על כרטיסים קטנים יותר.

הקשר של Sberbank

Kandinsky Lab פועל תחת Sber AI, חטיבת הבינה המלאכותית של Sberbank, הבנק הגדול ביותר ברוסיה. הגיבוי הזה מסביר את המשאבים המשמעותיים מאחורי הפרויקט: אימון רב-שלבי על נתונים קנייניים, אימון post-training של reinforcement learning, והמאמץ ההנדסי לפרסם pipeline ייצור שלם בקוד פתוח.

ההקשר הגיאופוליטי מוסיף מורכבות. מפתחים מערביים עשויים להיתקל בלחץ מוסדי להימנע ממודלים ממקור רוסי. רישיון Apache 2.0 ברור משפטית, אבל מדיניות ארגונית משתנה. למפתחים בודדים ואולפנים קטנים יותר, החישוב פשוט יותר: טכנולוגיה טובה זה טכנולוגיה טובה.

⚠️

תמיד תבדקו רישוי ותאימות לייצוא עבור תחום השיפוט וה-use case הספציפיים שלכם.

אפליקציות מעשיות

משך הזמן של 10 שניות ודרישות החומרה הצרכנית פותחים use cases ספציפיים:

🎬

תוכן חברתי

וידאו קצר ל-TikTok, Reels ו-Shorts. איטרציה מהירה בלי עלויות API.

🎨

ויזואליזציה של קונספט

במאים ומפיקים יכולים לעשות prototype לסצנות לפני ייצור יקר.

🔧

אימון מותאם אישית

רישיון Apache 2.0 מאפשר fine-tuning על datasets קנייניים. בנו מודלים מיוחדים לתחום שלכם.

📚

מחקר

גישה מלאה למשקולות ולארכיטקטורה מאפשרת מחקר אקדמי של טכניקות יצירת וידאו.

מבט קדימה

Kandinsky 5.0 מייצג טרנד רחב יותר: הפער בין יצירת וידאו בקוד פתוח לסגור מצטמצם. לפני שנה, מודלים פתוחים ייצרו קליפים קצרים ברזולוציה נמוכה עם artifacts ברורים. היום, מודל של 2 מילארד פרמטרים על חומרה צרכנית מייצר וידאו HD של 10 שניות שהיה נראה בלתי אפשרי ב-2023.

המירוץ לא נגמר. מובילים closed-source כמו Sora 2 ו-Runway Gen-4.5 עדיין מובילים באיכות, משך וcontrollability. אבל הרצפה עולה. להרבה אפליקציות, קוד פתוח עכשיו מספיק טוב.

משאבים

המסקנה

Kandinsky 5.0 אולי לא בטופ של כל benchmark, אבל הוא מצליח איפה שזה הכי חשוב: להריץ יצירת וידאו אמיתית על חומרה שאנשים אמיתיים מחזיקים, תחת רישיון שמאפשר שימוש מסחרי אמיתי. במירוץ לדמוקרטיזציה של וידאו AI, הצוות הרוסי זה עתה הזיז את קו הסיום קרוב יותר.

למפתחים שחוקרים יצירת וידאו בקוד פתוח, Kandinsky 5.0 ראוי למקום ב-shortlist שלכם.