ByteDance Vidi2: בינה מלאכותית שמבינה וידאו כמו עורך מקצועי
ByteDance פרסמו את Vidi2 כקוד פתוח - מודל של 12 מiliardi פרמטרים שמבין תוכן וידאו מספיק טוב כדי לערוך אוטומטית שעות של צילומים לקליפים מעודנים. הוא כבר מפעיל את TikTok Smart Split.

בזמן שכולם אובססיביים על יצירת וידאו, ByteDance פתרו בשקט בעיה אחרת: לגרום לבינה מלאכותית להבין וידאו כמו עורך מנוסה. Vidi2 יכול לצפות בשעות של צילומים גולמיים ולחלץ בדיוק את מה שחשוב.
הבעיה שאף אחד לא מדבר עליה
יש לנו גנרטורים מדהימים של וידאו AI עכשיו. Runway Gen-4.5 מוביל בטבלאות האיכות. Kling O1 מייצר אודיו מסונכרן. אבל הנה הסוד המלוכלך של הפקת וידאו: רוב הזמן הולך על עריכה, לא על יצירה.
צלם חתונות מצלם 8 שעות של צילומים בשביל סרטון highlights של 5 דקות. יוצר תוכן מקליט 45 דקות כדי לעשות TikTok של 60 שניות. צוות ארגוני שיש לו 200 שעות של צילומי הדרכה קבורים בSharePoint.
יצירת וידאו מקבלת את הכותרות. הבנת וידאו עושה את העבודה בפועל.
Vidi2 מטפל בפער הזה. זה לא עוד גנרטור. זו בינה מלאכותית שצופה בוידאו, מבינה מה קורה, ועוזרת לך לעבוד עם התוכן הזה בסקייל.
מה Vidi2 באמת עושה
ByteDance מתארים את Vidi2 כ"מודל מולטימודלי גדול להבנת וידאו ויצירה." המודל של 12 ביליון פרמטרים מצטיין ב:
Spatio-Temporal Grounding
למצוא כל אובייקט בוידאו ולעקוב אחריו לאורך זמן. לא רק "יש חתול ב-0:32" אלא "החתול נכנס ב-0:32, זז לספה ב-0:45, ויוצא מהמסך ב-1:12."
עריכה חכמה
לנתח צילומים ולהציע חיתוכים על בסיס תוכן. למצוא את הרגעים הטובים, לזהות גבולות סצנה, להבין קצב.
ניתוח תוכן
לתאר מה קורה בוידאו ברמת פירוט שימושית. לא "שני אנשים מדברים" אלא "קטע ראיון, אורח מסביר פיצ'רים של מוצר, רגע של engagement גבוה ב-3:45."
מעקב אחר אובייקטים
לעקוב אחרי אובייקטים כ"צינורות" רציפים לאורך הוידאו, גם כשהם יוצאים וחוזרים למסך. זה מאפשר בחירה מדויקת לאפקטים, הסרה, או הדגשה.
החידוש הטכני: Spatio-Temporal Grounding
בינה מלאכותית של וידאו בעבר עבדה בשני ממדים: מרחב (מה נמצא בפריים הזה) או זמן (מתי משהו קורה). Vidi2 משלב את שניהם למה שByteDance קורא "Spatio-Temporal Grounding" (STG).
גישה מסורתית:
- מרחבי: "המכונית נמצאת בקואורדינטות פיקסל (450, 320)"
- זמני: "מכונית מופיעה בטיימסטמפ 0:15"
- תוצאה: מידע מנותק שדורש קורלציה ידנית
Vidi2 STG:
- משולב: "המכונית האדומה נמצאת ב-(450, 320) ב-0:15, זזה ל-(890, 340) ב-0:18, יוצאת ימינה ב-0:22"
- תוצאה: מסלול שלם של אובייקט במרחב ובזמן
זה חשוב כי משימות עריכה אמיתיות דורשות את שני הממדים. "להסיר את המיקרופון בום" צריך לדעת איפה הוא מופיע (מרחבי) וכמה זמן (זמני). Vidi2 מטפל בזה כשאילתה אחת.
בנצ'מרקים: מנצח את הענקיות
הנה איפה שזה נהיה מעניין. בבנצ'מרק VUE-STG של ByteDance ל-spatio-temporal grounding, Vidi2 מנצח גם את Gemini 2.0 Flash וגם את GPT-4o, למרות שיש לו פחות פרמטרים משניהם.
הערה: הבנצ'מרקים האלה נוצרו על ידי ByteDance. אימות עצמאי על בנצ'מרקים של צד שלישי יחזק את הטענות האלה. עם זאת, הגישה של ארכיטקטורה מיוחדת היא solid.
תוצאות הבנצ'מרק מציעות שהבנת וידאו נהנית מדיזיין מיוחד יותר מאשר מסקייל גולמי. מודל שבנוי לוידאו מהבסיס יכול לנצח מודלים general-purpose גדולים יותר שמתייחסים לוידאו כהרחבה של הבנת תמונה.
כבר בפרודקשן: TikTok Smart Split
זה לא vaporware. Vidi2 מפעיל את פיצ'ר "Smart Split" של TikTok, שעושה:
- ✓חילוץ אוטומטי של highlights מוידאו ארוכים
- ✓יצירת כתוביות מסונכרנות לדיבור
- ✓שחזור layout ליחסי גובה-רוחב שונים
- ✓זיהוי נקודות חיתוך אופטימליות על בסיס תוכן
מיליוני יוצרים משתמשים ב-Smart Split מדי יום. המודל מוכח בסקייל, לא תיאורטי.
קוד פתוח: תריץ את זה בעצמך
ByteDance שחררו את Vidi2 ב-GitHub תחת רישיון CC BY-NC 4.0. זה אומר חינם למחקר, חינוך, ופרויקטים אישיים, אבל שימוש מסחרי דורש רישוי נפרד. ההשלכות:
למפתחים:
- לבנות pipelines של ניתוח וידאו מותאמים
- לשלב הבנה בכלים קיימים
- fine-tune לדומיינים ספציפיים
- בלי עלויות API בסקייל
לארגונים:
- לעבד צילומים רגישים באופן מקומי
- לבנות workflows עריכה קנייניים
- להימנע מvendor lock-in
- להתאים לסוגי תוכן פנימיים
השחרור כקוד פתוח עוקב אחרי דפוס שראינו עם LTX Video ומעבדות AI סיניות אחרות: שחרור מודלים חזקים באופן פתוח בזמן שהמתחרים המערביים שומרים את שלהם קנייניים.
אפליקציות מעשיות
תן לי לעבור על כמה workflows אמיתיים שVidi2 מאפשר:
Repurposing תוכן
Input: הקלטת פודקאסט של שעתיים Output: 10 קליפים קצרים של הרגעים הטובים, כל אחד עם חיתוכי intro/outro נכונים
המודל מזהה רגעים engaging, מוצא נקודות חיתוך טבעיות, ומחלץ קליפים שעובדים כתוכן עצמאי.
ניהול וידאו הדרכה
Input: 500 שעות של צילומי הדרכה ארגוניים Query: "תמצא את כל הקטעים שמסבירים את ה-workflow החדש של CRM"
במקום scrubbing ידני או הסתמכות על metadata לא אמין, Vidi2 בפועל צופה ומבין את התוכן.
highlights ספורט
Input: הקלטת משחק מלא Output: סרטון highlights עם כל רגעי הניקוד, קריאות קרובות, וחגיגות
המודל מבין הקשר ספורטיבי מספיק טוב כדי לזהות רגעים משמעותיים, לא רק תנועה.
סקירת מעקב
Input: 24 שעות של צילומי אבטחה Query: "תמצא את כל המקרים של אנשים שנכנסים דרך הדלת הצדדית אחרי 6 בערב"
Spatio-temporal grounding אומר תשובות מדויקות עם טיימסטמפים ומיקומים מדויקים.
איך זה משתווה למודלים של יצירה
- עובד עם צילומים קיימים
- חוסך זמן עריכה, לא זמן יצירה
- מסקייל לספריות וידאו ענקיות
- לא צריך prompting יצירתי
- מעשי לארגון מיד
- יוצר תוכן חדש מאפס
- כלי ביטוי יצירתי
- אפליקציות שיווק ופרסום
- איכות שגדלה מהר
- מרגש אבל use case אחר
אלה לא טכנולוגיות מתחרות. הן פותרות בעיות שונות. workflow מלא של AI וידאו צריך את שניהם: יצירה ליצירת תוכן חדש, הבנה לעבודה עם תוכן קיים.
התמונה הגדולה
הבנת וידאو זה איפה שAI עובר מ"דמו מרשים" ל"כלי יומיומי." יצירה מקבלת תשומת לב. הבנה עושה עבודה.
תחשוב מה זה מאפשר:
- כל ארגון יש לו תוכן וידאו לכוד בארכיונים
- כל יוצר מבלה יותר זמן בעריכה מאשר בצילום
- כל פלטפורמה צריכה moderation ו-discovery טובים יותר של תוכן
- כל חוקר יש לו צילומים שהוא לא יכול לנתח ביעילות
Vidi2 מטפל בכל אלה. השחרור כקוד פתוח אומר שהיכולות האלה נגישות עכשיו לכל מי שיש לו compute מספיק.
להתחיל
המודל זמין ב-GitHub עם דוקומנטציה ודמואים. דרישות:
- NVIDIA GPU עם לפחות 24GB VRAM למודל מלא
- גרסאות quantized זמינות ל-GPUs קטנים יותר
- Python 3.10+ עם PyTorch 2.0+
Quick Start:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"הדוקומנטציה היא בעיקר באנגלית למרות שByteDance היא חברה סינית, מה שמשקף את קהל היעד הגלובלי.
מה זה אומר על התעשייה
נוף ה-AI וידאו עכשיו יש לו שני מסלולים נפרדים:
| מסלול | מובילים | פוקוס | ערך |
|---|---|---|---|
| יצירה | Runway, Sora, Veo, Kling | יצירת וידאו חדש | ביטוי יצירתי |
| הבנה | Vidi2, (אחרים מתפתחים) | ניתוח וידאו קיים | פרודוקטיביות |
שניהם יבשילו. שניהם ישתלבו. ה-stack המלא של AI וידאו של 2026 ייצור, יערוך, ויבין בצורה חלקה.
בינתיים, Vidi2 מייצג את האופציה הכי מסוגלת של קוד פתוח להבנת וידאו. אם יש לך צילומים לנתח, עריכה לאוטומט, או תוכן לארגן, זה המודל לחקור.
ה-take שלי
בניתי pipelines של עיבוד וידאו במשך שנים. ה-before ו-after עם מודלים כמו Vidi2 הוא דרמטי. משימות שדרשו stacks של computer vision מותאמים, annotation ידני, ו-heuristics שבריריים יכולים עכשיו להיפתר עם prompt.
הכלים הכי טובים של AI לא מחליפים שיפוט אנושי. הם מסירים את העבודה המשעממת שמונעת מבני אדם להחיל שיפוט בסקייל.
Vidi2 לא מחליף עורכים. הוא נותן לעורכים יכולות שהיו בלתי אפשריות בעבר בסקייל. ועם גישה פתוחה (לשימוש לא מסחרי), היכולות האלה זמינות לכל מי שמוכן להקים את התשתית.
העתיד של וידאו זה לא רק יצירה. זה הבנה. והעתיד הזה עכשיו קוד פתוח.
מקורות
המאמר עזר לכם?

Damien
מפתח AIמפתח AI מליון שאוהב להפוך קונספטים מורכבים של ML למתכונים פשוטים. כשהוא לא מנפה באגים במודלים, תמצאו אותו רוכב באופניים דרך עמק הרון.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

ByteDance Seedance 1.5 Pro: המודל שמייצר אודיו ווידאו ביחד
ByteDance משחררת את Seedance 1.5 Pro עם יצירת אודיו-ויזואלית נייטיבית, בקרות מצלמה ברמת קולנוע, וסנכרון שפתיים רב-לשוני. זמין בחינם ב-CapCut.

המהפכה של וידאו AI בקוד פתוח: האם GPU ביתיים יכולים להתחרות בענקיות הטכנולוגיה?
ByteDance ו-Tencent הרגע הוציאו מודלים לוידאו בקוד פתוח שרצים על חומרה ביתית. זה משנה הכל ליוצרים עצמאיים.

יוטיוב מביא את Veo 3 Fast ל-Shorts: יצירת וידאו AI בחינם ל-2.5 מיליארד משתמשים
גוגל משלבת את מודל Veo 3 Fast ישירות ב-YouTube Shorts, ומציעה ליוצרים ברחבי העולם יצירת וידאו מטקסט עם אודיו בחינם. מה זה אומר לפלטפורמה ולנגישות וידאו AI.