CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות

הבעיה הגדולה בסרטוני AI? משך הזמן. Sora 2 מוגבל ל-25 שניות. Runway ו-Pika מסתובבים בסביבות 10 שניות. CraftStory הרגע נכנסו לתמונה ואמרו "תחזיקו לי את הבירה": סרטונים קוהרנטיים של 5 דקות. הטכניקה מאחורי זה ממש חכמה.

בעיית המשך הזמן שאף אחד לא פתר

הנקודה עם מודלים נוכחיים של סרטוני AI: הם רצים מהירים, לא אתלטי מרתון. תייצרו 8 שניות של צילומים מדהימים, אחר כך תנסו להאריך את זה, ותקבלו את המקבילה הוויזואלית של משחק טלפון שבור. ארטיפקטים מצטברים. דמויות סוטות. הכל מתפרק.

25s

Sora 2 Max

10s

Typical Models

5min

CraftStory

הגישה המסורתית עובדת ככה: תייצרו chunk, תשתמשו בכמה פריימים אחרונים בתור context ל-chunk הבא, תחברו אותם ביחד. הבעיה? שגיאות מצטברות. תנוחת יד קצת מוזרה ב-chunk ראשון הופכת ל-blob מוזר ב-chunk חמישי.

💡

CraftStory נוסדה על ידי הצוות מאחורי OpenCV, ספריית ה-computer vision שרצה בפרקטית כל מערכת ראייה שאי פעם השתמשתם בה. ה-CEO שלהם Victor Erukhimov היה שותף מייסד של Itseez, סטארטאפ computer vision שאינטל רכשה ב-2016.

Bidirectional Diffusion: החידוש הארכיטקטוני

הפתרון של CraftStory הופך את הגישה המסורתית על הראש. במקום לייצר באופן רציף ולקוות לטוב, הם מריצים מספר מנועי diffusion קטנים במקביל על פני כל ציר הזמן של הסרטון.

🔄

Bidirectional Constraints

התובנה המרכזית: "החלק המאוחר יותר של הסרטון יכול להשפיע על החלק המוקדם יותר של הסרטון גם כן," מסביר Erukhimov. "וזה די חשוב, כי אם אתה עושה את זה אחד אחרי השני, אז ארטיפקט שמופיע בחלק הראשון מתפשט לשני, ואז זה מצטבר."

תחשבו על זה כמו לכתוב רומן מול לתכנן אותו. ייצור רציף זה כמו לכתוב עמוד אחד, אז עמוד שניים, אז עמוד שלוש, בלי יכולת לחזור אחורה. הגישה של CraftStory זה כמו שיש לכם outline שבו פרק עשר יכול להשפיע על מה שצריך לקרות בפרק שניים.

Sequential מסורתי

תייצרו segment A
תשתמשו בסוף של A כדי להתחיל B
תשתמשו בסוף של B כדי להתחיל C
תקוו ששום דבר לא יצטבר
תחצו אצבעות בנקודות החיבור

Bidirectional Parallel

עיבוד כל ה-segments במקביל
כל segment מגביל את השכנים שלו
segments מוקדמים מושפעים מאלה מאוחרים
ארטיפקטים מתקנים את עצמם על פני ציר הזמן
קוהרנטיות טבעית, בלי חיבורים

איך Model 2.0 באמת עובד

כרגע, CraftStory Model 2.0 היא מערכת video-to-video. אתם מספקים תמונה ו-driving video, והיא מייצרת output שבו האדם בתמונה שלכם מבצע את התנועות מה-driving video.

✓תעלו reference image (הנושא שלכם)
✓תספקו driving video (תבנית התנועה)
✓המודל מסנתז את הפרפורמנס
○Text-to-video מגיע ב-update עתידי

מערכת ה-lip-sync בולטת. תזינו לה סקריפט או track אודיו, והיא תייצר תנועות פה מתאימות. אלגוריתם gesture alignment נפרד מסנכרן שפת גוף עם קצב הדיבור וטון רגשי. התוצאה? סרטונים שבהם האדם באמת נראה כאילו הוא מדבר את המילים האלה, לא סתם מניד את הלסת.

💡

CraftStory אימנו על צילומי high-frame-rate קנייניים שצולמו במיוחד למודל. קליפים רגילים של YouTube ב-30fps יש להם יותר מדי motion blur לפרטים עדינים כמו אצבעות. הם שכרו אולפנים לצלם שחקנים ב-frame rates גבוהים יותר לדאטה אימון נקייה יותר.

ה-Output: מה שבאמת מקבלים

✓Capabilities

עד 5 דקות של סרטון רצוף
רזולוציה מקורית 480p ו-720p
720p ניתן להגדלה ל-1080p
פורמטים landscape ו-portrait
תנועות שפתיים מסונכרנות
יישור ג'סטות טבעי

✗Limitations

רק video-to-video (עדיין אין text-to-video)
דורש driving video input
בערך 15 דקות ל-30 שניות ברזולוציה נמוכה
כרגע מצלמה סטטית (מצלמה נעה בדרך)

הייצור לוקח בערך 15 דקות לקליפ של 30 שניות ברזולוציה נמוכה. זה יותר איטי מהייצור הכמעט מיידי שחלק מהמודלים מציעים, אבל ה-tradeoff הוא output ארוך קוהרנטי במקום פרגמנטים יפים שלא מתחברים.

למה זה חשוב ליוצרים

מחסום ה-5 דקות לא שרירותי. זה הסף שבו סרטוני AI נהיים שימושיים לתוכן אמיתי.

10 sec

קליפים סושיאליים

טוב לקטעי TikTok ופרסומות, אבל storytelling מוגבל

30 sec

Explainers קצרים

מספיק ל-demo מהיר של מוצר או המחשת קונספט

2-5 min

תוכן אמיתי

טיוטוריאלים של YouTube, סרטוני הדרכה, מצגות, תוכן סיפורי

Future

Long Form

פרקים שלמים, סרטי תיעוד, קורסים חינוכיים

רוב תוכן הווידאו העסקי נמצא בטווח של 2-5 דקות. דמואים של מוצרים. מודולי הדרכה. סרטוני explainer. תקשורת פנימית. כאן CraftStory נהיים רלוונטיים לשימושים מקצועיים.

Use Cases שנפתחים:

טיוטוריאלים של מוצרים עם מגיש עקבי לאורך הדרך
סרטוני הדרכה שלא דורשים תזמון של טאלנט
הודעות וידאו מותאמות אישית בקנה מידה
תוכן חינוכי עם מדריכים וירטואליים
תקשורת ארגונית עם דוברים שנוצרו

הנוף התחרותי

CraftStory גייסו 2 מיליון דולר במימון seed בהובלת Andrew Filev, מייסד Wrike ו-Zencoder. זה צנוע בהשוואה למיליארדים שזורמים ל-OpenAI וגוגל, אבל זה מספיק כדי להוכיח את הטכנולוגיה.

🎯

הקשר ל-OpenCV

הרקע של צוות המייסדים חשוב כאן. OpenCV מפעילה מערכות computer vision על פני תעשיות. האנשים האלה מבינים את היסודות של עיבוד ויזואלי ברמה שרוב סטארטאפי סרטוני AI לא.

היכולת של text-to-video בפיתוח. ברגע שזה יושק, ה-value proposition נהיה ברור יותר: תתארו סרטון של 5 דקות בטקסט, תקבלו output קוהרנטי בלי הידרדרות איכות frame-by-frame שמציקה לכלים אחרים.

מה הלאה

תכונות ב-Roadmap▼

CraftStory הכריזו על מספר capabilities עתידיים:

Text-to-video: ייצור מ-prompts בלי driving video
מצלמה נעה: pan, zoom, ו-tracking shots
Walk-and-talk: נושאים שנעים בחלל תוך כדי דיבור

הגישה של bidirectional diffusion לא רק טריק של CraftStory. זה פטרן שצוותים אחרים כנראה יאמצו. ברגע שפתרתם את בעיית "שגיאות מצטברות קדימה", ייצור ארוך יותר הופך לאתגר הנדסי במקום מחסום יסודי.

⚠️

Model 2.0 כרגע ממוקד בסרטוני human-centric. לסצנות בלי אנשים, עדיין תרצו כלים מותאמים לייצור סביבתי או מופשט. זה כלי מומחה, לא גנרליסט.

התמונה הגדולה

אנחנו רואים סרטוני AI עוברים את שלב ה-teenager המביך. המודלים יכולים לייצר קליפים מדהימים של 10 שניות, אבל תבקשו מהם לשמור על קוהרנטיות על פני דקות והם מתפרקים. הגישה הדו-כיוונית של CraftStory היא תשובה אחת לבעיה הזו.

השאלה האמיתית: כמה זמן עד שהטכניקה הזו תאומץ על ידי השחקנים הגדולים יותר? ל-OpenAI, גוגל ו-Runway יש את המשאבים ליישם ארכיטקטורות דומות. היתרון של CraftStory הוא להיות ראשונים בשוק עם ייצור long-form עובד.

בינתיים, אם אתם צריכים תוכן סרטוני AI עקבי של כמה דקות עם נושאים אנושיים, CraftStory הרגע הפכו למשחק היחיד בעיר. מחסום המשך הזמן עדיין לא נשבר, אבל מישהו הרגע שם סדק רציני בו.

🚀

נסו את זה

CraftStory Model 2.0 זמין עכשיו. מבנה התמחור לא פורסם בפומבי, אז תצטרכו לבדוק באתר שלהם להצעות עדכניות. Text-to-video בדרך, מה שיעשה את הפלטפורמה נגישה למשתמשים בלי תוכן driving video קיים.

CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות

בעיית המשך הזמן שאף אחד לא פתר

Bidirectional Diffusion: החידוש הארכיטקטוני

Bidirectional Constraints

איך Model 2.0 באמת עובד

ה-Output: מה שבאמת מקבלים

למה זה חשוב ליוצרים

קליפים סושיאליים

Explainers קצרים

תוכן אמיתי

Long Form

הנוף התחרותי

הקשר ל-OpenCV

מה הלאה

התמונה הגדולה

נסו את זה

Henry

Like what you read?

מאמרים קשורים

Pika 2.5: דמוקרטיזציה של וידאו AI דרך מהירות, מחיר וכלים קריאייטיביים

המהפכה של וידאו AI בקוד פתוח: האם GPU ביתיים יכולים להתחרות בענקיות הטכנולוגיה?

Runway Gen-4.5 במקום הראשון: איך 100 מהנדסים עקפו את Google ו-OpenAI

אהבתם את המאמר?