HenryHenry
6 min read
1074 מילים

CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות

בזמן ש-Sora 2 מוגבל ל-25 שניות, CraftStory הרגע השיקו מערכת שמייצרת סרטונים קוהרנטיים של 5 דקות. הסוד? הרצת מספר מנועי diffusion במקביל עם constraints דו-כיווניים.

CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות

הבעיה הגדולה בסרטוני AI? משך הזמן. Sora 2 מוגבל ל-25 שניות. Runway ו-Pika מסתובבים בסביבות 10 שניות. CraftStory הרגע נכנסו לתמונה ואמרו "תחזיקו לי את הבירה": סרטונים קוהרנטיים של 5 דקות. הטכניקה מאחורי זה ממש חכמה.

בעיית המשך הזמן שאף אחד לא פתר

הנקודה עם מודלים נוכחיים של סרטוני AI: הם רצים מהירים, לא אתלטי מרתון. תייצרו 8 שניות של צילומים מדהימים, אחר כך תנסו להאריך את זה, ותקבלו את המקבילה הוויזואלית של משחק טלפון שבור. ארטיפקטים מצטברים. דמויות סוטות. הכל מתפרק.

25s
Sora 2 Max
10s
Typical Models
5min
CraftStory

הגישה המסורתית עובדת ככה: תייצרו chunk, תשתמשו בכמה פריימים אחרונים בתור context ל-chunk הבא, תחברו אותם ביחד. הבעיה? שגיאות מצטברות. תנוחת יד קצת מוזרה ב-chunk ראשון הופכת ל-blob מוזר ב-chunk חמישי.

💡

CraftStory נוסדה על ידי הצוות מאחורי OpenCV, ספריית ה-computer vision שרצה בפרקטית כל מערכת ראייה שאי פעם השתמשתם בה. ה-CEO שלהם Victor Erukhimov היה שותף מייסד של Itseez, סטארטאפ computer vision שאינטל רכשה ב-2016.

Bidirectional Diffusion: החידוש הארכיטקטוני

הפתרון של CraftStory הופך את הגישה המסורתית על הראש. במקום לייצר באופן רציף ולקוות לטוב, הם מריצים מספר מנועי diffusion קטנים במקביל על פני כל ציר הזמן של הסרטון.

🔄

Bidirectional Constraints

התובנה המרכזית: "החלק המאוחר יותר של הסרטון יכול להשפיע על החלק המוקדם יותר של הסרטון גם כן," מסביר Erukhimov. "וזה די חשוב, כי אם אתה עושה את זה אחד אחרי השני, אז ארטיפקט שמופיע בחלק הראשון מתפשט לשני, ואז זה מצטבר."

תחשבו על זה כמו לכתוב רומן מול לתכנן אותו. ייצור רציף זה כמו לכתוב עמוד אחד, אז עמוד שניים, אז עמוד שלוש, בלי יכולת לחזור אחורה. הגישה של CraftStory זה כמו שיש לכם outline שבו פרק עשר יכול להשפיע על מה שצריך לקרות בפרק שניים.

Sequential מסורתי

  • תייצרו segment A
  • תשתמשו בסוף של A כדי להתחיל B
  • תשתמשו בסוף של B כדי להתחיל C
  • תקוו ששום דבר לא יצטבר
  • תחצו אצבעות בנקודות החיבור

Bidirectional Parallel

  • עיבוד כל ה-segments במקביל
  • כל segment מגביל את השכנים שלו
  • segments מוקדמים מושפעים מאלה מאוחרים
  • ארטיפקטים מתקנים את עצמם על פני ציר הזמן
  • קוהרנטיות טבעית, בלי חיבורים

איך Model 2.0 באמת עובד

כרגע, CraftStory Model 2.0 היא מערכת video-to-video. אתם מספקים תמונה ו-driving video, והיא מייצרת output שבו האדם בתמונה שלכם מבצע את התנועות מה-driving video.

  • תעלו reference image (הנושא שלכם)
  • תספקו driving video (תבנית התנועה)
  • המודל מסנתז את הפרפורמנס
  • Text-to-video מגיע ב-update עתידי

מערכת ה-lip-sync בולטת. תזינו לה סקריפט או track אודיו, והיא תייצר תנועות פה מתאימות. אלגוריתם gesture alignment נפרד מסנכרן שפת גוף עם קצב הדיבור וטון רגשי. התוצאה? סרטונים שבהם האדם באמת נראה כאילו הוא מדבר את המילים האלה, לא סתם מניד את הלסת.

💡

CraftStory אימנו על צילומי high-frame-rate קנייניים שצולמו במיוחד למודל. קליפים רגילים של YouTube ב-30fps יש להם יותר מדי motion blur לפרטים עדינים כמו אצבעות. הם שכרו אולפנים לצלם שחקנים ב-frame rates גבוהים יותר לדאטה אימון נקייה יותר.

ה-Output: מה שבאמת מקבלים

Capabilities
  • עד 5 דקות של סרטון רצוף
  • רזולוציה מקורית 480p ו-720p
  • 720p ניתן להגדלה ל-1080p
  • פורמטים landscape ו-portrait
  • תנועות שפתיים מסונכרנות
  • יישור ג'סטות טבעי
Limitations
  • רק video-to-video (עדיין אין text-to-video)
  • דורש driving video input
  • בערך 15 דקות ל-30 שניות ברזולוציה נמוכה
  • כרגע מצלמה סטטית (מצלמה נעה בדרך)

הייצור לוקח בערך 15 דקות לקליפ של 30 שניות ברזולוציה נמוכה. זה יותר איטי מהייצור הכמעט מיידי שחלק מהמודלים מציעים, אבל ה-tradeoff הוא output ארוך קוהרנטי במקום פרגמנטים יפים שלא מתחברים.

למה זה חשוב ליוצרים

מחסום ה-5 דקות לא שרירותי. זה הסף שבו סרטוני AI נהיים שימושיים לתוכן אמיתי.

10 sec

קליפים סושיאליים

טוב לקטעי TikTok ופרסומות, אבל storytelling מוגבל

30 sec

Explainers קצרים

מספיק ל-demo מהיר של מוצר או המחשת קונספט

2-5 min

תוכן אמיתי

טיוטוריאלים של YouTube, סרטוני הדרכה, מצגות, תוכן סיפורי

Future

Long Form

פרקים שלמים, סרטי תיעוד, קורסים חינוכיים

רוב תוכן הווידאו העסקי נמצא בטווח של 2-5 דקות. דמואים של מוצרים. מודולי הדרכה. סרטוני explainer. תקשורת פנימית. כאן CraftStory נהיים רלוונטיים לשימושים מקצועיים.

Use Cases שנפתחים:

  • טיוטוריאלים של מוצרים עם מגיש עקבי לאורך הדרך
  • סרטוני הדרכה שלא דורשים תזמון של טאלנט
  • הודעות וידאו מותאמות אישית בקנה מידה
  • תוכן חינוכי עם מדריכים וירטואליים
  • תקשורת ארגונית עם דוברים שנוצרו

הנוף התחרותי

CraftStory גייסו 2 מיליון דולר במימון seed בהובלת Andrew Filev, מייסד Wrike ו-Zencoder. זה צנוע בהשוואה למיליארדים שזורמים ל-OpenAI וגוגל, אבל זה מספיק כדי להוכיח את הטכנולוגיה.

🎯

הקשר ל-OpenCV

הרקע של צוות המייסדים חשוב כאן. OpenCV מפעילה מערכות computer vision על פני תעשיות. האנשים האלה מבינים את היסודות של עיבוד ויזואלי ברמה שרוב סטארטאפי סרטוני AI לא.

היכולת של text-to-video בפיתוח. ברגע שזה יושק, ה-value proposition נהיה ברור יותר: תתארו סרטון של 5 דקות בטקסט, תקבלו output קוהרנטי בלי הידרדרות איכות frame-by-frame שמציקה לכלים אחרים.

מה הלאה

תכונות ב-Roadmap

CraftStory הכריזו על מספר capabilities עתידיים:

  • Text-to-video: ייצור מ-prompts בלי driving video
  • מצלמה נעה: pan, zoom, ו-tracking shots
  • Walk-and-talk: נושאים שנעים בחלל תוך כדי דיבור

הגישה של bidirectional diffusion לא רק טריק של CraftStory. זה פטרן שצוותים אחרים כנראה יאמצו. ברגע שפתרתם את בעיית "שגיאות מצטברות קדימה", ייצור ארוך יותר הופך לאתגר הנדסי במקום מחסום יסודי.

⚠️

Model 2.0 כרגע ממוקד בסרטוני human-centric. לסצנות בלי אנשים, עדיין תרצו כלים מותאמים לייצור סביבתי או מופשט. זה כלי מומחה, לא גנרליסט.

התמונה הגדולה

אנחנו רואים סרטוני AI עוברים את שלב ה-teenager המביך. המודלים יכולים לייצר קליפים מדהימים של 10 שניות, אבל תבקשו מהם לשמור על קוהרנטיות על פני דקות והם מתפרקים. הגישה הדו-כיוונית של CraftStory היא תשובה אחת לבעיה הזו.

השאלה האמיתית: כמה זמן עד שהטכניקה הזו תאומץ על ידי השחקנים הגדולים יותר? ל-OpenAI, גוגל ו-Runway יש את המשאבים ליישם ארכיטקטורות דומות. היתרון של CraftStory הוא להיות ראשונים בשוק עם ייצור long-form עובד.

בינתיים, אם אתם צריכים תוכן סרטוני AI עקבי של כמה דקות עם נושאים אנושיים, CraftStory הרגע הפכו למשחק היחיד בעיר. מחסום המשך הזמן עדיין לא נשבר, אבל מישהו הרגע שם סדק רציני בו.

🚀

נסו את זה

CraftStory Model 2.0 זמין עכשיו. מבנה התמחור לא פורסם בפומבי, אז תצטרכו לבדוק באתר שלהם להצעות עדכניות. Text-to-video בדרך, מה שיעשה את הפלטפורמה נגישה למשתמשים בלי תוכן driving video קיים.

Henry

Henry

טכנולוג קריאייטיבי

טכנולוג קריאייטיבי מלוזאן החוקר את המפגש בין AI לאמנות. מתנסה במודלים גנרטיביים בין סשנים של מוזיקה אלקטרונית.

אהבתם את המאמר?

גלו תובנות נוספות והישארו מעודכנים עם התוכן האחרון שלנו.

CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות