סימולציית פיזיקה בווידאו AI: איך המודלים סוף סוף למדו לכבד את המציאות
מכדורסל שמתנקט לקפיצות ריאליסטיות, מודלי וידאו AI מבינים עכשיו כבידה, מומנטום ודינמיקת חומרים. סוקרים את הפריצות הטכנולוגיות שמאפשרות את זה.

במשך שנים, לסרטונים שנוצרו על ידי AI הייתה בעיית פיזיקה. כדורסל היה מפספס את הסל ופשוט מתנקט פנימה בכל מקרה. מים היו זורמים כלפי מעלה. עצמים היו חולפים אחד דרך השני כמו רוחות רפאים. ב-2025 ותחילת 2026, משהו השתנה. הדור האחרון של מודלי הווידאו למד לכבד את החוקים הבסיסיים של העולם הפיזי.
בעיית הכדורסל
OpenAI תיארה את זה מצוין כשהשיקה את Sora 2: במודלים קודמים, אם כדורסל פספס את הסל, הוא פשוט הופיע בתוך הרשת בכל מקרה. המודל ידע את התוצאה הנרטיבית (כדור נכנס לסל) אבל לא היה לו מושג לגבי האילוצים הפיזיים שאמורים לנהל את המסע.
זו לא הייתה באג קטן. זה היה סימפטום של מגבלה ארכיטקטונית בסיסית. מודלי יצירת וידאו מוקדמים הצליחו בהתאמת דפוסים ויזואליים, למדו ליצור פריימים שנראו סבירים בנפרד אבל נשארו לא קוהרנטיים פיזית כשצפו בהם ברצף.
OpenAI ציינה במפורש את מגבלות "מורפינג אובייקט" כבעיה מרכזית ש-Sora 2 תוכנן לפתור. הפער הארכיטקטוני הזה תסכל חוקרים ויוצרים כאחד.
שלושת העמודים של הבנה פיזית
הפריצה בסימולציית פיזיקה מבוססת על שלוש התקדמויות מחוברות: מודלים עולמיים, חשיבה שרשרתית ומנגנוני תשומת לב טמפורלית משופרים.
מודלים עולמיים מול חיזוי פריימים
יצירת וידאו מסורתית התייחסה למשימה כחיזוי פריימים רציף: בהינתן פריימים 1 עד N, חזה פריים N+1. הגישה הזו מתקשה מטבעה עם פיזיקה כי אין לה ייצוג מפורש של המצב הפיזי הבסיסי.
מודלים עולמיים לוקחים גישה שונה לחלוטין. במקום לחזות פיקסלים ישירות, הם קודם בונים ייצוג פנימי של המצב הפיזי של הסצנה, כולל מיקומי עצמים, מהירויות, חומרים ואינטראקציות. רק אז הם מרנדרים את המצב הזה לפריימים ויזואליים. הגישה הזו, שנחקרה לעומק בניתוח מודלים עולמיים שלנו, מייצגת שינוי פרדיגמה באיך שאנחנו חושבים על יצירת וידאו.
חוזה פיקסלים מפיקסלים. אין פיזיקה מפורשת. נוטה לטלפורטציה, שגיאות חליפה ומפרות כבידה. מהיר אבל לא קוהרנטי פיזית.
מסמלץ קודם מצב פיזי. מעקב עצמים מפורש. מכבד חוקי שימור ודינמיקת התנגשויות. כבד יותר חישובית אבל מעוגן פיזית.
Chain of Thought לווידאו
Kling O1, שיצא בסוף 2025, הציג חשיבה שרשרתית ליצירת וידאו. לפני יצירת פריימים, המודל חושב במפורש מה אמור לקרות פיזית בסצנה.
לסצנה של כוס נופלת מהשולחן, המודל קודם חושב:
- לכוס יש מהירות התחלתית אפס, מיקום על קצה השולחן
- כבידה מאיצה את הכוס כלפי מטה ב-9.8 מטר לשנייה בריבוע
- הכוס פוגעת ברצפה אחרי כ-0.45 שניות
- חומר הכוס שביר, הרצפה משטח קשה
- ההשפעה עוברת את סף השבירה, הכוס מתנפצת
- רסיסים מתפזרים עם שימור מומנטום
שלב החשיבה המפורש הזה קורה במרחב הלטנטי של המודל לפני שפיקסלים נוצרים. התוצאה היא וידאו שמכבד לא רק אסתטיקה ויזואלית אלא שרשראות סיבתיות.
תשומת לב טמפורלית בקנה מידה
הבסיס הארכיטקטוני שמאפשר את ההתקדמויות האלה הוא תשומת לב טמפורלית, המנגנון שדרכו מודלי וידאו שומרים על עקביות בין פריימים. ארכיטקטורת דיפיוז׳ן טרנספורמר שמפעילה מודלי וידאו מודרניים מעבדת וידאו כ-patches של מרחב-זמן, מאפשרת לתשומת לב לזרום מרחבית בתוך פריימים וטמפורלית ביניהם.
מודלי וידאו מודרניים מעבדים מיליוני patches של מרחב-זמן לכל וידאו, עם ראשי תשומת לב מתמחים שמוקדשים לעקביות פיזית. הסקייל הזה מאפשר למודלים לעקוב אחר זהות עצם ומצב פיזי על פני מאות פריימים, שומר על קוהרנטיות שהייתה בלתי אפשרית עם ארכיטקטורות קודמות.
בנצ׳מרקים של פיזיקה בעולם האמיתי
איך בעצם מודדים איכות סימולציית פיזיקה? התחום פיתח כמה מבחנים סטנדרטיים:
| בנצ׳מרק | בודק | מובילים |
|---|---|---|
| קביעות עצם | עצמים נשארים כשהם מוסתרים | Sora 2, Veo 3 |
| עקביות כבידה | תאוצת נפילה חופשית אחידה | Kling O1, Runway Gen-4.5 |
| ריאליזם התנגשות | עצמים קופצים, מתעוותים או נשברים כראוי | Sora 2, Veo 3.1 |
| דינמיקת נוזלים | מים, עשן ובד מסומלצים ריאליסטית | Kling 2.6 |
| שימור מומנטום | תנועה מועברת נכון בין עצמים | Sora 2 |
מודלי Kling הצטיינו בעקביות בדינמיקת נוזלים, עם סימולציית מים ופיזיקת בד מרשימות במיוחד. Sora 2 של OpenAI מוביל בריאליזם התנגשות ושימור מומנטום, מטפל באינטראקציות מורכבות של עצמים מרובים בדיוק מרשים.
לסימולציית מים, עשן ובד, מודלי Kling כרגע מציעים את הפיזיקה הריאליסטית ביותר. להתנגשויות מורכבות של גופים מרובים ותרחישי ספורט, Sora 2 הוא הבחירה החזקה יותר.
מבחן ההתעמלות
אחד מבנצ׳מרקים הפיזיקה התובעניים ביותר כולל התעמלות אולימפית. מתעמל שמבצע סלטות עובר דינמיקת סיבוב מורכבת: שימור מומנטום זוויתי, מומנט אינרציה משתנה כשגפיים מתרחבות ומתכווצות, ותזמון מדויק של הפעלת כוח להמראות ונחיתות.
מודלי וידאו מוקדמים היו מייצרים פריימים בודדים מרשימים של מתעמלים באוויר אבל נכשלו קטסטרופלית בפיזיקה. סיבובים היו מאיצים או מאטים באופן אקראי. נחיתות היו קורות במיקומים בלתי אפשריים. הגוף היה מתעוות בדרכים שמפרות אילוצים אנטומיים.
Sora 2 הדגיש במפורש התעמלות אולימפית כבנצ׳מרק שהוא עכשיו מטפל בו נכון. המודל עוקב אחר המומנטום הזוויתי של המתעמל לאורך כל התרגיל, מאיץ סיבוב כשגפיים נמשכות פנימה (אפקט סיבוב מחליק על קרח) ומאט כשהן מתרחבות.
הבנת חומרים
סימולציית פיזיקה משתרעת מעבר לתנועה אל תכונות חומרים. איך מודל יודע שזכוכית מתנפצת בעוד גומי קופץ? שמים מתיזים בעוד שמן מצטבר? שמתכת מתעוותת פלסטית בעוד עץ נשבר?
התשובה נמצאת בנתוני האימון ובפריורים שהמודל למד. על ידי אימון על מיליוני סרטונים שמראים חומרים מתקשרים עם העולם, מודלים מפתחים הבנת חומרים אימפליציטית. זכוכית נופלת על בטון מייצרת תוצאה שונה מזכוכית נופלת על שטיח, ומודלים מודרניים לוכדים את ההבחנה הזו.
סיווג חומרים
מודלים עכשיו מסווגים אימפליציטית עצמים לפי תכונות חומר: שביר מול גמיש, אלסטי מול פלסטי, ניתן לדחיסה מול לא ניתן לדחיסה.
סוגי נוזלים
צמיגויות נוזלים ומתחי פנים שונים מטופלים נכון: מים מתיזים, דבש זולג, עשן מיתמר.
פיזיקת בעירה
אש ופיצוצים עוקבים אחר התפשטות חום ריאליסטית ודינמיקת גזים במקום אפקטי חלקיקים פשוטים.
מגבלות ומקרי קצה
למרות ההתקדמויות האלה, סימולציית פיזיקה בווידאו AI נשארת לא מושלמת. כמה מגבלות ידועות נמשכות:
יציבות ארוכת טווח: פיזיקה נשארת מדויקת ל-5-10 שניות אבל יכולה לסטות על פני משכי זמן ארוכים יותר. סרטונים מורחבים עלולים בהדרגה להפר חוקי שימור.
מערכות מורכבות של גופים מרובים: בעוד שני עצמים מתנגשים עובד טוב, סצנות עם עשרות עצמים מתקשרים (כמו מגדל ג׳נגה נופל) יכולות לייצר שגיאות.
חומרים יוצאי דופן: הטיות נתוני אימון אומרות שחומרים נפוצים (מים, זכוכית, מתכת) מסומלצים טוב יותר מאקזוטיים (נוזלים לא ניוטוניים, חומרים מגנטיים).
תנאים קיצוניים: פיזיקה בקני מידה קטנים מאוד (מולקולריים), גדולים מאוד (אסטרונומיים), או תנאים קיצוניים (קרוב למהירות האור) לרוב נכשלת.
דיוק סימולציית פיזיקה יורד משמעותית לסרטונים ארוכים מ-30 שניות. לתוכן ארוך, שקלו להשתמש בטכניקות הרחבת וידאו עם תשומת לב זהירה לרציפות פיזית בגבולות.
השלכות ליוצרים
מה סימולציית פיזיקה משופרת אומרת ליוצרי וידאו?
ראשית, זה מפחית דרמטית את הצורך בתיקוני פוסט-פרודקשן. סצנות שקודם דרשו עריכה זהירה לתיקון אי אפשריות פיזיות עכשיו נוצרות נכון מההתחלה.
שנית, זה מאפשר אפשרויות יצירתיות חדשות. סימולציית פיזיקה מדויקת אומרת שמכונות רוב גולדברג, סיקוונסים ספורטיביים וסצנות אקשן יכולים להיווצר ללא תיקון ידני קפדני.
שלישית, זה משפר את תפיסת הצופים. צופים מזהים תת-הכרתית מפרות פיזיקה, מה שגורם לסרטונים מדויקים פיזית להרגיש יותר אמיתיים גם כשקשה לבטא את ההבדל.
הדרך קדימה
סימולציית פיזיקה תמשיך להשתפר בכמה צירים:
עקביות טמפורלית ארוכה יותר: מודלים נוכחיים שומרים על פיזיקה לשניות, מודלים עתידיים ישמרו לדקות.
אינטראקציות מורכבות יותר: סצנות עם מאות עצמים מתקשרים יהפכו לאפשריות.
מנועי פיזיקה נלמדים: במקום פיזיקה אימפליציטית מנתוני אימון, מודלים עתידיים עשויים לשלב סימולציית פיזיקה מפורשת כרכיב.
פיזיקה בזמן אמת: כרגע יצירה מודעת פיזיקה איטית, אבל אופטימיזציה עשויה לאפשר יצירה בזמן אמת עם דיוק פיזי.
המסע מכדורסל מתנקט לקפיצות ריאליסטיות מייצג אחת ההתקדמויות המשמעותיות ביותר ביצירת וידאו AI. מודלים למדו, אם לא להבין פיזיקה כמו שבני אדם מבינים, לפחות לכבד את האילוצים שלה. ליוצרים, זה אומר פחות תיקונים, יותר אפשרויות, וסרטונים שפשוט מרגישים יותר אמיתיים.
נסו בעצמכם: Bonega.ai משתמש ב-Veo 3, שמשלב סימולציית פיזיקה מתקדמת לדינמיקת עצמים ריאליסטית. צרו סצנות עם פיזיקה מורכבת וראו איך המודל מטפל בכבידה, התנגשויות ואינטראקציות חומרים.
המאמר עזר לכם?

Alexis
מהנדס AIמהנדס AI מלוזאן המשלב עומק מחקרי עם חדשנות מעשית. מחלק את זמנו בין ארכיטקטורות מודלים לפסגות האלפים.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

עקביות דמויות בווידאו AI: איך מודלים לומדים לזכור פנים
צלילה טכנית עמוקה לתוך החידושים המקומיים המאפשרים למודלי וידאו AI לשמור על זהות דמויות בין הצילומים, מקנוני Attention ועד Embedding שמשמרים זהות.

פלטפורמות סיפור בעזרת AI Video, איך תוכן סדרתי משנה הכל בשנת 2026
מקליפים בודדים לסדרות שלמות, AI video מתפתח מכלי יצירה למנוע סיפור. הכר את הפלטפורמות שהופכות זאת לאפשרי.

מודלים של עולם מעבר לווידאו: למה משחקים ורובוטיקה הם ארנות ההוכחה האמיתיות ל-AGI
מ-Genie של DeepMind ל-AMI Labs, מודלים של עולם הופכים בשקט לבסיס של AI שבעצם מבין פיזיקה. שוק המשחקים של 500 מיליארד דולר עלול להיות המקום שבו הם מוכיחים את עצמם תחילה.