מודלים של עולם מעבר לווידאו: למה משחקים ורובוטיקה הם ארנות ההוכחה האמיתיות ל-AGI
מ-Genie של DeepMind ל-AMI Labs, מודלים של עולם הופכים בשקט לבסיס של AI שבעצם מבין פיזיקה. שוק המשחקים של 500 מיליארד דולר עלול להיות המקום שבו הם מוכיחים את עצמם תחילה.

כאשר Yann LeCun הכריז על עזיבתו מ-Meta כדי להקים AMI Labs עם 500 מיליון יורו גיבוי, הוא הביע את מה שחוקרים רבים האמינו בשקט במשך שנים. מודלי שפה גדולים, למרות הכישוריים המרשימים שלהם, מייצגים קצה מבוי סתום בדרך ל-AGI. הם חוזים tokens ללא הבנת מציאות.
החלופה? מודלים של עולם. systems שלומדות לדמות כיצד העולם הפיזיקלי פועל.
המגבלה הבסיסית של מודלי שפה
מודלים של עולם לומדים לחזות מה יקרה בשלב הבא בסביבות ויזואליות, לא רק אילו מילים יבואו בשלב הבא בטקסט. זה דורש הבנה של פיזיקה, permanence של אובייקטים, וסיבתיות.
מודלי שפה מצטיינים בהתאמת דפוסים בטקסט. הם יכולים לכתוב שירה, להציל קוד, ולהנהל שיחות שמרגישות אנושיות באופן מדהים. אבל שאל GPT-4 מה קורה כשאתה זורק כדור, וזה יסתמך על תיאורים שנשמרו בזיכרון במקום על אינטואיציה פיזיקלית אמיתית.
זה חשוב כי אינטליגנציה, כפי שאנחנו חוות בעולם הביולוגי, משוקעת בעצם בממשות פיזיקלית. תינוק שלומד לערום בלוקים מפתח הבנה אינטואיטיבית של כוח משיכה, איזון ותכונות חומריות הרבה לפני שלמדה שפה. הכרה מגולמת זו, התחושה הזו של איך העולם עובד, מייצגת בדיוק מה שחסר בחלל ב-systems AI הנוכחיים.
מודלים של עולם שואפים למלא פער זה. במקום לחזות token הבא, הם חוזים את frame הבא, state פיזיקלי הבא, ואת ה-consequence הבא של action.
שלוש גישות להבנת עולם
המרוץ לבנות AI שמבין עולם התפצל לשלוש פרדיגמות ברורות, לכל אחת יתרונות שונים.
הדרכה על datasets וידאו거대ים כדי ללמוד פיזיקה implicit. דוגמאות כוללות Sora ו-Veo. טובים בהפקת המשכים סבירים אבל מתקשים בתרחישים אינטראקטיביים.
בנאו explicit physics engines והדרכ AI לנווט אותן. דורש construction ידני יקר של סביבות אבל משדר דיוק פיזיקלי מדויק.
הגישה השלישית, ואולי המבטיחה ביותר, מחברת בין שתיהן: לימוד world dynamics מוידאו תוך שמירה על היכולת האינטראקטיבית עם המשנה את הסביבה. כאן משחקים הופכים חיוניים.
משחקים: אדמת ההדרכה המושלמת
משחקי וידאו מספקים משהו ייחודי: סביבות אינטראקטיביות עם rules פיזיקה עקביות, וריאציה אינסופית, ו-clear success metrics. בניגוד לרובוטיקה של עולם אמיתי, הדורשת hardware יקר ומייצרת חששות בטיחות, משחקים מציעים failure בלתי מוגבל ללא consequences.
DeepMind הכירה בפוטנציאל זה מוקדם. שלהם Genie system יכול ליצור סביבות playable חדשות לחלוטין מתמונה יחידה. תן לו ציור מתאר של רמת platformer, והוא יוצר עולם עם פיזיקה עקבית שבו דמויות יכולות לקפוץ, ליפול, ולהתקשר עם אובייקטים בכל דרך מתאימה.
מה שהופך את Genie למדהים הוא לא רק generation אלא comprehension. ה-system לומדת פיזיקה concepts שמתרחשים generalizable שעברות across different visual styles ומשחק types. מודל שהוכשר על Mario-style platformers מפתח intuitions לגבי gravity ו-collision החלים בשווה על indie games מצויירות ביד וסביבות 3D realisticas.
מ-Games ל-Robots
צינור gaming-to-robotics אינו theoretical. חברות כבר משתמשות בו.
זיהוי פער סימולציה
מחקר מראה models שהודרכו בטהור בסימולציה מתקשים עם messiness של עולם אמיתי: lighting משתנה, sensors לא מושלמים, אובייקטים בלתי צפויים.
הגישות היברידיות מופיעות
צוותים משלבים world models שהודרכו בגיים עם fine-tuning limited של עולם אמיתי, מצמצם בצורה דרמטית הנתונים הנדרשים לאימון רובוט.
הפריסה המסחרית מתחילה
רובוטים warehouse ראשונים שמשתמשים בbackbones של world model נכנסים לייצור, הטיפול בأובייקטים חדשים ללא תכנות מפורש.
ה-insight שמניע את הטרנזיציה הזו פשוט: פיזיקה היא פיזיקה. מודל שבאמת מבין איך אובייקטים נופלים, מחליקים, ובפרטמות במשחק וידאו צריך, עם adaptation מתאים, להבין principles זהים בעולם אמיתי. ה-appearance הויזואלית משתנה, אבל underlying dynamics נשאר קבוע.
Tesla עקבה אחר גרסה של strategy זה עם ה-Optimus robots שלהם, הדרכה ראשונה בסימולציה לפני פריסה בcontrolled factory environments. ה-limiting factor תמיד היה ה-gap בין simulated ו-real physics. World models שהודרכו על diverse video data עלולות סוף סוף לגשר על gap זה.
ה-AMI Labs Bet
ה-venture החדש של Yann LeCun, AMI Labs, מייצג ההשקעה היחידה הגדולה ביותר במחקר world model עד כה. עם 500 מיליון יורו במימון אירופאי וצוות שגויס מ-Meta, DeepMind ומעבדות academic, הם חוקרים מה LeCun קורא "objective-driven AI".
בניגוד ל-LLMs שחוזים tokens, הגישה של AMI מתמקדת בתרגול representations של עולם שמאפשר planning ו-reasoning לגבי physical consequences.
היסוד הטכני בנוי על Joint Embedding Predictive Architecture (JEPA), framework שLeCun הגן עליו במשך שנים. במקום ליצור pixel-level predictions, שדורש משאבים חישוביים עצומים, JEPA לומדת abstract representations שתופסות את essential structure של physical systems.
תחשוב על זה כך: אדם שמצפה לכדור מתגלגל לעבר steep cliff לא מדמה כל pixel של trajectory הכדור. במקום זה, אנחנו מכירים ה-abstract situation - כדור, edge, gravity - ומנבים את ה-outcome - נפילה. JEPA שואפת לתפוס efficient, abstract reasoning זה.
השלכות על ייצור וידאו AI
מסלול מחקר זה משנה בגלל עומק עבור יישומים יצירתיים. ייצורי AI וידאו הנוכחיים מייצרים תוצאות מרשימות אבל סובלים מאי-consistency זמני. תווים יהפכו, פיזיקה תיתקע, ואובייקטים יופיעו ויעלמו.
World models מציעים possible resolution. generator שבאמת מבין פיזיקה צריך ליצור videos שבהם אובייקטים מציית consistent rules, שבהם items נשמטו נופלים predictably, שבהם reflections מתנהגות properly.
Models מייצרות visually plausible frames ללא enforcement של physical consistency. עובד ל-short clips אבל מתקלקל על durations ארוכים יותר.
Physical consistency צומחת מlearned world dynamics. videos ארוכים יותר וcoherent יותר הופכים אפשריים כי ה-model מתחזקת internal state של ה-world.
אנחנו כבר רואים early signs של transition זה. ה-GWM-1 של Runway מייצג את הbetting שלהם על world models, וה-improved physics simulation של Veo 3.1 מצביע ש-Google משלבת similar principles.
ה-AGI Connection
למה כל זה חשוב ל-AGI? כי genuine intelligence דורש יותר מ-language manipulation. זה דורש הבנת cause ו-effect, חזוי consequences, ו-planning actions בעולם פיזיקלי.
Embodied Cognition
True intelligence עלול לדרוש grounding בפיזיקה reality, לא רק statistical patterns בטקסט.
Interactive Learning
Games מספקות ה-perfect testbed: rich physics, clear feedback, unlimited iteration.
Robotic Application
World models שהודרכו בגיים יכולות להעביר ל-real-world robotics עם minimal adaptation.
ה-researchers שמניעים את העבודה הזו זהירים שלא לטעון שהם בונים AGI. אבל הם convincingly טוענים שללא world understanding, אנחנו לא יכולים לבנות systems שבאמת חושבים במקום רק autocomplete.
מה בא הלאה
ה-next two years יהיו critical. מספר developments לצפות:
- ○ה-first public demonstrations של AMI Labs, צפויות mid-2026
- ○Integration של world models לmajor video generators
- ○Game engine companies - Unity, Unreal - הוספת world model APIs
- ○First consumer robots משתמשים בgame-trained world models
שוק המשחקים, צפוי להיות יותר מ-500 מיליארד דולר עד 2030, מייצג fertile ground לworld model deployment. משקיעים רואים world models לא רק כresearch curiosities אלא כfoundational technology לinteractive entertainment, simulation, וrobotics.
ה-Quiet Revolution
בניגוד להype ה-explosive סביב ChatGPT, ה-world models revolution מתגלגלת quietly בresearch labs וgame studios. אין viral demos, אין daily news cycles לגבי latest breakthrough.
אבל ה-implications עלולה להיות יותר profound. Language models שינו כיצד אנחנו מתקשרים עם טקסט. World models עלול לשנות איך AI מתקשר עם reality.
בשביל אלה מאיתנו העובדים בAI video generation, מחקר זה מייצג גם threat וגם opportunity. הכלים הנוכחיים שלנו עלולים להראות primitive בretrospect, כמו early CGI בהשוואה לmodern visual effects. אבל ה-underlying principle, ייצור של visual content דרך learned models, רק יהפוך יותר powerful כי models אלה מתחילות בפועל להבין את ה-worlds שהם יוצרות.
Further Reading: חקור איך diffusion transformers מספקות ה-architectural foundation ל-many world models, או למד לגבי real-time interactive generation שבונה על world model principles.
הדרך מ-video game physics ל-AGI עלולה להראות roundabout. אבל intelligence, בכל מקום שאנחנו מוצאים אותה, צומחת מ-systems שמבינות את ה-environment שלהם ויכולות חזוי ה-consequences של ה-actions שלהם. Games מעניקות לנו safe space לבנות ולtest systems כאלה. ה-robots, ה-creative tools, ואולי genuine machine understanding יבואו אחרי.
המאמר עזר לכם?

Alexis
מהנדס AIמהנדס AI מלוזאן המשלב עומק מחקרי עם חדשנות מעשית. מחלק את זמנו בין ארכיטקטורות מודלים לפסגות האלפים.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

יאן לה-קאן עוזב את מטא כדי להמר 3.5 מיליארד דולר על מודלים של עולם
זוכה פרס טיורינג משיק את AMI Labs, סטארטאפ שמתמקד במודלים של עולם במקום ב-LLMs, עם מיקוד ברובוטיקה, בריאות והבנת וידאו.

Runway GWM-1: מודל העולם הכללי שמדמה מציאות בזמן אמת
ה-GWM-1 של Runway מסמן שינוי פרדיגמה מיצירת וידאו לסימולציה של עולמות. גלה איך המודל האוטורגרסיבי הזה יוצר סביבות שניתן לחקור, אווטרים פוטוריאליסטיים וסימולציות לאימון רובוטים.

מודלים של שפת וידאו: הגבול הבא אחרי LLMs וסוכני AI
מודלים של עולם מלמדים AI להבין מציאות פיזית, מאפשרים לרובוטים לתכנן פעולות ולדמות תוצאות לפני שמזיזים אקטואטור אחד.