Alibaba Wan2.6: Reference-to-Video מכניס את הפנים שלך לעולמות שנוצרו ב-AI
מודל הווידאו החדש של Alibaba מציג יצירת reference-to-video, שמאפשרת להשתמש במראה ובקול שלך בתוכן שנוצר ב-AI. הנה מה שזה אומר ליוצרים.

תשכחו מאווטרים גנריים של AI. Alibaba שחררה את Wan2.6, והפיצ'ר המרכזי מאפשר להכניס את עצמכם לסרטונים שנוצרו ב-AI באמצעות תמונת רפרנס או קליפ קולי בלבד. ההשלכות מטורפות.
מהפכת הרפרנס
Text-to-video היה הפרדיגמה הסטנדרטית מהימים הראשונים של יצירת וידאו ב-AI. מקלידים פרומפט, מקבלים סרטון. פשוט, אבל מוגבל. אי אפשר להפוך את זה לאתה בלי fine-tuning מקיף או אימון LoRA.
Wan2.6 משנה את המשוואה לחלוטין.
Reference-to-video אומר שה-AI משתמש במראה שלך, בקול שלך, או בשניהם כקלטי conditioning לצד פרומפטים טקסטואליים. אתה הופך לדמות ביצירה, לא למחשבה נוספת.
Wan2.6, ששוחרר ב-16 בדצמבר 2025, מייצג את הדחיפה האגרסיבית של Alibaba לתחום הווידאו ב-AI. המודל מגיע במספר גדלים (1.3B ו-14B פרמטרים) ומציג שלוש יכולות ליבה שמבדילות אותו מהמתחרים.
מה Wan2.6 באמת עושה
המודל פועל בשלושה מצבים נפרדים:
Text-to-Video
יצירה סטנדרטית מבוססת פרומפט עם איכות תנועה ועקביות טמפורלית משופרות.
Image-to-Video
הנפשה של כל תמונה סטילס לרצף וידאו קוהרנטי.
Reference-to-Video
שימוש במראה שלך כדמות קבועה לאורך התוכן שנוצר.
היכולת של reference-to-video היא הנקודה המעניינת באמת. מעלים תמונה ברורה שלך (או של כל נושא), ו-Wan2.6 מחלץ מאפייני זהות שנשמרים לאורך כל הרצף שנוצר. הפנים שלך נשארות הפנים שלך, גם כשה-AI יוצר תרחישים חדשים לגמרי סביבן.
הגישה הטכנית
Wan2.6 משתמש בגרסה של ארכיטקטורת diffusion transformer שהפכה לסטנדרט במודלים המובילים של 2025. אבל המימוש של Alibaba כולל embeddings מיוחדים לשימור זהות, דומים למה שחקרנו בצלילה עמוקה על עקביות דמויות.
ה-reference conditioning עובד דרך מנגנוני cross-attention שמזריקים מידע זהות בשכבות מרובות של תהליך היצירה. זה שומר על תווי הפנים יציבים בעוד שכל השאר יכול להשתנות באופן טבעי.
רכיב הקול משתמש בקודד אודיו נפרד שלוכד את המאפיינים הווקליים שלך: גוון, דפוסי גובה, וקצב דיבור. כשמשלבים עם הרפרנס הוויזואלי, מקבלים פלט אודיו-ויזואלי מסונכרן שבאמת נשמע ונראה כמוך.
הגישה הזו שונה מאסטרטגיית world model של Runway, שמתמקדת בסימולציית פיזיקה וקוהרנטיות סביבתית. Wan2.6 מעדיף שימור זהות על פני דיוק סביבתי, פשרה הגיונית לשימוש היעד שלו.
קוד פתוח חשוב
אולי ההיבט המשמעותי ביותר של Wan2.6 הוא ש-Alibaba שחררה אותו כקוד פתוח. המשקולות זמינות להורדה, כלומר אפשר להריץ את זה לוקלית על חומרה מתאימה.
הרצה לוקלית, בלי עלויות API, שליטה מלאה על הנתונים שלך
API בלבד, עלות ליצירה, נתונים נשלחים לצד שלישי
זה ממשיך את הדפוס שכיסינו במהפכת וידאו AI בקוד פתוח, שם חברות סיניות משחררות מודלים חזקים שרצים על חומרת צרכן. גרסת 14B דורשת VRAM משמעותי (24GB+), אבל הגרסה של 1.3B יכולה לרוץ על RTX 4090.
מקרי שימוש שבאמת הגיוניים
Reference-to-video פותח תרחישים שבעבר היו בלתי אפשריים או יקרים מאוד.
- ✓תוכן שיווקי מותאם אישית בקנה מידה
- ✓יצירת אווטר מותאם אישית ללא צילומי סטודיו
- ✓פרוטוטייפינג מהיר לקונספטים של וידאו
- ✓נגישות: אווטרים בשפת סימנים, חינוך מותאם אישית
דמיינו יצירת סרטון הדגמת מוצר שבו אתם מככבים בלי לעמוד מול מצלמה. או יצירת תוכן הדרכה שבו המדריך הוא גרסה reference-conditioned של המנכ"ל שלכם. היישומים מתרחבים הרבה מעבר לחידוש.
הפיל בחדר: פרטיות
בואו נתמודד עם הדאגה הברורה: הטכנולוגיה הזו יכולה לשמש לרעה עבור deepfakes.
Alibaba הטמיעה כמה מגנים. המודל כולל watermarking דומה לגישת SynthID של Google, ותנאי השירות אוסרים שימוש ללא הסכמה. אבל אלה פסי האטה, לא מחסומים.
טכנולוגיית reference-to-video דורשת שימוש אחראי. תמיד השיגו הסכמה לפני שימוש בדמות של מישהו אחר, והיו שקופים לגבי תוכן שנוצר ב-AI.
הג'ין יצא מהבקבוק. מודלים מרובים מציעים עכשיו יצירה עם שימור זהות, והאופי של קוד פתוח של Wan2.6 אומר שכל אחד יכול לגשת ליכולת הזו. השיחה עברה מ"האם זה צריך להתקיים" ל"איך אנחנו מתמודדים עם זה באחריות."
השוואה
Wan2.6 נכנס לשוק צפוף. הנה איך הוא נמדד מול המתחרים המובילים של דצמבר 2025.
| מודל | Reference-to-Video | קוד פתוח | אודיו נייטיב | אורך מקסימלי |
|---|---|---|---|---|
| Wan2.6 | ✅ | ✅ | ✅ | 10s |
| Runway Gen-4.5 | מוגבל | ❌ | ✅ | 15s |
| Sora 2 | ❌ | ❌ | ✅ | 60s |
| Veo 3 | ❌ | ❌ | ✅ | 120s |
| LTX-2 | ❌ | ✅ | ✅ | 10s |
Wan2.6 מחליף אורך בשימור זהות. אם צריך קליפים של 60 שניות, Sora 2 עדיין האופציה הטובה ביותר. אבל אם צריך שהקליפים יכללו באופן עקבי אדם ספציפי, Wan2.6 מציע משהו שהמודלים הסגורים לא מציעים.
התמונה הגדולה
Reference-to-video מייצג שינוי בדרך שבה אנחנו חושבים על יצירת וידאו ב-AI. השאלה היא כבר לא רק "מה צריך לקרות בסרטון הזה" אלא "מי צריך להיות בו."
זו שכבת הפרסונליזציה שהייתה חסרה מ-text-to-video. אווטרים גנריים של AI הרגישו כמו stock footage. דמויות reference-conditioned מרגישות כמו אתה.
בשילוב עם יצירת אודיו נייטיב ועקביות דמויות משתפרת, אנחנו מתקרבים לעתיד שבו יצירת תוכן וידאו מקצועי דורשת רק תמונת webcam ופרומפט טקסטואלי.
Alibaba מהמרת שיצירה identity-first היא הגבול הבא. עכשיו כש-Wan2.6 בקוד פתוח ורץ על חומרת צרכן, אנחנו עומדים לגלות אם הם צודקים.
קריאה נוספת: להשוואת מודלי וידאו AI מובילים, ראו את ההשוואה Sora 2 vs Runway vs Veo 3 שלנו. להבנת הארכיטקטורה הבסיסית, בדקו את Diffusion Transformers ב-2025.
המאמר עזר לכם?

Henry
טכנולוג קריאייטיביטכנולוג קריאייטיבי מלוזאן החוקר את המפגש בין AI לאמנות. מתנסה במודלים גנרטיביים בין סשנים של מוזיקה אלקטרונית.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

LTX-2: יצירת וידאו AI 4K native על GPUs צרכניים דרך קוד פתוח
Lightricks משחררת LTX-2 עם יצירת וידאו 4K native ואודיו מסונכרן, מציעה גישת קוד פתוח על חומרה צרכנית בעוד המתחרים נשארים נעולי API, אם כי עם trade-offs ביצועים חשובים.

Runway GWM-1: מודל העולם הכללי שמדמה מציאות בזמן אמת
ה-GWM-1 של Runway מסמן שינוי פרדיגמה מיצירת וידאו לסימולציה של עולמות. גלה איך המודל האוטורגרסיבי הזה יוצר סביבות שניתן לחקור, אווטרים פוטוריאליסטיים וסימולציות לאימון רובוטים.

יוטיוב מביא את Veo 3 Fast ל-Shorts: יצירת וידאו AI בחינם ל-2.5 מיליארד משתמשים
גוגל משלבת את מודל Veo 3 Fast ישירות ב-YouTube Shorts, ומציעה ליוצרים ברחבי העולם יצירת וידאו מטקסט עם אודיו בחינם. מה זה אומר לפלטפורמה ולנגישות וידאו AI.