Diffusion Transformers: הארכיטקטורה שמחוללת מהפכה ביצירת וידאו ב-2025
צלילה עמוקה לאיך ההתכנסות של מודלי diffusion ו-transformers יצרה שינוי פרדיגמה ביצירת וידאו AI, חקירת החידושים הטכניים מאחורי Sora, Veo 3 ומודלי breakthrough אחרים.

העלייה לפסגת יצירת הוידאו הייתה טיפוס מתודי, כל חידוש ארכיטקטורלי בונה על הקודם. ב-2025, הגענו למה שמרגיש כמו פסגה חדשה עם diffusion transformers - היתוך אלגנטי שמעצב באופן יסודי איך אנחנו חושבים על יצירה טמפורלית. תנו לי להדריך אתכם דרך הנוף הטכני שצמח, דומה לניווט בקווי הרכס בין Dent Blanche ל-Matterhorn.
ההתכנסות הארכיטקטורלית
מודלי יצירת וידאו מסורתיים התמודדו עם שני אתגרים יסודיים: שמירה על עקביות טמפורלית על פני פריימים והרחבה לרצפים ארוכים יותר. הפריצה הגיעה כשחוקרים הבינו שה-framework הסתברותי של מודלי diffusion יכול להיות משופר עם מנגנוני ה-attention של transformers - יוצרים מה שאנחנו קוראים לו עכשיו latent diffusion transformers.
class DiffusionTransformer(nn.Module):
def __init__(self, latent_dim=512, num_heads=16, num_layers=24):
super().__init__()
self.patch_embed = SpacetimePatchEmbed(latent_dim)
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=latent_dim,
nhead=num_heads,
dim_feedforward=latent_dim * 4,
norm_first=True # Pre-normalization for stability
),
num_layers=num_layers
)
self.denoise_head = nn.Linear(latent_dim, latent_dim)
def forward(self, x_t, timestep, conditioning=None):
# Extract spacetime patches - החידוש המפתח
patches = self.patch_embed(x_t)
# Add positional and temporal embeddings
patches = patches + self.get_pos_embed(patches.shape)
patches = patches + self.get_time_embed(timestep)
# Transformer processing with QK-normalization
features = self.transformer(patches)
# Predict noise for diffusion
return self.denoise_head(features)האלגנטיות טמונה בטיפול בוידאו לא כרצף תמונות, אלא כנפח spacetime מאוחד. הגישה של OpenAI עם Sora מעבדת סרטונים על פני המימדים המרחביים והטמפורליים, יוצרת מה שהם קוראים "spacetime patches" - אנלוגי לאיך Vision Transformers מעבדים תמונות, אבל מורחב לממד הטמפורלי.
יסודות מתמטיים: מעבר ל-Denoising פשוט
החידוש המתמטי הליבה מרחיב את ניסוח ה-diffusion הסטנדרטי. במקום הגישה המסורתית שבה אנחנו מדגמנים p_θ(x_{t-1}|x_t), diffusion transformers פועלים על ייצוגים latent דחוסים:
Loss Function: L_DT = E[||ε - ε_θ(z_t, t, c)||²]
כאשר z_t מייצג את קידוד ה-spacetime latent, וה-transformer ε_θ מנבא רעש מותנה גם על מיקום טמפורלי t וגם על conditioning אופציונלי c. ההתקדמות הקריטית היא ש-Query-Key normalization מייצב את התהליך הזה:
Attention: Attention(Q, K, V) = softmax(Q_norm · K_norm^T / √d_k) · V
השינוי הפשוט לכאורה הזה - נורמליזציה של Q ו-K לפני חישוב attention - משפר דרמטית את יציבות האימון בקנה מידה, מאפשר למודלים להתאמן ביעילות על מערכות מבוזרות.
יצירה אודיו-ויזואלית Multi-Stage: ארכיטקטורת Veo 3
Veo 3 של Google DeepMind הציגה ארכיטקטורה multi-stage מתוחכמת - transformer של 12 מיליארד פרמטרים יוצר keyframes במרווחים של 2 שניות, בעוד U-Net של 28 מיליארד פרמטרים מבצע אינטרפולציה של פריימים ביניים, ומנוע סינתזת אודיו נפרד של 9 מיליארד פרמטרים מייצר soundtracks מסונכרנים. חשבו על זה כמו לכידת גם היופי הויזואלי וגם הסאונד של מפולת שלג דרך מערכות מתמחות מתואמות.
class MultiStageVideoEncoder(nn.Module):
def __init__(self):
super().__init__()
self.keyframe_generator = KeyframeTransformer() # 12B params
self.frame_interpolator = InterpolationUNet() # 28B params
self.audio_synthesizer = AudioGenerator() # 9B params
def generate(self, prompt, duration=8):
# Generate keyframes first
keyframes = self.keyframe_generator(prompt, num_frames=duration//2)
# Interpolate intermediate frames
full_video = self.frame_interpolator(keyframes)
# Generate synchronized audio
audio = self.audio_synthesizer(full_video, prompt)
return full_video, audioתהליך ה-diffusion יוצר את שתי המודאליות עם סנכרון טמפורלי, משיג דיוק lip-sync של פחות מ-120 אלפיות שנייה לדיאלוג.
נוף המודלים הנוכחי וביצועים
ההבדלים הארכיטקטורליים בין מודלים נוכחיים מראים גישות שונות ליצירת וידאו:
| מודל | ארכיטקטורה | רזולוציה | משך | פיצ'רים מפתח |
|---|---|---|---|---|
| Sora 2 | Diffusion Transformer | 1080p | עד 60s | Spacetime patches, יכולות remix |
| Gen-4 | Diffusion Transformer | 720p | 10s | איכות מסחרית, יצירה מהירה |
| Veo 3 | Multi-stage (12B+28B+9B) | תמיכה ב-4K | 8s | יצירה אודיו-ויזואלית מסונכרנת |
| Stable Video Diffusion | SVD קוד פתוח | 720p | 4s | Community-driven, ניתן להתאמה אישית |
מה שמעניין במיוחד הוא איך מודלים שונים מבצעים אופטימיזציה לאורך רצף דרך דפוסי attention שונים:
def hierarchical_attention(patches, hierarchy_levels=3):
"""
Progressive attention refinement from coarse to fine
דומה לטיפוס: הקם בסיס camp, אז תדחוף לפסגה
"""
attention_maps = []
for level in range(hierarchy_levels):
window_size = 2 ** (hierarchy_levels - level)
local_attn = compute_windowed_attention(patches, window_size)
attention_maps.append(local_attn)
# Combine multi-scale attention
return torch.stack(attention_maps).mean(dim=0)התקדמות ארכיטקטורה Motion-Aware
2025 ראה את הופעת ארכיטקטורות motion-aware שמדגמות במפורש דינמיקה טמפורלית. ה-framework Motion-Aware Generative (MoG), שהוצע על ידי חוקרים מאוניברסיטת Nanjing ו-Tencent, ממנף הדרכת motion מפורשת ממודלי אינטרפולציה מבוססי flow כדי לשפר יצירת וידאו. ה-framework משלב הדרכת motion ברמות latent וfeature, משפר משמעותית את ה-motion awareness במודלי יצירת וידאו pre-trained בקנה מידה גדול.
ההפרדה הזו של עיבוד motion ו-appearance מאפשרת שליטה משופרת על דינמיקה טמפורלית תוך שמירה על עקביות ויזואלית - דמיינו יכולת להתאים את מהירות מפולת שלג תוך שמירה על כל פתית שלג מרונדרת בצורה מושלמת.
אופטימיזציית פרודקשן: מהמעבדה ליישום
הניצחון האמיתי של 2025 הוא לא רק איכות משופרת - זה יעילות deployment. אופטימיזציות TensorRT למודלי diffusion מבוססי transformer משיגות speedups משמעותיים:
# Standard generation pipeline
model = DiffusionTransformer().cuda()
frames = model.generate(prompt, num_frames=120) # 5 שניות של וידאו
# Optimized pipeline with TensorRT
import tensorrt as trt
optimized_model = optimize_with_tensorrt(model,
batch_size=1,
precision='fp16',
use_flash_attention=True)
frames = optimized_model.generate(prompt, num_frames=120) # משמעותית יותר מהירParameter-Efficient Fine-Tuning דרך LoRA דמוקרטיזציה של התאמה אישית. צוותים יכולים עכשיו להתאים מודלי וידאו pre-trained עם רק 1% מהפרמטרים המקוריים:
class VideoLoRA(nn.Module):
def __init__(self, base_model, rank=16):
super().__init__()
self.base_model = base_model
# Inject low-rank adaptations
for name, module in base_model.named_modules():
if isinstance(module, nn.Linear):
# Only train these small matrices
setattr(module, 'lora_A', nn.Parameter(torch.randn(rank, module.in_features)))
setattr(module, 'lora_B', nn.Parameter(torch.randn(module.out_features, rank)))מבט קדימה: העלייה הבאה
ההתכנסות לכיוון ארכיטקטורות מאוחדות ממשיכה. מודל BAGEL של ByteDance (7B פרמטרים פעילים עם ארכיטקטורת Mixture-of-Transformers) ומודלי Transfusion של Meta חלוצים ארכיטקטורות single-transformer שמטפלות גם במשימות autoregressive וגם diffusion. ב-Bonega.ai, אנחנו מתרגשים במיוחד מההשלכות לעיבוד וידאו בזמן אמת - דמיינו הרחבת הצילומים הקיימים שלכם בצורה חלקה עם תוכן שנוצר ב-AI שתואם בצורה מושלמת בסגנון ותנועה.
האלגנטיות המתמטית של diffusion transformers פתרה אתגרים יסודיים ביצירת וידאו: שמירה על קוהרנטיות על פני זמן תוך התרחבות יעילה. כמי שיישמתי את הארכיטקטורות האלה מאפס, אני יכול להגיד לכם שהתחושה היא כמו להגיע לפסגת שווא, רק כדי לגלות שהפסגה האמיתית חושפת נוף אפילו יותר מפואר לפנינו.
הכלים וה-frameworks שצצים סביב המודלים האלה - משיטות התאמה ללא אימון לאסטרטגיות deployment edge - מציעים שאנחנו נכנסים לעידן שבו יצירת וידאו באיכות גבוהה הופכת נגישה כמו שיצירת תמונות הייתה ב-2023. הטיפוס ממשיך, אבל הקמנו base camp מוצק בגובה שנחשב בעבר בלתי ניתן להגעה.
המאמר עזר לכם?

Alexis
מהנדס AIמהנדס AI מלוזאן המשלב עומק מחקרי עם חדשנות מעשית. מחלק את זמנו בין ארכיטקטורות מודלים לפסגות האלפים.
מאמרים קשורים
המשיכו לחקור עם פוסטים קשורים אלו

עקביות דמויות בווידאו AI: איך מודלים לומדים לזכור פנים
צלילה טכנית עמוקה לתוך החידושים המקומיים המאפשרים למודלי וידאו AI לשמור על זהות דמויות בין הצילומים, מקנוני Attention ועד Embedding שמשמרים זהות.

CraftStory Model 2.0: איך Bidirectional Diffusion מאפשר סרטוני AI של 5 דקות
בזמן ש-Sora 2 מוגבל ל-25 שניות, CraftStory הרגע השיקו מערכת שמייצרת סרטונים קוהרנטיים של 5 דקות. הסוד? הרצת מספר מנועי diffusion במקביל עם constraints דו-כיווניים.

Parallelized Diffusion: איך יצירת תמונות AI שוברת מחסומי איכות ורזולוציה
חקירת ארכיטקטורות diffusion מקבילות שמאפשרות יצירת תמונות ברזולוציה אולטרה גבוהה וקומפוזיציות multi-element מורכבות. צלילה עמוקה לפריצת הדרך הטכנית שמגדירה מחדש סינתזת תמונות AI.