LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن
Lightricks نے مقامی 4K ویڈیو جنریشن اور ہم آہنگ آڈیو کے ساتھ LTX-2 ریلیز کیا، صارف ہارڈ ویئر پر اوپن سورس رسائی پیش کرتا ہے جبکہ حریف API میں بند رہتے ہیں، اگرچہ اہم کارکردگی کی قربانیوں کے ساتھ۔

LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن
Lightricks نے اکتوبر 2025 میں LTX-2 ریلیز کیا، مقامی 4K ویڈیو جنریشن کو ہم آہنگ آڈیو کے ساتھ متعارف کرایا جو صارف GPUs پر چلتا ہے۔ جبکہ OpenAI کا Sora 2 اور Google کا Veo 3.1 API رسائی کے پیچھے بند رہتے ہیں، LTX-2 مکمل اوپن سورس ریلیز کے منصوبوں کے ساتھ مختلف راستہ اختیار کرتا ہے۔
ماڈل نومبر 2024 سے اصل LTX ویڈیو اور مئی 2025 سے 13 بلین پیرامیٹر LTXV ماڈل پر بناتا ہے، ویڈیو جنریشن ٹولز کا ایک خاندان بناتا ہے جو انفرادی تخلیق کاروں کے لیے قابل رسائی ہے۔
LTX ماڈل خاندان کا ارتقاء
اصل LTX ویڈیو
اعلیٰ درجے کے ہارڈ ویئر پر دو سیکنڈ میں پانچ سیکنڈ کی ویڈیو جنریشن۔ 768×512 ریزولوشن پر بیس لائن ماڈل۔
LTXV 13B
بہتر معیار اور صلاحیتوں کے ساتھ 13 بلین پیرامیٹر ماڈل
LTX-2 ریلیز
ہم آہنگ آڈیو جنریشن کے ساتھ 50 FPS تک مقامی 4K ریزولوشن
تفصیل کا تحفظ بہتر ہے—مقامی جنریشن حرکت کے دوران مسلسل معیار برقرار رکھتی ہے۔ مصنوعی تیزی کے نقائص نہیں جو اپ اسکیل شدہ فوٹیج کو متاثر کرتے ہیں۔
RTX 4090 پر 10 سیکنڈ کی 4K کلپ کو 9-12 منٹ درکار ہوتے ہیں، RTX 3090 پر 20-25 منٹ کے مقابلے میں۔ زیادہ ریزولوشن پر جنریشن کا وقت کافی بڑھ جاتا ہے۔
# LTX ماڈل خاندان کی تفصیلات
ltx_video_original = {
"resolution": "768x512", # بیس ماڈل
"max_duration": 5, # سیکنڈ
"fps": range(24, 31), # 24-30 FPS
"diffusion_steps": 20,
"h100_time": "5 سیکنڈ کی ویڈیو کے لیے 4 سیکنڈ",
"rtx4090_time": "5 سیکنڈ کی ویڈیو کے لیے 11 سیکنڈ"
}
ltx2_capabilities = {
"resolution": "3840x2160 تک", # مقامی 4K
"max_duration": 10, # سیکنڈ تصدیق شدہ، 60s تجرباتی
"fps": "50 تک",
"synchronized_audio": True,
"rtx4090_4k_time": "10 سیکنڈ کے لیے 9-12 منٹ"
}تکنیکی فن تعمیر: عملی طور پر ڈفیوژن ٹرانسفارمرز
متحد فریم ورک
LTX-Video ویڈیو جنریشن کے لیے ڈفیوژن ٹرانسفارمرز (DiT) نافذ کرتا ہے، متعدد صلاحیتوں کو مربوط کرتا ہے—ٹیکسٹ سے ویڈیو، تصویر سے ویڈیو، اور ویڈیو توسیع—ایک ہی فریم ورک کے اندر۔ فن تعمیر دو طرفہ طور پر وقتی معلومات پروسیس کرتا ہے، ویڈیو سیکوینسز میں مستقل مزاجی برقرار رکھنے میں مدد کرتا ہے۔
بہتر بنایا گیا ڈفیوژن
ماڈل معیار کی ضروریات کے لحاظ سے 8-20 ڈفیوژن مراحل کے ساتھ کام کرتا ہے۔ کم مراحل (8) ڈرافٹس کے لیے تیز جنریشن کو فعال کرتے ہیں، جبکہ 20-30 مراحل اعلیٰ معیار کی آؤٹ پٹ پیدا کرتے ہیں۔ کوئی کلاسیفائر فری گائیڈنس کی ضرورت نہیں—میموری اور کمپیوٹیشن کو کم کرتا ہے۔
ملٹی موڈل کنڈیشننگ
بیک وقت متعدد ان پٹ اقسام کو سپورٹ کرتا ہے: ٹیکسٹ پرامپٹس، انداز کی منتقلی کے لیے تصویری ان پٹس، کنٹرول شدہ اینیمیشن کے لیے متعدد کلیدی فریمز، اور توسیع کے لیے موجودہ ویڈیو۔
اوپن سورس حکمت عملی اور رسائی
LTX-2 کی ترقی ویڈیو AI کو جمہوری بنانے کی ایک جان بوجھ کر حکمت عملی کی عکاسی کرتی ہے۔ جبکہ حریف APIs کے ذریعے رسائی کو محدود کرتے ہیں، Lightricks متعدد رسائی کے راستے فراہم کرتا ہے۔
- ✓GitHub ریپوزٹری: مکمل نفاذ کوڈ
- ✓Hugging Face Hub: Diffusers لائبریری کے ساتھ مطابقت پذیر ماڈل ویٹس
- ✓پلیٹ فارم انضمام: Fal.ai، Replicate، ComfyUI سپورٹ
- ✓LTX Studio: تجربات کے لیے براہ راست براؤزر رسائی
اخلاقی تربیتی ڈیٹا
ماڈلز Getty Images اور Shutterstock سے لائسنس شدہ ڈیٹا سیٹس پر تربیت یافتہ تھے، تجارتی عملداری کو یقینی بناتے ہوئے—یہ ویب سے اسکریپ کیے گئے ڈیٹا پر تربیت یافتہ ماڈلز سے ایک اہم فرق ہے جن کی کاپی رائٹ کی حیثیت غیر واضح ہے۔
# Diffusers لائبریری کے ساتھ LTX-Video استعمال کرنا
from diffusers import LTXVideoPipeline
import torch
# میموری کی اصلاح کے ساتھ شروع کریں
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-Video",
torch_dtype=torch.float16
).to("cuda")
# قابل تشکیل مراحل کے ساتھ پیدا کریں
video = pipe(
prompt="طلوع آفتاب پر پہاڑی منظر کا فضائی منظر",
num_inference_steps=8, # تیز ڈرافٹ موڈ
height=704,
width=1216,
num_frames=121, # 30fps پر ~4 سیکنڈ
guidance_scale=1.0 # کوئی CFG کی ضرورت نہیں
).framesہارڈ ویئر کی ضروریات اور حقیقی دنیا کی کارکردگی
اصل کارکردگی ہارڈ ویئر کی ترتیب پر بہت زیادہ منحصر ہے۔ اپنی مخصوص ضروریات اور بجٹ کی بنیاد پر اپنا سیٹ اپ منتخب کریں۔
GPUs: RTX 3060، RTX 4060
- صلاحیت: 24-30 FPS پر 720p-1080p ڈرافٹس
- استعمال کا معاملہ: پروٹو ٹائپنگ، سوشل میڈیا مواد
- حدود: 4K جنریشن سنبھال نہیں سکتا
GPUs: RTX 4090، A100
- صلاحیت: بغیر سمجھوتے کے مقامی 4K
- کارکردگی: 9-12 منٹ میں 10 سیکنڈ 4K
- استعمال کا معاملہ: زیادہ سے زیادہ معیار کی ضرورت والا پیداواری کام
کارکردگی کی حقیقت پسندی▼
- 768×512 بیس لائن: RTX 4090 پر 11 سیکنڈ (H100 پر 4 سیکنڈ کے مقابلے میں)
- 4K جنریشن: اعلیٰ درجے کے کارڈز پر بھی محتاط میموری کے انتظام کی ضرورت ہے
- معیار بمقابلہ رفتار: صارفین کو تیز کم ریزولوشن یا سست اعلیٰ ریزولوشن آؤٹ پٹ کے درمیان انتخاب کرنا ہوگا
مواد کے تخلیق کاروں کے لیے جدید خصوصیات
ویڈیو توسیع کی صلاحیتیں
LTX-2 دو طرفہ ویڈیو توسیع کو سپورٹ کرتا ہے، مواد کی ہیرا پھیری پر مرکوز پلیٹ فارمز کے لیے قیمتی:
# ویڈیو توسیع کے لیے پیداواری پائپ لائن
from ltx_video import LTXPipeline
pipeline = LTXPipeline(model="ltx-2", device="cuda")
# ابتدائی حصہ پیدا کریں
initial = pipeline.generate(
prompt="قدیم کھنڈرات کی کھوج کرتا روبوٹ",
resolution=(1920, 1080),
duration=5
)
# کلیدی فریم رہنمائی کے ساتھ بڑھائیں
extended = pipeline.extend_video(
video=initial,
direction="forward",
keyframes=[
{"frame": 150, "prompt": "روبوٹ کو نوادرات ملتی ہے"},
{"frame": 300, "prompt": "نوادرات فعال ہوتی ہے"}
]
)یہ توسیع کی صلاحیت Bonega.ai جیسے ویڈیو کی ہیرا پھیری کے پلیٹ فارمز کے ساتھ اچھی طرح ہم آہنگ ہوتی ہے، بصری مستقل مزاجی برقرار رکھتے ہوئے مواد کی توسیع کو فعال کرتی ہے۔
LTX-2 ویڈیو تخلیق کے دوران آڈیو پیدا کرتا ہے نہ کہ بعد میں پروسیسنگ کے طور پر۔ ماڈل آواز کو بصری حرکت کے ساتھ ہم آہنگ کرتا ہے—تیز حرکتیں متعلقہ صوتی لہجوں کو متحرک کرتی ہیں، دستی ہم آہنگی کے بغیر قدرتی آڈیو ویژول تعلقات بناتی ہیں۔
موجودہ مقابلے کا تجزیہ (نومبر 2025)
- مقامی 4K کے ساتھ واحد اوپن سورس ماڈل
- صارف ہارڈ ویئر پر چلتا ہے—کوئی API فیس نہیں
- مکمل مقامی کنٹرول اور رازداری
- مخصوص ورک فلوز کے لیے حسب ضرورت بنانے کے قابل
- کلاؤڈ حلوں سے سست جنریشن کے اوقات
- حریفوں سے کم بیس لائن ریزولوشن (768×512)
- نمایاں مقامی GPU سرمایہ کاری کی ضرورت
- 1080p پر معیار Sora 2 سے مل نہیں کھاتا
OpenAI Sora 2
ریلیز: 30 ستمبر 2025
- آڈیو کے ساتھ 25 سیکنڈ کی ویڈیوز
- 1080p مقامی، بہترین تفصیل
- ChatGPT Pro سبسکرپشن
- صرف کلاؤڈ پروسیسنگ
SoulGen 2.0
ریلیز: 23 نومبر 2025
- حرکت کی درستگی: MPJPE 42.3mm
- بصری معیار: SSIM 0.947
- کلاؤڈ پروسیسنگ ضروری
Google Veo 3.1
ریلیز: اکتوبر 2025
- 8s بیس، 60s+ تک قابل توسیع
- TPU بنیادی ڈھانچے پر اعلیٰ معیار
- شرح کی حدود کے ساتھ API رسائی
LTX-2
ریلیز: اکتوبر 2025
- 50 FPS پر مقامی 4K
- اوپن سورس، مقامی طور پر چلتا ہے
- 10s بیس، تجرباتی 60s
عملی نفاذ کے تحفظات
- رازداری کے لیے اہم ایپلیکیشنز جنہیں مقامی پروسیسنگ کی ضرورت ہے
- فی استعمال کی لاگت کے بغیر لامحدود جنریشن
- ماڈل کی تبدیلی کی ضرورت والے حسب ضرورت ورک فلوز
- تحقیق اور تجربات
- زیادہ حجم کی ضروریات کے ساتھ طویل مدتی پیداوار
- تیز موڑ کی ضرورت والی وقت کے حساس پیداوار
- مسلسل 1080p+ معیار کی ضرورت والے پروجیکٹس
- محدود مقامی GPU وسائل
- یکبارہ جنریشن جہاں API کی لاگت قابل قبول ہے
- فوری انٹرپرائز سپورٹ کی ضرورت
اوپن سورس ایکو سسٹم کا اثر
کمیونٹی کی اختراع
LTX ماڈلز نے وسیع کمیونٹی کی ترقیاں پیدا کی ہیں، اوپن سورس AI کی طاقت کا مظاہرہ کرتے ہوئے۔
- ✓ComfyUI نوڈس بصری ورک فلو کی تخلیق کے لیے
- ✓باریک بنائے گئے متغیرات مخصوص انداز اور استعمال کے معاملات کے لیے
- ✓اصلاح کے پروجیکٹس AMD اور Apple Silicon کے لیے
- ✓انضمام لائبریریاں مختلف پروگرامنگ زبانوں کے لیے
یہ ایکو سسٹم کی ترقی اوپن سورس ریلیز کی قدر کو ظاہر کرتی ہے، یہاں تک کہ جب مکمل LTX-2 ویٹس عوامی دستیابی کا انتظار کرتے ہیں (ٹائم لائن سرکاری اعلان زیر التواء)۔
مستقبل کی ترقیاں اور روڈ میپ
مکمل ویٹس ریلیز
کمیونٹی کے استعمال کے لیے مکمل LTX-2 ماڈل ویٹس (تاریخ غیر متعین)
توسیع شدہ صلاحیتیں
صارف GPUs کے لیے بہتر میموری کی کارکردگی کے ساتھ 10 سیکنڈ سے زیادہ جنریشن
کمیونٹی سے چلنے والا ارتقاء
موبائل اصلاح، ریئل ٹائم پیش نظارے، بہتر کنٹرولز، اور خصوصی متغیرات
اختتام: قربانیوں کو سمجھنا
LTX-2 AI ویڈیو جنریشن کے لیے ایک الگ نقطہ نظر پیش کرتا ہے، رسائی کو چوٹی کی کارکردگی پر ترجیح دیتا ہے۔ ویڈیو توسیع اور ہیرا پھیری کے ساتھ کام کرنے والے تخلیق کاروں اور پلیٹ فارمز کے لیے، یہ حدود کے باوجود قیمتی صلاحیتیں فراہم کرتا ہے۔
- مکمل مقامی کنٹرول اور رازداری
- کوئی استعمال کی حدود یا بار بار آنے والی لاگت نہیں
- مخصوص ورک فلوز کے لیے حسب ضرورت بنانے کے قابل
- مقامی 4K جنریشن کی صلاحیت
- اوپن سورس لچک
- منٹوں میں ماپی جانے والی جنریشن کے اوقات، سیکنڈوں میں نہیں
- حریفوں سے کم بیس ریزولوشن
- 4K کے لیے زیادہ VRAM کی ضروریات
- 1080p پر معیار Sora 2 یا Veo 3.1 سے مل نہیں کھاتا
انتخاب کرنا
LTX ماڈلز اور ملکیتی متبادلات کے درمیان انتخاب مخصوص ترجیحات پر منحصر ہے۔ تجرباتی کام، رازداری کے حساس مواد، یا لامحدود جنریشن کی ضروریات کے لیے، LTX-2 بے مثال قدر فراہم کرتا ہے۔ 1080p پر زیادہ سے زیادہ معیار کی ضرورت والی وقت کی اہم پیداوار کے لیے، کلاؤڈ APIs زیادہ مناسب ہو سکتے ہیں۔
جیسے جیسے AI ویڈیو جنریشن 2025 میں پختہ ہوتی ہے، ہم کھلے اور بند دونوں حلوں کے ساتھ ایک صحت مند ایکو سسٹم کو ابھرتے دیکھ رہے ہیں۔ LTX-2 کا حصہ ہر میٹرک میں ملکیتی ماڈلز کو پیچھے چھوڑنے میں نہیں ہے، بلکہ یہ یقینی بنانے میں ہے کہ پیشہ ورانہ ویڈیو جنریشن ٹولز تمام تخلیق کاروں کے لیے قابل رسائی رہیں، بجٹ یا API رسائی سے قطع نظر۔ یہ جمہوریت، یہاں تک کہ قربانیوں کے ساتھ، ویڈیو AI میں تخلیقی اظہار اور تکنیکی اختراع کے امکانات کو بڑھاتی ہے۔
کیا یہ مضمون مددگار تھا؟

Damien
اے آئی ڈویلپرلیون سے تعلق رکھنے والے اے آئی ڈویلپر جو پیچیدہ ایم ایل تصورات کو آسان نسخوں میں تبدیل کرنا پسند کرتے ہیں۔ جب ماڈلز کی ڈیبگنگ نہیں کر رہے ہوتے تو انہیں رون وادی میں سائیکل چلاتے ہوئے پایا جا سکتا ہے۔
متعلقہ مضامین
ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

NVIDIA CES 2026: صارفین کے لیے 4K AI ویڈیو جنریشن بالآخر آ گئی
NVIDIA نے CES 2026 میں RTX سے چلنے والی 4K AI ویڈیو جنریشن کا اعلان کیا، جو پیشہ ورانہ درجے کی صلاحیتیں صارفین کے GPUs پر لاتی ہے، 3 گنا تیز رینڈرنگ اور 60% کم VRAM کے ساتھ۔

اوپن سورس AI ویڈیو ماڈلز آخرکار فاصلہ کم کر رہے ہیں
Wan 2.2، HunyuanVideo 1.5، اور Open-Sora 2.0 ملکیتی دیوہیکل کمپنیوں کے ساتھ فاصلہ کم کر رہے ہیں۔ تخلیق کاروں اور اداروں کے لیے اس کا کیا مطلب ہے۔

TurboDiffusion: ریئل ٹائم AI ویڈیو جنریشن میں انقلابی پیش رفت
ShengShu Technology اور Tsinghua یونیورسٹی نے TurboDiffusion کی نقاب کشائی کی، جو AI ویڈیو جنریشن میں 100-200 گنا تیز رفتاری حاصل کرتے ہوئے ریئل ٹائم تخلیق کے دور کا آغاز کر رہا ہے۔