Meta Pixel
DamienDamien
10 min read
1937 الفاظ

LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن

Lightricks نے مقامی 4K ویڈیو جنریشن اور ہم آہنگ آڈیو کے ساتھ LTX-2 ریلیز کیا، صارف ہارڈ ویئر پر اوپن سورس رسائی پیش کرتا ہے جبکہ حریف API میں بند رہتے ہیں، اگرچہ اہم کارکردگی کی قربانیوں کے ساتھ۔

LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن

اوپن سورس انقلاب

Lightricks نے اکتوبر 2025 میں LTX-2 ریلیز کیا، مقامی 4K ویڈیو جنریشن کو ہم آہنگ آڈیو کے ساتھ متعارف کرایا جو صارف GPUs پر چلتا ہے۔ جبکہ OpenAI کا Sora 2 اور Google کا Veo 3.1 API رسائی کے پیچھے بند رہتے ہیں، LTX-2 مکمل اوپن سورس ریلیز کے منصوبوں کے ساتھ مختلف راستہ اختیار کرتا ہے۔

4K
مقامی ریزولوشن
50 FPS
زیادہ سے زیادہ رفتار
100%
اوپن سورس

ماڈل نومبر 2024 سے اصل LTX ویڈیو اور مئی 2025 سے 13 بلین پیرامیٹر LTXV ماڈل پر بناتا ہے، ویڈیو جنریشن ٹولز کا ایک خاندان بناتا ہے جو انفرادی تخلیق کاروں کے لیے قابل رسائی ہے۔

LTX ماڈل خاندان کا ارتقاء

نومبر 2024

اصل LTX ویڈیو

اعلیٰ درجے کے ہارڈ ویئر پر دو سیکنڈ میں پانچ سیکنڈ کی ویڈیو جنریشن۔ 768×512 ریزولوشن پر بیس لائن ماڈل۔

مئی 2025

LTXV 13B

بہتر معیار اور صلاحیتوں کے ساتھ 13 بلین پیرامیٹر ماڈل

اکتوبر 2025

LTX-2 ریلیز

ہم آہنگ آڈیو جنریشن کے ساتھ 50 FPS تک مقامی 4K ریزولوشن

مقامی 4K کے فوائد

تفصیل کا تحفظ بہتر ہے—مقامی جنریشن حرکت کے دوران مسلسل معیار برقرار رکھتی ہے۔ مصنوعی تیزی کے نقائص نہیں جو اپ اسکیل شدہ فوٹیج کو متاثر کرتے ہیں۔

کارکردگی کی قربانی

RTX 4090 پر 10 سیکنڈ کی 4K کلپ کو 9-12 منٹ درکار ہوتے ہیں، RTX 3090 پر 20-25 منٹ کے مقابلے میں۔ زیادہ ریزولوشن پر جنریشن کا وقت کافی بڑھ جاتا ہے۔

# LTX ماڈل خاندان کی تفصیلات
ltx_video_original = {
    "resolution": "768x512",  # بیس ماڈل
    "max_duration": 5,  # سیکنڈ
    "fps": range(24, 31),  # 24-30 FPS
    "diffusion_steps": 20,
    "h100_time": "5 سیکنڈ کی ویڈیو کے لیے 4 سیکنڈ",
    "rtx4090_time": "5 سیکنڈ کی ویڈیو کے لیے 11 سیکنڈ"
}
 
ltx2_capabilities = {
    "resolution": "3840x2160 تک",  # مقامی 4K
    "max_duration": 10,  # سیکنڈ تصدیق شدہ، 60s تجرباتی
    "fps": "50 تک",
    "synchronized_audio": True,
    "rtx4090_4k_time": "10 سیکنڈ کے لیے 9-12 منٹ"
}

تکنیکی فن تعمیر: عملی طور پر ڈفیوژن ٹرانسفارمرز

🏗️

متحد فریم ورک

LTX-Video ویڈیو جنریشن کے لیے ڈفیوژن ٹرانسفارمرز (DiT) نافذ کرتا ہے، متعدد صلاحیتوں کو مربوط کرتا ہے—ٹیکسٹ سے ویڈیو، تصویر سے ویڈیو، اور ویڈیو توسیع—ایک ہی فریم ورک کے اندر۔ فن تعمیر دو طرفہ طور پر وقتی معلومات پروسیس کرتا ہے، ویڈیو سیکوینسز میں مستقل مزاجی برقرار رکھنے میں مدد کرتا ہے۔

بہتر بنایا گیا ڈفیوژن

ماڈل معیار کی ضروریات کے لحاظ سے 8-20 ڈفیوژن مراحل کے ساتھ کام کرتا ہے۔ کم مراحل (8) ڈرافٹس کے لیے تیز جنریشن کو فعال کرتے ہیں، جبکہ 20-30 مراحل اعلیٰ معیار کی آؤٹ پٹ پیدا کرتے ہیں۔ کوئی کلاسیفائر فری گائیڈنس کی ضرورت نہیں—میموری اور کمپیوٹیشن کو کم کرتا ہے۔

🎛️

ملٹی موڈل کنڈیشننگ

بیک وقت متعدد ان پٹ اقسام کو سپورٹ کرتا ہے: ٹیکسٹ پرامپٹس، انداز کی منتقلی کے لیے تصویری ان پٹس، کنٹرول شدہ اینیمیشن کے لیے متعدد کلیدی فریمز، اور توسیع کے لیے موجودہ ویڈیو۔

اوپن سورس حکمت عملی اور رسائی

💡ویڈیو AI کو جمہوری بنانا

LTX-2 کی ترقی ویڈیو AI کو جمہوری بنانے کی ایک جان بوجھ کر حکمت عملی کی عکاسی کرتی ہے۔ جبکہ حریف APIs کے ذریعے رسائی کو محدود کرتے ہیں، Lightricks متعدد رسائی کے راستے فراہم کرتا ہے۔

  • GitHub ریپوزٹری: مکمل نفاذ کوڈ
  • Hugging Face Hub: Diffusers لائبریری کے ساتھ مطابقت پذیر ماڈل ویٹس
  • پلیٹ فارم انضمام: Fal.ai، Replicate، ComfyUI سپورٹ
  • LTX Studio: تجربات کے لیے براہ راست براؤزر رسائی

اخلاقی تربیتی ڈیٹا

ماڈلز Getty Images اور Shutterstock سے لائسنس شدہ ڈیٹا سیٹس پر تربیت یافتہ تھے، تجارتی عملداری کو یقینی بناتے ہوئے—یہ ویب سے اسکریپ کیے گئے ڈیٹا پر تربیت یافتہ ماڈلز سے ایک اہم فرق ہے جن کی کاپی رائٹ کی حیثیت غیر واضح ہے۔

# Diffusers لائبریری کے ساتھ LTX-Video استعمال کرنا
from diffusers import LTXVideoPipeline
import torch
 
# میموری کی اصلاح کے ساتھ شروع کریں
pipe = LTXVideoPipeline.from_pretrained(
    "Lightricks/LTX-Video",
    torch_dtype=torch.float16
).to("cuda")
 
# قابل تشکیل مراحل کے ساتھ پیدا کریں
video = pipe(
    prompt="طلوع آفتاب پر پہاڑی منظر کا فضائی منظر",
    num_inference_steps=8,  # تیز ڈرافٹ موڈ
    height=704,
    width=1216,
    num_frames=121,  # 30fps پر ~4 سیکنڈ
    guidance_scale=1.0  # کوئی CFG کی ضرورت نہیں
).frames

ہارڈ ویئر کی ضروریات اور حقیقی دنیا کی کارکردگی

⚠️ہارڈ ویئر کے تحفظات

اصل کارکردگی ہارڈ ویئر کی ترتیب پر بہت زیادہ منحصر ہے۔ اپنی مخصوص ضروریات اور بجٹ کی بنیاد پر اپنا سیٹ اپ منتخب کریں۔

داخلہ سطح (12GB VRAM)

GPUs: RTX 3060، RTX 4060

  • صلاحیت: 24-30 FPS پر 720p-1080p ڈرافٹس
  • استعمال کا معاملہ: پروٹو ٹائپنگ، سوشل میڈیا مواد
  • حدود: 4K جنریشن سنبھال نہیں سکتا
پیشہ ورانہ (24GB+ VRAM)

GPUs: RTX 4090، A100

  • صلاحیت: بغیر سمجھوتے کے مقامی 4K
  • کارکردگی: 9-12 منٹ میں 10 سیکنڈ 4K
  • استعمال کا معاملہ: زیادہ سے زیادہ معیار کی ضرورت والا پیداواری کام
11s
RTX 4090 (768p)
4s
H100 (768p)
9-12min
RTX 4090 (4K)
کارکردگی کی حقیقت پسندی
  • 768×512 بیس لائن: RTX 4090 پر 11 سیکنڈ (H100 پر 4 سیکنڈ کے مقابلے میں)
  • 4K جنریشن: اعلیٰ درجے کے کارڈز پر بھی محتاط میموری کے انتظام کی ضرورت ہے
  • معیار بمقابلہ رفتار: صارفین کو تیز کم ریزولوشن یا سست اعلیٰ ریزولوشن آؤٹ پٹ کے درمیان انتخاب کرنا ہوگا

مواد کے تخلیق کاروں کے لیے جدید خصوصیات

ویڈیو توسیع کی صلاحیتیں

LTX-2 دو طرفہ ویڈیو توسیع کو سپورٹ کرتا ہے، مواد کی ہیرا پھیری پر مرکوز پلیٹ فارمز کے لیے قیمتی:

# ویڈیو توسیع کے لیے پیداواری پائپ لائن
from ltx_video import LTXPipeline
 
pipeline = LTXPipeline(model="ltx-2", device="cuda")
 
# ابتدائی حصہ پیدا کریں
initial = pipeline.generate(
    prompt="قدیم کھنڈرات کی کھوج کرتا روبوٹ",
    resolution=(1920, 1080),
    duration=5
)
 
# کلیدی فریم رہنمائی کے ساتھ بڑھائیں
extended = pipeline.extend_video(
    video=initial,
    direction="forward",
    keyframes=[
        {"frame": 150, "prompt": "روبوٹ کو نوادرات ملتی ہے"},
        {"frame": 300, "prompt": "نوادرات فعال ہوتی ہے"}
    ]
)

یہ توسیع کی صلاحیت Bonega.ai جیسے ویڈیو کی ہیرا پھیری کے پلیٹ فارمز کے ساتھ اچھی طرح ہم آہنگ ہوتی ہے، بصری مستقل مزاجی برقرار رکھتے ہوئے مواد کی توسیع کو فعال کرتی ہے۔

💡ہم آہنگ آڈیو جنریشن

LTX-2 ویڈیو تخلیق کے دوران آڈیو پیدا کرتا ہے نہ کہ بعد میں پروسیسنگ کے طور پر۔ ماڈل آواز کو بصری حرکت کے ساتھ ہم آہنگ کرتا ہے—تیز حرکتیں متعلقہ صوتی لہجوں کو متحرک کرتی ہیں، دستی ہم آہنگی کے بغیر قدرتی آڈیو ویژول تعلقات بناتی ہیں۔

موجودہ مقابلے کا تجزیہ (نومبر 2025)

LTX-2 منفرد فوائد
  • مقامی 4K کے ساتھ واحد اوپن سورس ماڈل
  • صارف ہارڈ ویئر پر چلتا ہے—کوئی API فیس نہیں
  • مکمل مقامی کنٹرول اور رازداری
  • مخصوص ورک فلوز کے لیے حسب ضرورت بنانے کے قابل
LTX-2 قربانیاں
  • کلاؤڈ حلوں سے سست جنریشن کے اوقات
  • حریفوں سے کم بیس لائن ریزولوشن (768×512)
  • نمایاں مقامی GPU سرمایہ کاری کی ضرورت
  • 1080p پر معیار Sora 2 سے مل نہیں کھاتا
🔒

OpenAI Sora 2

ریلیز: 30 ستمبر 2025

  • آڈیو کے ساتھ 25 سیکنڈ کی ویڈیوز
  • 1080p مقامی، بہترین تفصیل
  • ChatGPT Pro سبسکرپشن
  • صرف کلاؤڈ پروسیسنگ
🎭

SoulGen 2.0

ریلیز: 23 نومبر 2025

  • حرکت کی درستگی: MPJPE 42.3mm
  • بصری معیار: SSIM 0.947
  • کلاؤڈ پروسیسنگ ضروری
🌐

Google Veo 3.1

ریلیز: اکتوبر 2025

  • 8s بیس، 60s+ تک قابل توسیع
  • TPU بنیادی ڈھانچے پر اعلیٰ معیار
  • شرح کی حدود کے ساتھ API رسائی
🔓

LTX-2

ریلیز: اکتوبر 2025

  • 50 FPS پر مقامی 4K
  • اوپن سورس، مقامی طور پر چلتا ہے
  • 10s بیس، تجرباتی 60s

عملی نفاذ کے تحفظات

جب LTX-2 سمجھ میں آتا ہے
  • رازداری کے لیے اہم ایپلیکیشنز جنہیں مقامی پروسیسنگ کی ضرورت ہے
  • فی استعمال کی لاگت کے بغیر لامحدود جنریشن
  • ماڈل کی تبدیلی کی ضرورت والے حسب ضرورت ورک فلوز
  • تحقیق اور تجربات
  • زیادہ حجم کی ضروریات کے ساتھ طویل مدتی پیداوار
متبادل پر غور کب کریں
  • تیز موڑ کی ضرورت والی وقت کے حساس پیداوار
  • مسلسل 1080p+ معیار کی ضرورت والے پروجیکٹس
  • محدود مقامی GPU وسائل
  • یکبارہ جنریشن جہاں API کی لاگت قابل قبول ہے
  • فوری انٹرپرائز سپورٹ کی ضرورت

اوپن سورس ایکو سسٹم کا اثر

🌟

کمیونٹی کی اختراع

LTX ماڈلز نے وسیع کمیونٹی کی ترقیاں پیدا کی ہیں، اوپن سورس AI کی طاقت کا مظاہرہ کرتے ہوئے۔

  • ComfyUI نوڈس بصری ورک فلو کی تخلیق کے لیے
  • باریک بنائے گئے متغیرات مخصوص انداز اور استعمال کے معاملات کے لیے
  • اصلاح کے پروجیکٹس AMD اور Apple Silicon کے لیے
  • انضمام لائبریریاں مختلف پروگرامنگ زبانوں کے لیے
📝بڑھتا ہوا ایکو سسٹم

یہ ایکو سسٹم کی ترقی اوپن سورس ریلیز کی قدر کو ظاہر کرتی ہے، یہاں تک کہ جب مکمل LTX-2 ویٹس عوامی دستیابی کا انتظار کرتے ہیں (ٹائم لائن سرکاری اعلان زیر التواء)۔

مستقبل کی ترقیاں اور روڈ میپ

قریب مدت

مکمل ویٹس ریلیز

کمیونٹی کے استعمال کے لیے مکمل LTX-2 ماڈل ویٹس (تاریخ غیر متعین)

2026

توسیع شدہ صلاحیتیں

صارف GPUs کے لیے بہتر میموری کی کارکردگی کے ساتھ 10 سیکنڈ سے زیادہ جنریشن

مستقبل

کمیونٹی سے چلنے والا ارتقاء

موبائل اصلاح، ریئل ٹائم پیش نظارے، بہتر کنٹرولز، اور خصوصی متغیرات

اختتام: قربانیوں کو سمجھنا

ایک الگ نقطہ نظر

LTX-2 AI ویڈیو جنریشن کے لیے ایک الگ نقطہ نظر پیش کرتا ہے، رسائی کو چوٹی کی کارکردگی پر ترجیح دیتا ہے۔ ویڈیو توسیع اور ہیرا پھیری کے ساتھ کام کرنے والے تخلیق کاروں اور پلیٹ فارمز کے لیے، یہ حدود کے باوجود قیمتی صلاحیتیں فراہم کرتا ہے۔

کلیدی فوائد
  • مکمل مقامی کنٹرول اور رازداری
  • کوئی استعمال کی حدود یا بار بار آنے والی لاگت نہیں
  • مخصوص ورک فلوز کے لیے حسب ضرورت بنانے کے قابل
  • مقامی 4K جنریشن کی صلاحیت
  • اوپن سورس لچک
اہم حدود
  • منٹوں میں ماپی جانے والی جنریشن کے اوقات، سیکنڈوں میں نہیں
  • حریفوں سے کم بیس ریزولوشن
  • 4K کے لیے زیادہ VRAM کی ضروریات
  • 1080p پر معیار Sora 2 یا Veo 3.1 سے مل نہیں کھاتا
🎯

انتخاب کرنا

LTX ماڈلز اور ملکیتی متبادلات کے درمیان انتخاب مخصوص ترجیحات پر منحصر ہے۔ تجرباتی کام، رازداری کے حساس مواد، یا لامحدود جنریشن کی ضروریات کے لیے، LTX-2 بے مثال قدر فراہم کرتا ہے۔ 1080p پر زیادہ سے زیادہ معیار کی ضرورت والی وقت کی اہم پیداوار کے لیے، کلاؤڈ APIs زیادہ مناسب ہو سکتے ہیں۔

جمہوریت اہمیت رکھتی ہے

جیسے جیسے AI ویڈیو جنریشن 2025 میں پختہ ہوتی ہے، ہم کھلے اور بند دونوں حلوں کے ساتھ ایک صحت مند ایکو سسٹم کو ابھرتے دیکھ رہے ہیں۔ LTX-2 کا حصہ ہر میٹرک میں ملکیتی ماڈلز کو پیچھے چھوڑنے میں نہیں ہے، بلکہ یہ یقینی بنانے میں ہے کہ پیشہ ورانہ ویڈیو جنریشن ٹولز تمام تخلیق کاروں کے لیے قابل رسائی رہیں، بجٹ یا API رسائی سے قطع نظر۔ یہ جمہوریت، یہاں تک کہ قربانیوں کے ساتھ، ویڈیو AI میں تخلیقی اظہار اور تکنیکی اختراع کے امکانات کو بڑھاتی ہے۔

کیا یہ مضمون مددگار تھا؟

Damien

Damien

اے آئی ڈویلپر

لیون سے تعلق رکھنے والے اے آئی ڈویلپر جو پیچیدہ ایم ایل تصورات کو آسان نسخوں میں تبدیل کرنا پسند کرتے ہیں۔ جب ماڈلز کی ڈیبگنگ نہیں کر رہے ہوتے تو انہیں رون وادی میں سائیکل چلاتے ہوئے پایا جا سکتا ہے۔

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

متعلقہ مضامین

ان متعلقہ پوسٹس کے ساتھ مزید دریافت کریں

کیا آپ کو یہ مضمون پسند آیا؟

مزید بصیرتیں دریافت کریں اور ہمارے تازہ ترین مواد سے باخبر رہیں۔

LTX-2: اوپن سورس کے ذریعے صارف GPUs پر مقامی 4K AI ویڈیو جنریشن