LTX-2: Nativna 4K AI generacija videa na potrošačkim GPU-ovima kroz open source
Lightricks objavljuje LTX-2 sa nativnom 4K generacijom videa i sinhronizovanim audioem, nudeći open-source pristup na potrošačkom hardveru dok konkurenti ostaju API-zaključani, mada sa važnim kompromisima u performansama.

LTX-2: Nativna 4K AI generacija videa na potrošačkim GPU-ovima kroz open source
Lightricks je objavio LTX-2 u oktobru 2025., uvodeći nativnu 4K generaciju videa sa sinhronizovanim audioem koja radi na potrošačkim GPU-ovima. Dok OpenAI-eva Sora 2 i Google-ov Veo 3.1 ostaju zaključani iza API pristupa, LTX-2 ide drugačijim putem sa planovima za potpuno open-source izdanje.
Model se nadograđuje na originalni LTX Video iz novembra 2024. i LTXV model sa 13 milijardi parametara iz maja 2025., kreirajući familiju alata za generaciju videa pristupačnih pojedinačnim kreatorima.
Evolucija LTX porodice modela
Originalni LTX Video
Pet sekundi generacije videa za dve sekunde na high-end hardveru. Osnovni model na 768×512 rezoluciji.
LTXV 13B
Model sa 13 milijardi parametara sa unapređenim kvalitetom i mogućnostima
LTX-2 izdanje
Nativna 4K rezolucija do 50 FPS sa sinhronizovanom generacijom zvuka
Očuvanje detalja je superiorno—nativna generacija održava konzistentan kvalitet kroz pokret. Nema artefakata veštačkog izoštrenja koji prate upscale-ovani snimak.
10-sekundni 4K klip zahteva 9-12 minuta na RTX 4090, u poređenju sa 20-25 minuta na RTX 3090. Vremena generacije se značajno povećavaju na višim rezolucijama.
# Specifikacije LTX porodice modela
ltx_video_original = {
"resolution": "768x512", # Osnovni model
"max_duration": 5, # sekundi
"fps": range(24, 31), # 24-30 FPS
"diffusion_steps": 20,
"h100_time": "4 sekunde za 5-sekundni video",
"rtx4090_time": "11 sekundi za 5-sekundni video"
}
ltx2_capabilities = {
"resolution": "up to 3840x2160", # Nativno 4K
"max_duration": 10, # sekundi potvrđeno, 60s eksperimentalno
"fps": "up to 50",
"synchronized_audio": True,
"rtx4090_4k_time": "9-12 minuta za 10 sekundi"
}Tehnička arhitektura: Diffusion Transformers u praksi
Ujedinjeni framework
LTX-Video implementira Diffusion Transformers (DiT) za generaciju videa, integriše višestruke mogućnosti—text-to-video, image-to-video i video produžavanje—unutar jednog framework-a. Arhitektura procesira temporalne informacije bidirekciono, pomažući da se održi konzistentnost kroz video sekvence.
Optimizovana difuzija
Model radi sa 8-20 difuzionih koraka zavisno od zahteva kvaliteta. Manje koraka (8) omogućavaju bržu generaciju za draft-ove, dok 20-30 koraka proizvodi output višeg kvaliteta. Nema potrebe za classifier-free guidance—smanjujući memoriju i računanje.
Multi-modalno uslovljavanje
Podržava više tipova ulaza istovremeno: tekstualne prompte, image ulaze za style transfer, višestruke keyframe-ove za kontrolisanu animaciju i postojeći video za produžavanje.
Open source strategija i pristupačnost
LTX-2-ov razvoj odražava svesnu strategiju demokratizacije video AI. Dok konkurenti ograničavaju pristup kroz API-je, Lightricks pruža višestruke puteve pristupa.
- ✓GitHub repozitorijum: Kompletan implementacioni kod
- ✓Hugging Face Hub: Model weights kompatibilni sa Diffusers bibliotekom
- ✓Integracije platformi: Fal.ai, Replicate, ComfyUI podrška
- ✓LTX Studio: Direktan browser pristup za eksperimentisanje
Etički trening podaci
Modeli su trenirani na licenciranim dataset-ima od Getty Images i Shutterstock, osiguravajući komercijalnu isplativost—važna distinkcija od modela treniranih na web-scraped podacima sa nejasnim autorskim statusom.
# Korišćenje LTX-Video sa Diffusers bibliotekom
from diffusers import LTXVideoPipeline
import torch
# Inicijalizuj sa optimizacijom memorije
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-Video",
torch_dtype=torch.float16
).to("cuda")
# Generiši sa podesivim koracima
video = pipe(
prompt="Aerial pogled planinske pejzaže u zoru",
num_inference_steps=8, # Brzi draft mode
height=704,
width=1216,
num_frames=121, # ~4 sekunde na 30fps
guidance_scale=1.0 # Nema potrebe za CFG
).framesHardverski zahtevi i performanse u realnom svetu
Stvarne performanse zavise u velikoj meri od hardverske konfiguracije. Izaberi svoj setup na osnovu svojih specifičnih potreba i budžeta.
GPU-ovi: RTX 3060, RTX 4060
- Mogućnost: 720p-1080p draft-ovi na 24-30 FPS
- Slučaj upotrebe: Prototipovanje, sadržaj društvenih mreža
- Limitacije: Ne može da rukuje 4K generacijom
GPU-ovi: RTX 4090, A100
- Mogućnost: Nativni 4K bez kompromisa
- Performanse: 10-sekundni 4K za 9-12 minuta
- Slučaj upotrebe: Produkcioni rad koji zahteva maksimalni kvalitet
Provera realnosti performansi▼
- 768×512 baseline: 11 sekundi na RTX 4090 (u poređenju sa 4 sekunde na H100)
- 4K generacija: Zahteva pažljivo upravljanje memorijom čak i na high-end karticama
- Kvalitet vs Brzina: Korisnici moraju da biraju između brzog niske rezolucije ili sporog visoke rezolucije output-a
Napredni feature-i za kreatore sadržaja
Mogućnosti produžavanja videa
LTX-2 podržava bidirekciono produžavanje videa, dragoceno za platforme fokusirane na manipulaciju sadržaja:
# Produkcioni pipeline za produžavanje videa
from ltx_video import LTXPipeline
pipeline = LTXPipeline(model="ltx-2", device="cuda")
# Generiši inicijalni segment
initial = pipeline.generate(
prompt="Robot istražuje drevne ruševine",
resolution=(1920, 1080),
duration=5
)
# Produži sa keyframe vođenjem
extended = pipeline.extend_video(
video=initial,
direction="forward",
keyframes=[
{"frame": 150, "prompt": "Robot otkriva artefakt"},
{"frame": 300, "prompt": "Artefakt se aktivira"}
]
)Ova mogućnost produžavanja se dobro uklapa sa platformama za manipulaciju videa kao što je Bonega.ai, omogućavajući ekspanziju sadržaja uz održavanje vizuelne konzistentnosti.
LTX-2 generiše audio tokom kreiranja videa umesto kao post-procesiranje. Model usklađuje zvuk sa vizuelnim pokretom—brzi pokreti pokreću odgovarajuće audio akcente, kreirajući prirodne audiovizuelne odnose bez ručne sinhronizacije.
Analiza trenutne konkurencije (novembar 2025.)
- Jedini open-source model sa nativnim 4K
- Radi na potrošačkom hardveru—bez API naknada
- Potpuna lokalna kontrola i privatnost
- Prilagodljiv za specifične tokove rada
- Sporija vremena generacije od cloud rešenja
- Niža baseline rezolucija (768×512) od konkurenata
- Zahteva značajnu lokalnu GPU investiciju
- Kvalitet na 1080p ne dostiže Sora 2
OpenAI Sora 2
Objavljen: 30. septembar 2025.
- 25-sekundni video klipovi sa audioem
- 1080p nativno, odličan detalj
- ChatGPT Pro pretplata
- Samo cloud procesiranje
SoulGen 2.0
Objavljen: 23. novembar 2025.
- Tačnost pokreta: MPJPE 42.3mm
- Vizuelni kvalitet: SSIM 0.947
- Potrebno cloud procesiranje
Google Veo 3.1
Objavljen: Oktobar 2025.
- 8s base, proširivo do 60s+
- Visok kvalitet na TPU infrastrukturi
- API pristup sa rate limits-ima
LTX-2
Objavljen: Oktobar 2025.
- Nativni 4K na 50 FPS
- Open source, radi lokalno
- 10s base, eksperimentalno 60s
Praktične implementacione konsideracije
- Privacy-critical aplikacije koje zahtevaju lokalno procesiranje
- Neograničena generacija bez troškova po upotrebi
- Kastom tokovi rada koji zahtevaju modifikaciju modela
- Istraživanje i eksperimentisanje
- Dugoročna produkcija sa visokim potrebama volumena
- Vremenski osetljiva produkcija koja zahteva brz turnaround
- Projekti koji zahtevaju konzistentan 1080p+ kvalitet
- Ograničeni lokalni GPU resursi
- Jednokratne generacije gde su API troškovi prihvatljivi
- Potreba za trenutnom enterprise podrškom
Uticaj open source ekosistema
Community inovacija
LTX modeli su rodili ekstenzivan community razvoj, demonstrirajući moć open-source AI.
- ✓ComfyUI node-ovi za vizuelno kreiranje workflow-a
- ✓Fine-tuned varijante za specifične stilove i slučajeve upotrebe
- ✓Optimizacioni projekti za AMD i Apple Silicon
- ✓Integracione biblioteke za razne programske jezike
Ovaj rast ekosistema demonstrira vrednost open-source izdanja, čak i kako puni LTX-2 weights čekaju javnu dostupnost (timeline čeka zvaničnu najavu).
Budući razvoj i roadmap
Puno weight izdanje
Kompletni LTX-2 model weights za community upotrebu (datum nespecifikovan)
Proširene mogućnosti
Generacija preko 10 sekundi sa poboljšanom efikasnošću memorije za potrošačke GPU-ove
Community-vođena evolucija
Mobilna optimizacija, real-time preview-i, unapređene kontrole i specijalizovane varijante
Zaključak: Razumevanje kompromisa
LTX-2 nudi različit pristup AI generaciji videa, prioritizirajući pristupačnost nad vrhunskim performansama. Za kreatore i platforme koje rade sa produžavanjem i manipulacijom videa, pruža dragocene mogućnosti uprkos limitacijama.
- Potpuna lokalna kontrola i privatnost
- Nema usage limits-a ili recurring troškova
- Prilagodljiv za specifične tokove rada
- Nativna 4K generacijska mogućnost
- Open-source fleksibilnost
- Vremena generacije merena u minutima, ne sekundama
- Osnovna rezolucija niža od konkurenata
- Visoki VRAM zahtevi za 4K
- Kvalitet na 1080p ne dostiže Sora 2 ili Veo 3.1
Pravljenje izbora
Izbor između LTX modela i proprietary alternativa zavisi od specifičnih prioriteta. Za eksperimentalan rad, sadržaj osetljiv na privatnost ili neograničene potrebe generacije, LTX-2 pruža nenadmašnu vrednost. Za vremenski-kritičnu produkciju koja zahteva maksimalan kvalitet na 1080p, cloud API-ji mogu biti prikladniji.
Kako AI generacija videa sazreva u 2025., vidimo zdrav ekosistem koji se pojavljuje sa otvorenim i zatvorenim rešenjima. LTX-2-ov doprinos ne leži u prevazilaženju proprietary modela u svakoj metrici, već u osiguravanju da profesionalni alati za generaciju videa ostanu pristupačni svim kreatorima, bez obzira na budžet ili API pristup. Ova demokratizacija, čak i sa kompromisima, proširuje mogućnosti za kreativnu ekspresiju i tehničku inovaciju u video AI.
Da li vam je ovaj članak bio od pomoći?

Damien
AI ProgramerAI programer iz Liona koji voli da pretvara složene ML koncepte u jednostavne recepte. Kada ne otklanja greške u modelima, možete ga pronaći kako vozi bicikl kroz dolinu Rone.
Povezani članci
Nastavite istraživanje sa ovim povezanim člancima

NVIDIA CES 2026: Potrošačko 4K AI generisanje videa konačno stiže
NVIDIA najavljuje RTX 4K AI generisanje videa na CES 2026, donoseći profesionalne mogućnosti na potrošačke GPU sa 3x bržim renderovanjem i 60% manje VRAM-a.

AI video modeli otvorenog koda konačno sustižu
Wan 2.2, HunyuanVideo 1.5 i Open-Sora 2.0 smanjuju jaz sa vlasničkim gigantima. Evo šta to znači za kreatore i preduzeća.

TurboDiffusion: Proboj u realnom vremenu AI generisanja videa
ShengShu Technology i Univerzitet Tsinghua predstavljaju TurboDiffusion, postižući 100-200 puta brže AI generisanje videa i uvodeći eru kreiranja u realnom vremenu.