LTX-2: generació de vídeo IA 4K natiu en GPUs de consum a través del codi obert
Lightricks llança LTX-2 amb generació de vídeo 4K natiu i àudio sincronitzat, oferint accés de codi obert en maquinari de consum mentre els competidors romanen bloquejats per API, tot i que amb compromisos importants de rendiment.

LTX-2: generació de vídeo IA 4K natiu en GPUs de consum a través del codi obert
Lightricks va llançar LTX-2 a l'octubre de 2025, introduint generació de vídeo 4K natiu amb àudio sincronitzat que funciona en GPUs de consum. Mentre que Sora 2 d'OpenAI i Veo 3.1 de Google romanen bloquejats darrere accés API, LTX-2 pren un camí diferent amb plans per a llançament complet de codi obert.
El model es construeix sobre l'LTX Video original de novembre de 2024 i el model LTXV de 13 mil milions de paràmetres de maig de 2025, creant una família d'eines de generació de vídeo accessibles per a creadors individuals.
L'evolució de la família de models LTX
LTX Video original
Cinc segons de generació de vídeo en dos segons en maquinari d'alt rendiment. Model base a resolució 768×512.
LTXV 13B
Model de 13 mil milions de paràmetres amb qualitat i capacitats millorades
Llançament LTX-2
Resolució 4K nativa a fins a 50 FPS amb generació d'àudio sincronitzat
La preservació de detalls és superior: la generació nativa manté una qualitat consistent al llarg del moviment. Sense artefactes d'afilat artificial que afecten el metratge upscalat.
Un clip 4K de 10 segons requereix 9-12 minuts en RTX 4090, comparat amb 20-25 minuts en RTX 3090. Els temps de generació augmenten substancialment a resolucions més altes.
# Especificacions de la família de models LTX
ltx_video_original = {
"resolution": "768x512", # Model base
"max_duration": 5, # segons
"fps": range(24, 31), # 24-30 FPS
"diffusion_steps": 20,
"h100_time": "4 segons per vídeo de 5 segons",
"rtx4090_time": "11 segons per vídeo de 5 segons"
}
ltx2_capabilities = {
"resolution": "fins a 3840x2160", # 4K natiu
"max_duration": 10, # segons confirmats, 60s experimental
"fps": "fins a 50",
"synchronized_audio": True,
"rtx4090_4k_time": "9-12 minuts per 10 segons"
}Arquitectura tècnica: Transformers de difusió en pràctica
Marc unificat
LTX-Video implementa Transformers de Difusió (DiT) per a generació de vídeo, integrant múltiples capacitats, text-a-vídeo, imatge-a-vídeo i extensió de vídeo, dins d'un únic marc. L'arquitectura processa informació temporal bidireccionalment, ajudant a mantenir la consistència a través de seqüències de vídeo.
Difusió optimitzada
El model opera amb 8-20 passos de difusió segons els requisits de qualitat. Menys passos (8) permeten generació més ràpida per a esborranys, mentre que 20-30 passos produeixen sortida de major qualitat. No es necessita guia lliure de classificador, reduint memòria i càlcul.
Condicionament multi-modal
Suporta múltiples tipus d'entrada simultàniament: prompts de text, entrades d'imatge per a transferència d'estil, múltiples fotogrames clau per a animació controlada i vídeo existent per a extensió.
Estratègia de codi obert i accessibilitat
El desenvolupament de LTX-2 reflecteix una estratègia deliberada per democratitzar l'IA de vídeo. Mentre els competidors restringeixen l'accés a través d'APIs, Lightricks proporciona múltiples camins d'accés.
- ✓Repositori GitHub: Codi d'implementació complet
- ✓Hugging Face Hub: Pesos de model compatibles amb la biblioteca Diffusers
- ✓Integracions de plataforma: Suport per a Fal.ai, Replicate, ComfyUI
- ✓LTX Studio: Accés directe des del navegador per a experimentació
Dades d'entrenament ètiques
Els models es van entrenar amb conjunts de dades amb llicència de Getty Images i Shutterstock, assegurant viabilitat comercial, una distinció important respecte als models entrenats amb dades raspades de la web amb estat de copyright poc clar.
# Utilitzant LTX-Video amb la biblioteca Diffusers
from diffusers import LTXVideoPipeline
import torch
# Inicialitzar amb optimització de memòria
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-Video",
torch_dtype=torch.float16
).to("cuda")
# Generar amb passos configurables
video = pipe(
prompt="Vista aèria de paisatge de muntanya a l'alba",
num_inference_steps=8, # Mode esborrany ràpid
height=704,
width=1216,
num_frames=121, # ~4 segons a 30fps
guidance_scale=1.0 # No es necessita CFG
).framesRequisits de maquinari i rendiment real
El rendiment real depèn molt de la configuració del maquinari. Tria la teva configuració basant-te en les teves necessitats específiques i pressupost.
GPUs: RTX 3060, RTX 4060
- Capacitat: Esborranys 720p-1080p a 24-30 FPS
- Cas d'ús: Prototipat, contingut per a xarxes socials
- Limitacions: No pot gestionar generació 4K
GPUs: RTX 4090, A100
- Capacitat: 4K natiu sense compromisos
- Rendiment: 10 segons 4K en 9-12 minuts
- Cas d'ús: Treball de producció que requereix màxima qualitat
Verificació de realitat del rendiment▼
- Base 768×512: 11 segons en RTX 4090 (comparat amb 4 segons en H100)
- Generació 4K: Requereix gestió acurada de memòria fins i tot en targetes d'alt rendiment
- Qualitat vs velocitat: Els usuaris han de triar entre sortida de baixa resolució ràpida o sortida d'alta resolució lenta
Característiques avançades per a creadors de contingut
Capacitats d'extensió de vídeo
LTX-2 suporta extensió de vídeo bidireccional, valuós per a plataformes enfocades en manipulació de contingut:
# Pipeline de producció per a extensió de vídeo
from ltx_video import LTXPipeline
pipeline = LTXPipeline(model="ltx-2", device="cuda")
# Generar segment inicial
initial = pipeline.generate(
prompt="Robot explorant ruïnes antigues",
resolution=(1920, 1080),
duration=5
)
# Estendre amb guia de fotogrames clau
extended = pipeline.extend_video(
video=initial,
direction="forward",
keyframes=[
{"frame": 150, "prompt": "Robot descobreix artefacte"},
{"frame": 300, "prompt": "L'artefacte s'activa"}
]
)Aquesta capacitat d'extensió s'alinea bé amb plataformes de manipulació de vídeo com Lengthen.ai, permetent l'expansió de contingut mantenint la consistència visual.
LTX-2 genera àudio durant la creació del vídeo en lloc de com a post-processament. El model alinea el so amb el moviment visual: els moviments ràpids activen accents d'àudio corresponents, creant relacions audiovisuals naturals sense sincronització manual.
Anàlisi de competència actual (novembre 2025)
- Únic model de codi obert amb 4K natiu
- Funciona en maquinari de consum, sense tarifes d'API
- Control local complet i privacitat
- Personalitzable per a fluxos de treball específics
- Temps de generació més lents que les solucions al núvol
- Resolució base (768×512) més baixa que els competidors
- Requereix inversió significativa en GPU local
- Qualitat a 1080p no iguala Sora 2
OpenAI Sora 2
Llançat: 30 de setembre de 2025
- Vídeos de 25 segons amb àudio
- 1080p natiu, excel·lent detall
- Subscripció ChatGPT Pro
- Només processament al núvol
SoulGen 2.0
Llançat: 23 de novembre de 2025
- Precisió de moviment: MPJPE 42.3mm
- Qualitat visual: SSIM 0.947
- Processament al núvol requerit
Google Veo 3.1
Llançat: octubre 2025
- 8s base, extensible a 60s+
- Alta qualitat en infraestructura TPU
- Accés API amb límits de tarifa
LTX-2
Llançat: octubre 2025
- 4K natiu a 50 FPS
- Codi obert, funciona localment
- 10s base, 60s experimental
Consideracions pràctiques d'implementació
- Aplicacions crítiques per privacitat que requereixen processament local
- Generació il·limitada sense costos per ús
- Fluxos de treball personalitzats que necessiten modificació del model
- Recerca i experimentació
- Producció a llarg termini amb necessitats d'alt volum
- Producció sensible al temps que requereix lliurament ràpid
- Projectes que necessiten qualitat consistent 1080p+
- Recursos de GPU local limitats
- Generacions puntuals on els costos d'API són acceptables
- Necessitat de suport empresarial immediat
L'impacte de l'ecosistema de codi obert
Innovació de la comunitat
Els models LTX han generat desenvolupaments comunitaris extensos, demostrant el poder de l'IA de codi obert.
- ✓Nodes ComfyUI per a creació de fluxos de treball visuals
- ✓Variants ajustades per a estils i casos d'ús específics
- ✓Projectes d'optimització per a AMD i Apple Silicon
- ✓Biblioteques d'integració per a diversos llenguatges de programació
Aquest creixement de l'ecosistema demostra el valor del llançament de codi obert, fins i tot mentre els pesos complets de LTX-2 esperen disponibilitat pública (cronologia pendent d'anunci oficial).
Desenvolupaments futurs i full de ruta
Llançament complet de pesos
Pesos complets del model LTX-2 per a ús de la comunitat (data no especificada)
Capacitats esteses
Generació més enllà de 10 segons amb eficiència de memòria millorada per a GPUs de consum
Evolució impulsada per la comunitat
Optimització mòbil, previsualitzacions en temps real, controls millorats i variants especialitzades
Conclusió: entenent els compromisos
LTX-2 ofereix un enfocament diferent per a la generació de vídeo amb IA, prioritzant l'accessibilitat sobre el rendiment màxim. Per a creadors i plataformes que treballen amb extensió i manipulació de vídeo, proporciona capacitats valuoses malgrat les limitacions.
- Control local complet i privacitat
- Sense límits d'ús ni costos recurrents
- Personalitzable per a fluxos de treball específics
- Capacitat de generació 4K nativa
- Flexibilitat de codi obert
- Temps de generació mesurats en minuts, no segons
- Resolució base més baixa que els competidors
- Alts requisits de VRAM per a 4K
- Qualitat a 1080p no iguala Sora 2 o Veo 3.1
Prenent la decisió
L'elecció entre models LTX i alternatives propietàries depèn de prioritats específiques. Per a treball experimental, contingut sensible a la privacitat o necessitats de generació il·limitada, LTX-2 proporciona un valor inigualable. Per a producció crítica en temps que requereix màxima qualitat a 1080p, les APIs al núvol poden ser més apropiades.
A mesura que la generació de vídeo amb IA madura el 2025, estem veient emergir un ecosistema saludable amb solucions tant obertes com tancades. La contribució de LTX-2 no rau en superar els models propietaris en cada mètrica, sinó en assegurar que les eines professionals de generació de vídeo romanguin accessibles per a tots els creadors, independentment del pressupost o accés a API. Aquesta democratització, fins i tot amb compromisos, expandeix les possibilitats per a l'expressió creativa i la innovació tècnica en IA de vídeo.
T'ha resultat útil aquest article?

Damien
Desenvolupador d'IADesenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.
Articles relacionats
Continua explorant amb aquests articles relacionats

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.

TurboDiffusion: L'avenç de generació de vídeo amb IA en temps real
ShengShu Technology i la Universitat Tsinghua presenten TurboDiffusion, aconseguint generació de vídeo amb IA 100-200x més ràpida i iniciant l'era de la creació en temps real.

Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA
L'últim model de vídeo IA d'Alibaba introdueix la generació de referència a vídeo, que et permet utilitzar la teva pròpia aparença i veu en contingut creat per IA. Aquí tens què significa això per als creadors.