LTX-2: нативна 4K ШІ-генерація відео на споживчих GPU через відкритий код
Lightricks випускає LTX-2 з нативною 4K генерацією відео та синхронізованим аудіо, пропонуючи відкритий доступ на споживчому обладнанні, поки конкуренти залишаються заблокованими за API, хоча з важливими компромісами продуктивності.

LTX-2: нативна 4K ШІ-генерація відео на споживчих GPU через відкритий код
Модель будується на оригінальному LTX Video від листопада 2024 та 13-мільярдній LTXV-моделі від травня 2025, створюючи родину інструментів генерації відео, доступних індивідуальним творцям.
Еволюція родини моделей LTX
Оригінальне LTX Video
П'ять секунд генерації відео за дві секунди на топовому обладнанні. Базова модель з роздільністю 768×512.
LTXV 13B
13-мільярдна модель з покращеною якістю та можливостями
Випуск LTX-2
Нативна 4K роздільність до 50 FPS з синхронізованою генерацією аудіо
Збереження деталей перевершує — нативна генерація підтримує постійну якість протягом руху. Немає артефактів штучної різкості, що переслідують апскейлені кадри.
10-секундний 4K кліп вимагає 9-12 хвилин на RTX 4090, порівняно з 20-25 хвилинами на RTX 3090. Час генерації значно зростає на вищих роздільностях.
# Специфікації родини моделей LTX
ltx_video_original = {
"resolution": "768x512", # Базова модель
"max_duration": 5, # секунди
"fps": range(24, 31), # 24-30 FPS
"diffusion_steps": 20,
"h100_time": "4 секунди для 5-секундного відео",
"rtx4090_time": "11 секунд для 5-секундного відео"
}
ltx2_capabilities = {
"resolution": "до 3840x2160", # Нативний 4K
"max_duration": 10, # секунди підтверджено, 60s експериментально
"fps": "до 50",
"synchronized_audio": True,
"rtx4090_4k_time": "9-12 хвилин для 10 секунд"
}Технічна архітектура: дифузійні трансформери на практиці
Уніфікований фреймворк
Оптимізована дифузія
Модель працює з 8-20 дифузійними кроками залежно від вимог якості. Менше кроків (8) дозволяє швидшу генерацію для чернеток, тоді як 20-30 кроків виробляють вищу якість. Не потрібне керівництво без класифікатора — зменшуючи пам'ять та обчислення.
Мультимодальне обумовлення
Підтримує кілька типів входів одночасно: текстові промпти, зображення для перенесення стилю, кілька ключових кадрів для контрольованої анімації та існуюче відео для подовження.
Стратегія відкритого коду та доступність
- ✓GitHub репозиторій: Повний код реалізації
- ✓Hugging Face Hub: Ваги моделі, сумісні з бібліотекою Diffusers
- ✓Інтеграції платформ: Підтримка Fal.ai, Replicate, ComfyUI
- ✓LTX Studio: Прямий браузерний доступ для експериментів
Етичні тренувальні дані
# Використання LTX-Video з бібліотекою Diffusers
from diffusers import LTXVideoPipeline
import torch
# Ініціалізація з оптимізацією пам'яті
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-Video",
torch_dtype=torch.float16
).to("cuda")
# Генерація з налаштовуваними кроками
video = pipe(
prompt="Аерозйомка гірського ландшафту на світанку",
num_inference_steps=8, # Режим швидкої чернетки
height=704,
width=1216,
num_frames=121, # ~4 секунди при 30fps
guidance_scale=1.0 # CFG не потрібен
).framesВимоги до обладнання та реальна продуктивність
GPU: RTX 3060, RTX 4060
- Можливість: 720p-1080p чернетки на 24-30 FPS
- Випадок використання: Прототипування, контент соцмереж
- Обмеження: Не може обробити 4K генерацію
GPU: RTX 4090, A100
- Можливість: Нативний 4K без компромісів
- Продуктивність: 10-секундний 4K за 9-12 хвилин
- Випадок використання: Виробнича робота, що вимагає максимальної якості
Перевірка реальності продуктивності▼
- 768×512 базовий: 11 секунд на RTX 4090 (порівняно з 4 секундами на H100)
- 4K генерація: Вимагає ретельного управління пам'яттю навіть на топових картах
- Якість проти швидкості: Користувачі повинні вибирати між швидкою низькою роздільністю або повільною високою роздільністю
Розширені функції для творців контенту
Можливості подовження відео
LTX-2 підтримує двонаправлене подовження відео, цінне для платформ, що фокусуються на маніпуляції контентом:
# Виробничий конвеєр для подовження відео
from ltx_video import LTXPipeline
pipeline = LTXPipeline(model="ltx-2", device="cuda")
# Генерація початкового сегмента
initial = pipeline.generate(
prompt="Робот досліджує стародавні руїни",
resolution=(1920, 1080),
duration=5
)
# Подовження з керівництвом ключовими кадрами
extended = pipeline.extend_video(
video=initial,
direction="forward",
keyframes=[
{"frame": 150, "prompt": "Робот знаходить артефакт"},
{"frame": 300, "prompt": "Артефакт активується"}
]
)Ця можливість подовження добре узгоджується з платформами маніпуляції відео, як Bonega.ai, дозволяючи розширення контенту зі збереженням візуальної консистентності.
Аналіз поточної конкуренції (листопад 2025)
- Єдина відкрита модель з нативним 4K
- Працює на споживчому обладнанні — без API-плат
- Повний локальний контроль та приватність
- Налаштовується для конкретних робочих процесів
- Повільніші часи генерації, ніж хмарні рішення
- Нижча базова роздільність (768×512), ніж конкуренти
- Вимагає значних інвестицій у локальний GPU
- Якість на 1080p не відповідає Sora 2
OpenAI Sora 2
Випущено: 30 вересня 2025
- 25-секундні відео з аудіо
- 1080p нативний, чудові деталі
- Підписка ChatGPT Pro
- Лише хмарна обробка
SoulGen 2.0
Випущено: 23 листопада 2025
- Точність руху: MPJPE 42.3mm
- Візуальна якість: SSIM 0.947
- Вимагає хмарної обробки
Google Veo 3.1
Випущено: жовтень 2025
- 8s база, розширюється до 60s+
- Висока якість на TPU-інфраструктурі
- API-доступ з обмеженнями
LTX-2
Випущено: жовтень 2025
- Нативний 4K на 50 FPS
- Відкритий код, працює локально
- 10s база, експериментально 60s
Практичні міркування щодо реалізації
- Критична приватність застосунки, що вимагають локальної обробки
- Необмежена генерація без плат за використання
- Користувацькі робочі процеси, що потребують модифікації моделі
- Дослідження та експерименти
- Довгострокове виробництво з високими об'ємами
- Чутливе до часу виробництво, що вимагає швидкого обороту
- Проєкти, що потребують постійної якості 1080p+
- Обмежені локальні GPU-ресурси
- Одноразові генерації, де витрати API прийнятні
- Потреба в негайній корпоративній підтримці
Вплив екосистеми відкритого коду
Інновація спільноти
- ✓ComfyUI ноди для візуального створення робочих процесів
- ✓Донавчені варіанти для конкретних стилів та випадків використання
- ✓Проєкти оптимізації для AMD та Apple Silicon
- ✓Бібліотеки інтеграції для різних мов програмування
Майбутні розробки та дорожня карта
Повний реліз ваг
Повні ваги моделі LTX-2 для використання спільнотою (дата не вказана)
Розширені можливості
Генерація понад 10 секунд з покращеною ефективністю пам'яті для споживчих GPU
Еволюція, керована спільнотою
Мобільна оптимізація, прев'ю в реальному часі, покращені контролі та спеціалізовані варіанти
Висновок: розуміння компромісів
- Повний локальний контроль та приватність
- Без обмежень використання чи регулярних витрат
- Налаштовується для конкретних робочих процесів
- Можливість нативної 4K генерації
- Гнучкість відкритого коду
- Час генерації вимірюється в хвилинах, не секундах
- Базова роздільність нижча, ніж конкуренти
- Високі вимоги VRAM для 4K
- Якість на 1080p не відповідає Sora 2 чи Veo 3.1
Робимо вибір
Ця стаття була корисною?

Damien
Розробник ШІРозробник ШІ з Ліона, який любить перетворювати складні концепції машинного навчання на прості рецепти. Коли не налагоджує моделі, ви знайдете його на велосипеді в долині Рони.
Схожі статті
Продовжуйте дослідження з цими схожими публікаціями

NVIDIA CES 2026: Споживча генерація 4K AI-відео нарешті тут
NVIDIA анонсує генерацію 4K AI-відео на базі RTX на CES 2026, переносячи професійні можливості на споживчі GPU з 3-кратним прискоренням рендерингу та 60% меншим використанням VRAM.

Відкриті моделі ШІ-відео нарешті наздоганяють лідерів
Wan 2.2, HunyuanVideo 1.5 та Open-Sora 2.0 скорочують розрив з пропрієтарними гігантами. Що це означає для творців контенту та бізнесу.

Kandinsky 5.0: Російська відповідь у відкритій генерації відео за допомогою ШІ
Kandinsky 5.0 забезпечує генерацію 10-секундного відео на споживчих GPU з ліцензією Apache 2.0. Ми розглянемо, як механізми NABLA attention та flow matching роблять це можливим.