LTX-2: натыўная генерацыя 4K відэа з ШІ на спажывецкіх GPU праз адкрыты код
Lightricks выпускае LTX-2 з натыўнай генерацыяй 4K-відэа і сінхранізаваным аудыё, прапаноўваючы адкрыты доступ на спажывецкім абсталяванні, у той час як канкурэнты застаюцца заблакаванымі за API, хоць і з важнымі кампрамісамі прадукцыйнасці.

LTX-2: натыўная генерацыя 4K відэа з ШІ на спажывецкіх GPU праз адкрыты код
Lightricks выпусціў LTX-2 у кастрычніку 2025, прадставіўшы натыўную генерацыю 4K-відэа з сінхранізаваным аудыё, якая працуе на спажывецкіх GPU. У той час як Sora 2 ад OpenAI і Veo 3.1 ад Google застаюцца заблакаванымі за API-доступам, LTX-2 ідзе іншым шляхам з планамі па поўным выпуску адкрытага коду.
Мадэль будуецца на арыгінальным LTX Video з лістапада 2024 і 13-мільярднай параметрычнай мадэлі LTXV з мая 2025, ствараючы сям'ю інструментаў генерацыі відэа, даступных для асобных крэатараў.
Эвалюцыя сям'і мадэляў LTX
Арыгінальнае LTX Video
Пяць секунд генерацыі відэа за дзве секунды на мацным абсталяванні. Базавая мадэль з раздзяляльнасцю 768×512.
LTXV 13B
Мадэль з 13 мільярдамі параметраў з паляпшанай якасцю і магчымасцямі
Выпуск LTX-2
Натыўная раздзяляльнасць 4K пры макс. 50 FPS з сінхранізаванай генерацыяй аудыё
Захаванне дэталяў лепшае—натыўная генерацыя падтрымлівае паслядоўную якасць пры руху. Без артэфактаў штучнай рэзкасці, якія пакутуюць апскейлінгаваныя кадры.
10-секундны кліп у 4K патрабуе 9-12 хвілін на RTX 4090, у параўнанні з 20-25 хвілінамі на RTX 3090. Час генерацыі значна павялічваецца пры больш высокіх раздзяляльнасцях.
# Спецыфікацыі сям'і мадэляў LTX
ltx_video_original = {
"resolution": "768x512", # Базавая мадэль
"max_duration": 5, # секунды
"fps": range(24, 31), # 24-30 FPS
"diffusion_steps": 20,
"h100_time": "4 секунды для 5-секунднага відэа",
"rtx4090_time": "11 секунд для 5-секунднага відэа"
}
ltx2_capabilities = {
"resolution": "да 3840x2160", # Натыўны 4K
"max_duration": 10, # секунды пацверджана, 60s эксперыментальна
"fps": "да 50",
"synchronized_audio": True,
"rtx4090_4k_time": "9-12 хвілін для 10 секунд"
}Тэхнічная архітэктура: дыфузійныя трансфарматары на практыцы
Уніфікаваны фрэймворк
LTX-Video рэалізуе дыфузійныя трансфарматары (DiT) для генерацыі відэа, інтэгруючы некалькі магчымасцяў—тэкст-у-відэа, выява-у-відэа і пашырэнне відэа—у рамках адзінага фрэймворку. Архітэктура апрацоўвае часавую інфармацыю двухнакіравана, дапамагаючы падтрымліваць паслядоўнасць па відэапаслядоўнасцях.
Аптымізаваная дыфузія
Мадэль працуе з 8-20 дыфузійнымі крокамі ў залежнасці ад патрабаванняў якасці. Меней крокаў (8) дазваляе хутчэй генераваць чарнавікі, у той час як 20-30 крокаў дае больш высокую якасць вываду. Не патрабуецца кіраўніцтва без класіфікатара—зніжэнне памяці і вылічэнняў.
Мультымадальнае абумоўленне
Падтрымлівае некалькі тыпаў уводу адначасова: тэкставыя промпты, выявы для перадачы стылю, некалькі ключавых кадраў для кантраляванай анімацыі і існуючае відэа для пашырэння.
Стратэгія адкрытага коду і даступнасць
Распрацоўка LTX-2 адлюстроўвае наўмысную стратэгію дэмакратызацыі відэа-ШІ. У той час як канкурэнты абмяжоўваюць доступ праз API, Lightricks прадастаўляе некалькі шляхоў доступу.
- ✓Рэпазітар GitHub: Поўны код рэалізацыі
- ✓Hugging Face Hub: Вагі мадэлі, сумяшчальныя з бібліятэкай Diffusers
- ✓Інтэграцыі платформ: Падтрымка Fal.ai, Replicate, ComfyUI
- ✓LTX Studio: Прамы браўзерны доступ для эксперыментаў
Этычныя навучальныя дадзеныя
Мадэлі былі навучаны на ліцэнзаваных наборах дадзеных ад Getty Images і Shutterstock, забяспечваючы камерцыйную жыццяздольнасць—важнае адрозненне ад мадэляў, навучаных на вэб-скрэплёных дадзеных з няяснымі аўтарскімі правамі.
# Выкарыстанне LTX-Video з бібліятэкай Diffusers
from diffusers import LTXVideoPipeline
import torch
# Ініцыялізацыя з аптымізацыяй памяці
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-Video",
torch_dtype=torch.float16
).to("cuda")
# Генерацыя з наладжвальнымі крокамі
video = pipe(
prompt="Паветраны выгляд на горны ландшафт на ўсходзе сонца",
num_inference_steps=8, # Хуткі рэжым чарнавіка
height=704,
width=1216,
num_frames=121, # ~4 секунды пры 30fps
guidance_scale=1.0 # CFG не патрабуецца
).framesПатрабаванні да абсталявання і рэальная прадукцыйнасць
Рэальная прадукцыйнасць моцна залежыць ад канфігурацыі абсталявання. Выберыце сваю наладу на аснове вашых канкрэтных патрэб і бюджэту.
GPU: RTX 3060, RTX 4060
- Магчымасць: Чарнавікі 720p-1080p пры 24-30 FPS
- Выкарыстанне: Прататыпаванне, кантэнт для сацыяльных сетак
- Абмежаванні: Не можа апрацоўваць генерацыю 4K
GPU: RTX 4090, A100
- Магчымасць: Натыўны 4K без кампрамісаў
- Прадукцыйнасць: 10-секундны 4K за 9-12 хвілін
- Выкарыстанне: Прадукцыйная работа, якая патрабуе максімальнай якасці
Праверка рэальнасці прадукцыйнасці▼
Базавая 768×512: 11 секунд на RTX 4090 (у параўнанні з 4 секундамі на H100)
Генерацыя 4K: Патрабуе дбайнага кіравання памяццю нават на мацных картах
Якасць супраць хуткасці: Карыстальнікі павінны выбіраць паміж хуткім вывадам нізкай раздзяляльнасці або павольным вывадам высокай раздзяляльнасці
Прасунутыя функцыі для крэатараў кантэнту
Магчымасці пашырэння відэа
LTX-2 падтрымлівае двухнакіраванае пашырэнне відэа, каштоўнае для платформаў, засяроджаных на маніпуляцыях кантэнтам:
# Прадукцыйны канвеер для пашырэння відэа
from ltx_video import LTXPipeline
pipeline = LTXPipeline(model="ltx-2", device="cuda")
# Генерацыя пачатковага сегмента
initial = pipeline.generate(
prompt="Робат даследуе старажытныя руіны",
resolution=(1920, 1080),
duration=5
)
# Пашырэнне з кіраўніцтвам ключавых кадраў
extended = pipeline.extend_video(
video=initial,
direction="forward",
keyframes=[
{"frame": 150, "prompt": "Робат выкрывае артэфакт"},
{"frame": 300, "prompt": "Артэфакт актывуецца"}
]
)Гэта магчымасць пашырэння добра супадае з платформамі маніпуляцыі відэа, такімі як Bonega.ai, дазваляючы пашыраць кантэнт з захаваннем візуальнай паслядоўнасці.
LTX-2 генеруе аудыё падчас стварэння відэа, а не як постапрацоўку. Мадэль выраўноўвае гук з візуальным рухам—хуткія рухі выклікаюць адпаведныя аудыёакцэнты, ствараючы натуральныя аудыявізуальныя сувязі без ручнай сінхранізацыі.
Аналіз бягучай канкурэнцыі (лістапад 2025)
- Адзіная адкрыты код мадэль з натыўным 4K
- Працуе на спажывецкім абсталяванні—без аплаты API
- Поўны лакальны кантроль і прыватнасць
- Наладжвальны для канкрэтных працоўных працэсаў
- Павольны час генерацыі ў параўнанні з воблачнымі рашэннямі
- Ніжэйшая базавая раздзяляльнасць (768×512) за канкурэнтаў
- Патрабуе значных лакальных інвестыцый у GPU
- Якасць пры 1080p не адпавядае Sora 2
OpenAI Sora 2
Выпушчана: 30 верасня 2025
- Відэа на 25 секунд з аудыё
- 1080p натыўнае, выдатная дэталізацыя
- Падпіска ChatGPT Pro
- Толькі воблачная апрацоўка
SoulGen 2.0
Выпушчана: 23 лістапада 2025
- Дакладнасць руху: MPJPE 42.3mm
- Візуальная якасць: SSIM 0.947
- Патрабуецца воблачная апрацоўка
Google Veo 3.1
Выпушчана: Кастрычнік 2025
- 8s база, пашыраецца да 60s+
- Высокая якасць на інфраструктуры TPU
- API-доступ з абмежаваннямі хуткасці
LTX-2
Выпушчана: Кастрычнік 2025
- Натыўны 4K пры 50 FPS
- Адкрыты код, працуе лакальна
- 10s база, эксперыментальна 60s
Практычныя меркаванні па рэалізацыі
- Прымяненні, крытычныя да прыватнасці, якія патрабуюць лакальнай апрацоўкі
- Неабмежаваная генерацыя без выдаткаў за выкарыстанне
- Карыстальніцкія працоўныя працэсы, якія патрабуюць мадыфікацыі мадэлі
- Даследаванні і эксперыменты
- Доўгатэрміновая прадукцыя з высокім аб'ёмам патрэб
- Прадукцыя з абмежаваннем часу, якая патрабуе хуткага абароту
- Праекты, якія патрабуюць паслядоўнай якасці 1080p+
- Абмежаваныя лакальныя рэсурсы GPU
- Разавая генерацыя, дзе выдаткі API прымальныя
- Патрэба ў неадкладнай карпаратыўнай падтрымцы
Уплыў экасістэмы адкрытага коду
Супольнасць інавацый
Мадэлі LTX параджалі шырокія супольнасць распрацовак, дэманструючы магутнасць адкрыты код ШІ.
- ✓Вузлы ComfyUI для візуальнага стварэння працоўных працэсаў
- ✓Тонка наладжаныя варыянты для канкрэтных стыляў і выпадкаў выкарыстання
- ✓Праекты аптымізацыі для AMD і Apple Silicon
- ✓Інтэграцыйныя бібліятэкі для розных моў праграмавання
Гэты рост экасістэмы дэманструе каштоўнасць выпуску адкрытага коду, нават калі поўныя вагі LTX-2 чакаюць публічнай даступнасці (тэрмін чакае афіцыйнага аб'явы).
Будучыя распрацоўкі і дарожная карта
Поўны выпуск вагаў
Поўныя вагі мадэлі LTX-2 для выкарыстання супольнасцю (дата не ўказана)
Пашыраныя магчымасці
Генерацыя больш за 10 секунд з паляпшанай эфектыўнасцю памяці для спажывецкіх GPU
Эвалюцыя, якую кіруе супольнасць
Мабільная аптымізацыя, папярэдні прагляд у рэжыме рэальнага часу, паляпшаны кантроль і спецыялізаваныя варыянты
Выснова: разуменне кампрамісаў
LTX-2 прапануе адметны падыход да генерацыі відэа з ШІ, прыярытэтызуючы даступнасць над пікавай прадукцыйнасцю. Для крэатараў і платформаў, якія працуюць з пашырэннем і маніпуляцыямі відэа, ён прадастаўляе каштоўныя магчымасці нягледзячы на абмежаванні.
- Поўны лакальны кантроль і прыватнасць
- Без абмежаванняў выкарыстання або перыядычных выдаткаў
- Наладжвальны для канкрэтных працоўных працэсаў
- Магчымасць натыўнай генерацыі 4K
- Гнуткасць адкрытага коду
- Час генерацыі вымяраецца хвілінамі, а не секундамі
- Базавая раздзяляльнасць ніжэйшая за канкурэнтаў
- Высокія патрабаванні VRAM для 4K
- Якасць пры 1080p не адпавядае Sora 2 або Veo 3.1
Рабім выбар
Выбар паміж мадэлямі LTX і ўласніцкімі альтэрнатывамі залежыць ад канкрэтных прыярытэтаў. Для эксперыментальнай работы, канфідэнцыйнага кантэнту або неабмежаваных патрэб генерацыі LTX-2 прадастаўляе непераўзыдзеную каштоўнасць. Для крытычнай па часе прадукцыі, якая патрабуе максімальнай якасці пры 1080p, воблачныя API могуць быць больш адпаведнымі.
Па меры сталення генерацыі відэа з ШІ у 2025 годзе мы бачым узнікненне здаровай экасістэмы з адкрытымі і закрытымі рашэннямі. Уклад LTX-2 палягае не ў перавышэнні ўласніцкіх мадэляў па кожнай метрыцы, а ў забеспячэнні таго, каб прафесійныя інструменты генерацыі відэа заставаліся даступнымі для ўсіх крэатараў, незалежна ад бюджэту або доступу да API. Гэтая дэмакратызацыя, нават з кампрамісамі, пашырае магчымасці для творчай экспрэсіі і тэхнічных інавацый у відэа-ШІ.
Гэты артыкул быў карысны?

Damien
Распрацоўнік ШІРаспрацоўнік ШІ з Ліёна, які любіць ператвараць складаныя канцэпцыі машыннага навучання ў простыя рэцэпты. Калі не адладжвае мадэлі, яго можна знайсці на веласіпедзе ў даліне Роны.
Звязаныя артыкулы
Працягвайце даследаванне з гэтымі звязанымі допісамі

NVIDIA CES 2026: Спажывецкая генерацыя 4K AI-відэа нарэшце тут
NVIDIA анансуе генерацыю 4K AI-відэа на базе RTX на CES 2026, прыносячы прафесійныя магчымасці на спажывецкія GPU з 3-кратным паскарэннем рэндэрынгу і 60% меншым выкарыстаннем VRAM.

Мадэлі відэа з адкрытым кодам нарэшце дагоняюць
Wan 2.2, HunyuanVideo 1.5 і Open-Sora 2.0 скарачаюць разрыў з прапрыетарнымі гігантамі. Вось што гэта азначае для стваральнікаў і прадпрыемстваў.

TurboDiffusion: прарыў у генерацыі відэа ў рэальным часе
ShengShu Technology і універсітэт Цінхуа прадставілі TurboDiffusion , паскарэнне генерацыі відэа ў 100-200 разоў і пераход да стварэння кантэнту ў рэальным часе.