Мадэлі відэа з адкрытым кодам нарэшце дагоняюць

Гадамі відэа з адкрытым кодам на аснове ШІ нагадвала з'яўленне на гонках суперкараў на веласіпедзе. Прапрыетарныя мадэлі ад OpenAI, Google і Runway дамінавалі ў кожным бенчмарку, пакуль адкрытыя альтэрнатывы змагаліся з базавай кагерэнтнасцю. Але нешта змянілася ў канцы 2025 года, і разрыў нарэшце, сапраўды, скарачаецца.

Новыя адкрытыя канкурэнты

Скажу прама: калі вы спрабавалі генерацыю відэа з адкрытым кодам год таму і здаліся ад расчаравання, прыйшоў час паспрабаваць зноў. Ландшафт цалкам змяніўся.

720p

Натыўная раздзяляльнасць

24fps

Частата кадраў

14GB

Мін. VRAM

Wan 2.2: Прарыў MoE

Wan 2.2 ад Alibaba заслугоўвае асаблівай увагі. Гэта першая мадэль відэа з адкрытым кодам, якая выкарыстоўвае архітэктуру Mixture-of-Experts, той самы падыход, які зрабіў GPT-4 такім магутным. Вынік? Натыўнае 720p пры 24fps на спажывецкіх картах RTX 4090, з магчымасцю 1080p праз ШІ-апскейлінг.

💡

Wan 2.2 навучаўся на 65% большай колькасці відарысаў і 83% большай колькасці відэа, чым яго папярэднік. Скачок у якасці бачны.

Мадэль спраўляецца з фізікай напрыклад добра, захоўваючы пастаянства аб'ектаў і ўзгодненасць гравітацыі, з якімі папярэднія адкрытыя мадэлі правальваліся. Яна не ідэальная, але дастаткова блізка, каб мець значэнне.

HunyuanVideo 1.5: Рабіць больш з меншым

Tencent абралі іншы падыход з HunyuanVideo 1.5. Замест павелічэння яны паменшылі, з 13 мільярдаў да 8,3 мільярда параметраў, пры гэтым неяк павялічыўшы хуткасць і якасць адначасова.

✓Моцныя бакі

Працуе на 14GB VRAM з афлоадынгам. Натыўная інтэграцыя аўдыё. Убудаваная сімуляцыя фізікі. Эфектыўная архітэктура.

✗Абмежаванні

Павольней за воблачныя альтэрнатывы. Патрабуе тэхнічнай наладкі. Менш адшліфавана, чым камерцыйныя інструменты.

Павышэнне эфектыўнасці важнае, таму што яно прыносіць сур'ёзную генерацыю відэа на наўтбукі і працоўныя станцыі, а не толькі ў дата-цэнтры.

Open-Sora 2.0: Эксперымент за $200K

Вось правакацыйная лічба: Open-Sora 2.0 навучаўся прыблізна за $200,000. Параўнайце гэта з сотнямі мільёнаў, выдаткаваных на прапрыетарныя мадэлі. Тым не менш, ён адпавядае якасці HunyuanVideo з 11 мільярдамі параметраў і нават кідае выклік гіганту Step-Video з 30 мільярдамі параметраў.

Код для навучання цалкам адкрыты. Вагі можна спампаваць. Архітэктура задакументавана. Гэта не даследчы прэв'ю, гэта гатовая да вытворчасці мадэль, якую вы можаце запусціць сёння.

Чаму разрыў скарачаецца

Тры сілы збліжаюцца:

Сярэдзіна 2025

Канвергенцыя архітэктуры

Адкрытыя мадэлі прынялі архітэктуры diffusion transformer, дагнаўшы прапрыетарныя інавацыі.

Канец 2025

Эфектыўнасць навучання

Новыя тэхнікі, такія як MoE і sparse attention, рэзка знізілі патрабаванні да вылічэнняў.

Пачатак 2026

Імпульс супольнасці

ComfyUI воркфлоў, кіраўніцтвы па файн-цьюнінгу і інструменты аптымізацыі хутка сталелі.

Патэрн адлюстроўвае тое, што адбылося з LTX-2, які прынёс 4K на спажывецкія GPU, але ў большым маштабе.

Практычная рэальнасць

Буду шчырым пра тое, што насамрэч азначае "дагоняць":

Аспект	Адкрыты код	Прапрыетарны
Пікавая якасць	85-90%	100%
Хуткасць генерацыі	2-5 хвілін	10-30 секунд
Прастата выкарыстання	Тэхнічная наладка	Адзін клік у вэбе
Кошт за відэа	Бясплатна (пасля абсталявання)	$0.10-$2.00
Наладка	Неабмежаваная	Абмежаваная

Адкрыты код усё яшчэ адстае па чыстай якасці і хуткасці. Але для многіх выпадкаў выкарыстання гэты разрыў больш не мае значэння.

💡

Для большага кантэксту пра тое, як гэтыя мадэлі параўноўваюцца з камерцыйнымі варыянтамі, глядзіце наша дэталёвае параўнанне Sora 2, Runway і Veo 3.

Каму варта звярнуць увагу?

🎨

Незалежныя стваральнікі

Генеруйце неабмежаваную колькасць відэа без кошту падпіскі. Навучайце на ўласным стылі.

🏢

Карпаратыўныя каманды

Разгортвайце лакальна для адчувальнага кантэнту. Ніякія дадзеныя не пакідаюць вашы серверы.

🔬

Даследчыкі

Поўны доступ да вагаў і архітэктуры. Мадыфікуйце, эксперыментуйце, публікуйце.

🎮

Распрацоўшчыкі гульняў

Генеруйце кацсцэны і асеты лакальна. Інтэгруйце ў пайплайны.

Прагноз на шэсць месяцаў

На аснове бягучых траекторый я чакаю:

✓Генерацыя менш чым за 10 секунд стане стандартам да Q2 2026
✓Прататыпы генерацыі ў рэальным часе з'явяцца ў сярэдзіне года
○Парытэт якасці з прапрыетарнымі мадэлямі (яшчэ 12-18 месяцаў)
✓Масавае прыняцце ComfyUI паскорыцца

Архітэктура diffusion transformer, якая рухае гэтымі мадэлямі, працягвае паляпшацца. Кожны месяц прыносіць новыя аптымізацыі, новыя тэхнікі навучання, новыя павышэнні эфектыўнасці.

Як пачаць

Калі вы хочаце паспрабаваць гэтыя мадэлі самі:

Wan 2.2: Патрабуе RTX 4090 або эквівалент. Даступны на GitHub з ComfyUI нодамі.
HunyuanVideo 1.5: Працуе на 14GB+ VRAM. Інтэграцыя Hugging Face даступная.
Open-Sora 2.0: Поўны код для навучання і інферэнсу на GitHub.

⚠️

Гэтыя мадэлі патрабуюць тэхнічнага камфорту з Python, CUDA і загрузкай мадэляў. Яны пакуль не з'яўляюцца рашэннямі ў адзін клік.

Шырэйшая карціна

Што мяне найбольш захапляе, гэта не тое, дзе відэа з адкрытым кодам знаходзіцца сёння, а тое, куды яно рухаецца. Кожны прарыў у сімуляцыі фізікі і натыўнай генерацыі аўдыё у рэшце рэшт перацякае ў адкрытыя мадэлі.

Дэмакратызацыя рэальная. Інструменты даступныя. Разрыў скарачаецца.

Для стваральнікаў, якіх выключылі з прэміум-падпісак на ШІ-відэа, для прадпрыемстваў, якім патрэбны лакальныя рашэнні, для даследчыкаў, якія рассоўваюць межы магчымага, гэта момант, каб звярнуць увагу.

Веласіпед становіцца матацыклам. І гонкі суперкараў сталі значна цікавейшымі.