Alibaba Wan2.6: Рэферэнснае відэа змяшчае ваш твар у свет, створаны ІІ

Забудзьце пра агульныя аватары ІІ. Alibaba толькі што выпусціла Wan2.6, і яе галоўная функцыя дазваляе ўставіць сябе ў відэа, згенераванае ІІ, выкарыстоўваючы толькі рэферэнсную выяву або галасавы кліп. Магчымасці сапраўды ўражлівыя.

Рэферэнсная рэвалюцыя

Text-to-video быў стандартнай парадыгмай з першых дзён генерацыі відэа ІІ. Вы ўводзіце промпт, атрымліваеце відэа. Проста, але абмежавана. Вы не можаце зрабіць відэа з сабой без шырокай тонкай налады або трэніроўкі LoRA.

Wan2.6 цалкам змяняе гэтае раўнанне.

💡

Reference-to-video азначае, што ІІ выкарыстоўвае вашу рэальную знешнасць, голас або абодва як умоўныя ўваходы разам з тэкставымі промптамі. Вы становіцеся персанажам у генерацыі, а не дадаткам.

Выпушчаная 16 снежня 2025 года, Wan2.6 прадстаўляе актыўны рух Alibaba ў прастору відэа ІІ. Мадэль даступная ў некалькіх памерах (1.3B і 14B параметраў) і прадстаўляе тры асноўныя магчымасці, якія вылучаюць яе сярод канкурэнтаў.

Што насамрэч робіць Wan2.6

14B

Параметры

720p

Родная раздзяляльнасць

5-10s

Даўжыня відэа

Мадэль працуе ў трох розных рэжымах:

📝

Text-to-Video

Стандартная генерацыя на аснове промптаў з палепшанай якасцю руху і часавой узгодненасцю.

🖼️

Image-to-Video

Ажыўленне любой статычнай выявы ў паслядоўную відэапаслядоўнасць.

👤

Reference-to-Video

Выкарыстанне вашай знешнасці як пастаяннага персанажа ва ўсім згенераваным кантэнце.

Магчымасць reference-to-video - гэта тое, дзе справы становяцца цікавымі. Загрузіце выразную фатаграфію сябе (або любога суб'екта), і Wan2.6 здабывае рысы ідэнтычнасці, якія захоўваюцца на працягу ўсёй згенераванай паслядоўнасці. Ваш твар застаецца вашым тварам, нават калі ІІ стварае цалкам новыя сцэнары вакол яго.

Тэхнічны падыход

Wan2.6 выкарыстоўвае варыянт архітэктуры дыфузійнага трансформера, якая стала стандартам у вядучых мадэлях 2025 года. Але рэалізацыя Alibaba ўключае спецыялізаваныя ўбудаванні для захавання ідэнтычнасці, падобныя да таго, што мы даследавалі ў нашым глыбокім аналізе ўзгодненасці персанажаў.

💡

Рэферэнснае ўмоўванне працуе праз механізмы крос-увагі, якія ўводзяць інфармацыю аб ідэнтычнасці на многіх узроўнях працэсу генерацыі. Гэта захоўвае стабільнасць рысаў твару, дазваляючы ўсяму астатняму змяняцца натуральна.

Галасавы кампанент выкарыстоўвае асобны аўдыякодэр, які захоплівае вашы вакальныя характарыстыкі: тэмбр, патэрны вышыні тону і рытм маўлення. У спалучэнні з візуальным рэферэнсам вы атрымліваеце сінхранізаваны аўдыявізуальны вынік, які сапраўды гучыць і выглядае як вы.

Гэты падыход адрозніваецца ад стратэгіі сусветнай мадэлі Runway, якая сканцэнтравана на сімуляцыі фізікі і ўзгодненасці навакольнага асяроддзя. Wan2.6 аддае прыярытэт захаванню ідэнтычнасці над дакладнасцю навакольнага асяроддзя, што з'яўляецца разумным кампрамісам для яе мэтавага выпадку выкарыстання.

Адкрыты зыходны код мае значэнне

Магчыма, самым важным аспектам Wan2.6 з'яўляецца тое, што Alibaba выпусціла яе як праграму з адкрытым зыходным кодам. Вагі даступныя для спампоўкі, што азначае, што вы можаце запусціць гэта лакальна на адпаведным абсталяванні.

✓Wan2.6 (Адкрыты)

Запуск лакальна, без выдаткаў на API, поўны кантроль над вашымі дадзенымі

✗Sora 2 / Veo 3 (Закрыты)

Толькі API, плата за генерацыю, дадзеныя адпраўляюцца трэцім бакам

Гэта працягвае тэндэнцыю, якую мы асвятлялі ў рэвалюцыі відэа ІІ з адкрытым зыходным кодам, дзе кітайскія кампаніі выпускаюць магутныя мадэлі, якія працуюць на спажывецкім абсталяванні. Версія 14B патрабуе значнай VRAM (24GB+), але варыянт 1.3B можа працаваць на RTX 4090.

Практычныя выпадкі выкарыстання

Reference-to-video адкрывае сцэнары, якія раней былі немагчымымі або непамерна дарагімі.

✓Персаналізаваны маркетынгавы кантэнт у маштабе
✓Стварэнне ўласнага аватара без студыйных сесій
✓Хуткае прататыпаванне для відэаканцэпцый
✓Даступнасць: аватары мовы жэстаў, персаналізаванае навучанне

Уявіце сабе стварэнне дэманстрацыйнага відэа прадукту з вамі ў галоўнай ролі, ніколі не стоячы перад камерай. Або генерацыю навучальнага кантэнту, дзе інструктар - гэта рэферэнсна-ўмоўленая версія вашага CEO. Прымяненні выходзяць далёка за межы навізны.

Праблема прыватнасці

Давайце звернемся да відавочнай праблемы: гэтая тэхналогія можа быць злоўжыта для дыпфейкаў.

Alibaba рэалізавала некаторыя ахоўныя меры. Мадэль уключае вадзяныя знакі, падобныя да падыходу SynthID ад Google, а ўмовы абслугоўвання забараняюць выкарыстанне без згоды. Але гэта хутчэй запавольвальнікі, чым бар'еры.

⚠️

Тэхналогія reference-to-video патрабуе адказнага выкарыстання. Заўсёды атрымлівайце згоду перад выкарыстаннем знешнасці іншага чалавека і будзьце празрыстымі наконт кантэнту, створанага ІІ.

Джын выпушчаны з бутэлькі. Шматлікія мадэлі цяпер прапануюць генерацыю з захаваннем ідэнтычнасці, і адкрытая прырода Wan2.6 азначае, што кожны можа атрымаць доступ да гэтай магчымасці. Размова перайшла ад "ці павінна гэта існаваць" да "як мы адносімся да гэтага адказна".

Параўнанне

Wan2.6 выходзіць на перапоўнены рынак. Вось як яна суадносіцца з вядучымі канкурэнтамі снежня 2025 года.

Мадэль	Reference-to-Video	Адкрыты код	Роднае аўдыя	Макс. даўжыня
Wan2.6	✅	✅	✅	10s
Runway Gen-4.5	Абмежавана	❌	✅	15s
Sora 2	❌	❌	✅	60s
Veo 3	❌	❌	✅	120s
LTX-2	❌	✅	✅	10s

Wan2.6 абменьвае даўжыню на захаванне ідэнтычнасці. Калі вам патрэбны 60-секундныя кліпы, Sora 2 па-ранейшаму лепшы выбар. Але калі вам патрэбна, каб у гэтых кліпах паслядоўна прысутнічаў пэўны чалавек, Wan2.6 прапануе тое, чаго не маюць закрытыя мадэлі.

Шырэйшая карціна

Reference-to-video прадстаўляе змену ў тым, як мы думаем пра генерацыю відэа ІІ. Пытанне больш не толькі "што павінна адбыцца ў гэтым відэа", але і "хто павінен быць у ім".

Гэта ўзровень персаналізацыі, якога не хапала text-to-video. Агульныя аватары ІІ адчуваліся як стокавыя кадры. Персанажы, умоўленыя па рэферэнсе, адчуваюцца як вы.

У спалучэнні з роднай генерацыяй аўдыя і паляпшэннем узгодненасці персанажаў, мы набліжаемся да будучыні, дзе для стварэння прафесійнага відэакантэнту патрабуецца толькі фота з вэбкамеры і тэкставы промпт.

Alibaba робіць стаўку на тое, што генерацыя з прыярытэтам ідэнтычнасці - гэта наступны рубеж. Паколькі Wan2.6 цяпер з адкрытым зыходным кодам і працуе на спажывецкім абсталяванні, мы хутка даведаемся, ці маюць яны рацыю.

💡

Дадатковае чытанне: Для параўнання вядучых мадэляў відэа ІІ глядзіце наша параўнанне Sora 2 vs Runway vs Veo 3. Каб зразумець базавую архітэктуру, прачытайце Дыфузійныя трансформеры ў 2025.