Meta Pixel
HenryHenry
5 min read
956 слоў

Alibaba Wan2.6: Рэферэнснае відэа змяшчае ваш твар у свет, створаны ІІ

Новая мадэль відэа ІІ ад Alibaba прадстаўляе генерацыю відэа па рэферэнсе, дазваляючы выкарыстоўваць вашу ўласную знешнасць і голас у кантэнце, створаным ІІ. Вось што гэта азначае для стваральнікаў кантэнту.

Alibaba Wan2.6: Рэферэнснае відэа змяшчае ваш твар у свет, створаны ІІ

Забудзьце пра агульныя аватары ІІ. Alibaba толькі што выпусціла Wan2.6, і яе галоўная функцыя дазваляе ўставіць сябе ў відэа, згенераванае ІІ, выкарыстоўваючы толькі рэферэнсную выяву або галасавы кліп. Магчымасці сапраўды ўражлівыя.

Рэферэнсная рэвалюцыя

Text-to-video быў стандартнай парадыгмай з першых дзён генерацыі відэа ІІ. Вы ўводзіце промпт, атрымліваеце відэа. Проста, але абмежавана. Вы не можаце зрабіць відэа з сабой без шырокай тонкай налады або трэніроўкі LoRA.

Wan2.6 цалкам змяняе гэтае раўнанне.

💡

Reference-to-video азначае, што ІІ выкарыстоўвае вашу рэальную знешнасць, голас або абодва як умоўныя ўваходы разам з тэкставымі промптамі. Вы становіцеся персанажам у генерацыі, а не дадаткам.

Выпушчаная 16 снежня 2025 года, Wan2.6 прадстаўляе актыўны рух Alibaba ў прастору відэа ІІ. Мадэль даступная ў некалькіх памерах (1.3B і 14B параметраў) і прадстаўляе тры асноўныя магчымасці, якія вылучаюць яе сярод канкурэнтаў.

Што насамрэч робіць Wan2.6

14B
Параметры
720p
Родная раздзяляльнасць
5-10s
Даўжыня відэа

Мадэль працуе ў трох розных рэжымах:

📝

Text-to-Video

Стандартная генерацыя на аснове промптаў з палепшанай якасцю руху і часавой узгодненасцю.

🖼️

Image-to-Video

Ажыўленне любой статычнай выявы ў паслядоўную відэапаслядоўнасць.

👤

Reference-to-Video

Выкарыстанне вашай знешнасці як пастаяннага персанажа ва ўсім згенераваным кантэнце.

Магчымасць reference-to-video - гэта тое, дзе справы становяцца цікавымі. Загрузіце выразную фатаграфію сябе (або любога суб'екта), і Wan2.6 здабывае рысы ідэнтычнасці, якія захоўваюцца на працягу ўсёй згенераванай паслядоўнасці. Ваш твар застаецца вашым тварам, нават калі ІІ стварае цалкам новыя сцэнары вакол яго.

Тэхнічны падыход

Wan2.6 выкарыстоўвае варыянт архітэктуры дыфузійнага трансформера, якая стала стандартам у вядучых мадэлях 2025 года. Але рэалізацыя Alibaba ўключае спецыялізаваныя ўбудаванні для захавання ідэнтычнасці, падобныя да таго, што мы даследавалі ў нашым глыбокім аналізе ўзгодненасці персанажаў.

💡

Рэферэнснае ўмоўванне працуе праз механізмы крос-увагі, якія ўводзяць інфармацыю аб ідэнтычнасці на многіх узроўнях працэсу генерацыі. Гэта захоўвае стабільнасць рысаў твару, дазваляючы ўсяму астатняму змяняцца натуральна.

Галасавы кампанент выкарыстоўвае асобны аўдыякодэр, які захоплівае вашы вакальныя характарыстыкі: тэмбр, патэрны вышыні тону і рытм маўлення. У спалучэнні з візуальным рэферэнсам вы атрымліваеце сінхранізаваны аўдыявізуальны вынік, які сапраўды гучыць і выглядае як вы.

Гэты падыход адрозніваецца ад стратэгіі сусветнай мадэлі Runway, якая сканцэнтравана на сімуляцыі фізікі і ўзгодненасці навакольнага асяроддзя. Wan2.6 аддае прыярытэт захаванню ідэнтычнасці над дакладнасцю навакольнага асяроддзя, што з'яўляецца разумным кампрамісам для яе мэтавага выпадку выкарыстання.

Адкрыты зыходны код мае значэнне

Магчыма, самым важным аспектам Wan2.6 з'яўляецца тое, што Alibaba выпусціла яе як праграму з адкрытым зыходным кодам. Вагі даступныя для спампоўкі, што азначае, што вы можаце запусціць гэта лакальна на адпаведным абсталяванні.

Wan2.6 (Адкрыты)

Запуск лакальна, без выдаткаў на API, поўны кантроль над вашымі дадзенымі

Sora 2 / Veo 3 (Закрыты)

Толькі API, плата за генерацыю, дадзеныя адпраўляюцца трэцім бакам

Гэта працягвае тэндэнцыю, якую мы асвятлялі ў рэвалюцыі відэа ІІ з адкрытым зыходным кодам, дзе кітайскія кампаніі выпускаюць магутныя мадэлі, якія працуюць на спажывецкім абсталяванні. Версія 14B патрабуе значнай VRAM (24GB+), але варыянт 1.3B можа працаваць на RTX 4090.

Практычныя выпадкі выкарыстання

Reference-to-video адкрывае сцэнары, якія раней былі немагчымымі або непамерна дарагімі.

  • Персаналізаваны маркетынгавы кантэнт у маштабе
  • Стварэнне ўласнага аватара без студыйных сесій
  • Хуткае прататыпаванне для відэаканцэпцый
  • Даступнасць: аватары мовы жэстаў, персаналізаванае навучанне

Уявіце сабе стварэнне дэманстрацыйнага відэа прадукту з вамі ў галоўнай ролі, ніколі не стоячы перад камерай. Або генерацыю навучальнага кантэнту, дзе інструктар - гэта рэферэнсна-ўмоўленая версія вашага CEO. Прымяненні выходзяць далёка за межы навізны.

Праблема прыватнасці

Давайце звернемся да відавочнай праблемы: гэтая тэхналогія можа быць злоўжыта для дыпфейкаў.

Alibaba рэалізавала некаторыя ахоўныя меры. Мадэль уключае вадзяныя знакі, падобныя да падыходу SynthID ад Google, а ўмовы абслугоўвання забараняюць выкарыстанне без згоды. Але гэта хутчэй запавольвальнікі, чым бар'еры.

⚠️

Тэхналогія reference-to-video патрабуе адказнага выкарыстання. Заўсёды атрымлівайце згоду перад выкарыстаннем знешнасці іншага чалавека і будзьце празрыстымі наконт кантэнту, створанага ІІ.

Джын выпушчаны з бутэлькі. Шматлікія мадэлі цяпер прапануюць генерацыю з захаваннем ідэнтычнасці, і адкрытая прырода Wan2.6 азначае, што кожны можа атрымаць доступ да гэтай магчымасці. Размова перайшла ад "ці павінна гэта існаваць" да "як мы адносімся да гэтага адказна".

Параўнанне

Wan2.6 выходзіць на перапоўнены рынак. Вось як яна суадносіцца з вядучымі канкурэнтамі снежня 2025 года.

МадэльReference-to-VideoАдкрыты кодРоднае аўдыяМакс. даўжыня
Wan2.610s
Runway Gen-4.5Абмежавана15s
Sora 260s
Veo 3120s
LTX-210s

Wan2.6 абменьвае даўжыню на захаванне ідэнтычнасці. Калі вам патрэбны 60-секундныя кліпы, Sora 2 па-ранейшаму лепшы выбар. Але калі вам патрэбна, каб у гэтых кліпах паслядоўна прысутнічаў пэўны чалавек, Wan2.6 прапануе тое, чаго не маюць закрытыя мадэлі.

Шырэйшая карціна

Reference-to-video прадстаўляе змену ў тым, як мы думаем пра генерацыю відэа ІІ. Пытанне больш не толькі "што павінна адбыцца ў гэтым відэа", але і "хто павінен быць у ім".

Гэта ўзровень персаналізацыі, якога не хапала text-to-video. Агульныя аватары ІІ адчуваліся як стокавыя кадры. Персанажы, умоўленыя па рэферэнсе, адчуваюцца як вы.

У спалучэнні з роднай генерацыяй аўдыя і паляпшэннем узгодненасці персанажаў, мы набліжаемся да будучыні, дзе для стварэння прафесійнага відэакантэнту патрабуецца толькі фота з вэбкамеры і тэкставы промпт.

Alibaba робіць стаўку на тое, што генерацыя з прыярытэтам ідэнтычнасці - гэта наступны рубеж. Паколькі Wan2.6 цяпер з адкрытым зыходным кодам і працуе на спажывецкім абсталяванні, мы хутка даведаемся, ці маюць яны рацыю.

💡

Дадатковае чытанне: Для параўнання вядучых мадэляў відэа ІІ глядзіце наша параўнанне Sora 2 vs Runway vs Veo 3. Каб зразумець базавую архітэктуру, прачытайце Дыфузійныя трансформеры ў 2025.

Гэты артыкул быў карысны?

Henry

Henry

Творчы тэхнолаг

Творчы тэхнолаг з Лазаны, які даследуе сутыкненне ШІ і мастацтва. Эксперыментуе з генератыўнымі мадэлямі паміж сеансамі электроннай музыкі.

Звязаныя артыкулы

Працягвайце даследаванне з гэтымі звязанымі допісамі

LTX-2: натыўная генерацыя 4K відэа з ШІ на спажывецкіх GPU праз адкрыты код
AI Video GenerationOpen Source

LTX-2: натыўная генерацыя 4K відэа з ШІ на спажывецкіх GPU праз адкрыты код

Lightricks выпускае LTX-2 з натыўнай генерацыяй 4K-відэа і сінхранізаваным аудыё, прапаноўваючы адкрыты доступ на спажывецкім абсталяванні, у той час як канкурэнты застаюцца заблакаванымі за API, хоць і з важнымі кампрамісамі прадукцыйнасці.

Read
Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе
RunwayWorld Models

Runway GWM-1: універсальная мадэль свету з сімуляцыяй рэальнасці ў рэальным часе

GWM-1 ад Runway, гэта пераход ад генерацыі відэа да сімуляцыі светаў. Вывучыце, як гэтая аўтарэгрэсіўная мадэль стварае даследуемыя асяроддзі, фотарэалістычныя аватары і сімуляцыі для навучання робатаў.

Read
YouTube Прыносіць Veo 3 Fast у Shorts: Бясплатная Генерацыя AI Відэа для 2,5 Мільярдаў Карыстальнікаў
YouTubeVeo 3

YouTube Прыносіць Veo 3 Fast у Shorts: Бясплатная Генерацыя AI Відэа для 2,5 Мільярдаў Карыстальнікаў

Google інтэгруе сваю мадэль Veo 3 Fast непасрэдна ў YouTube Shorts, прапаноўваючы бясплатную генерацыю відэа з тэксту з гукам для стваральнікаў па ўсім свеце. Вось што гэта азначае для платформы і даступнасці AI відэа.

Read

Спадабаўся гэты артыкул?

Адкрывайце больш ўзнасцаў і будзьце ў курсе нашага апошняга кантэнту

Alibaba Wan2.6: Рэферэнснае відэа змяшчае ваш твар у свет, створаны ІІ