Meta Pixel
HenryHenry
5 min read
922 kelmiet

Alibaba Wan2.6: Referenza-għal-Vidjo tpoġġi wiċċek f'dinjiet iġġenerati mill-AI

L-aħħar mudell ta' vidjo AI ta' Alibaba jintroduċi ġenerazzjoni ta' vidjo mir-referenza, li jħallik tuża d-dehra u l-vuċi tiegħek stess f'kontenut maħluq mill-AI. Hawn hu x'ifisser dan għall-kreaturi.

Alibaba Wan2.6: Referenza-għal-Vidjo tpoġġi wiċċek f'dinjiet iġġenerati mill-AI

Insa l-avatars ġeneriċi tal-AI. Alibaba għadha kif ħarġet Wan2.6, u l-karatteristika prinċipali tagħha tħallik iddaħħal lilek innifsek fi vjdjos iġġenerati mill-AI billi tuża biss ritratt ta' referenza jew klipp tal-vuċi. L-implikazzjonijiet huma kbar.

Ir-rivoluzzjoni tar-referenza

Test-għal-vidjo kien il-paradigma standard sa mill-bidu tal-ġenerazzjoni ta' vidjo bl-AI. Tikteb prompt, tikseb vidjo. Sempliċi, iżda limitat. Ma tistax tagħmilha int mingħajr fine-tuning estensiv jew taħriġ LoRA.

Wan2.6 tibdel din l-ekwazzjoni kompletament.

💡

Referenza-għal-vidjo tfisser li l-AI juża d-dehra reali tiegħek, il-vuċi, jew it-tnejn bħala inputs ta' kundizzjonament flimkien ma' prompts tat-test. Issir karattru fil-ġenerazzjoni, mhux ħsieb ta' wara.

Rilaxxat fis-16 ta' Diċembru 2025, Wan2.6 tirrappreżenta d-dħul aggressiv ta' Alibaba fl-ispazju tal-vidjo AI. Il-mudell jiġi f'daqsijiet multipli (1.3B u 14B parametri) u jintroduċi tliet kapaċitajiet ewlenin li jiddistingwuh mill-kompetituri.

X'jagħmel Wan2.6 fil-verità

14B
Parametri
720p
Riżoluzzjoni nattiva
5-10s
Tul tal-vidjo

Il-mudell jopera fi tliet modi distinti:

📝

Test-għal-Vidjo

Ġenerazzjoni standard ibbażata fuq prompts b'kwalità ta' moviment imtejba u konsistenza temporali.

🖼️

Immaġni-għal-Vidjo

Anima kwalunkwe stampa statika f'sekwenza ta' vidjo koerenti.

👤

Referenza-għal-Vidjo

Uża d-dehra tiegħek bħala karattru persistenti matul-kontenut iġġenerat.

Il-kapaċità ta' referenza-għal-vidjo hija fejn l-affarijiet isiru interessanti. Ittella' ritratt ċar tiegħek (jew ta' kwalunkwe suġġett), u Wan2.6 jieħu l-karatteristiċi tal-identità li jippersistu tul is-sekwenza kollha ġġenerata. Wiċċek jibqa' wiċċek, anke meta l-AI joħloq xenarji kompletament ġodda madwaru.

L-approċċ tekniku

Wan2.6 juża varjant tal-arkitettura diffusion transformer li saret standard fil-mudelli ewlenin tal-2025. Iżda l-implimentazzjoni ta' Alibaba tinkludi embeddings speċjalizzati li jippreservaw l-identità, simili għal dak li esplorajna fl-analiżi dettaljata tagħna dwar il-konsistenza tal-karattri.

💡

Il-kundizzjonament bir-referenza jaħdem permezz ta' mekkaniżmi ta' cross-attention li jinjettaw informazzjoni dwar l-identità f'diversi livelli tal-proċess ta' ġenerazzjoni. Dan iżomm il-karatteristiċi tal-wiċċ stabbli filwaqt li jħalli kollox ieħor jivvarja b'mod naturali.

Il-komponent tal-vuċi juża encoder tal-awdjo separat li jaqbad il-karatteristiċi vokali tiegħek: timbre, patterns tat-ton u ritmu tat-taħdit. Kombinat mar-referenza viżwali, tikseb output awdjo-viżwali sinkronizzat li tassew jinstema' u jidher bħalek.

Dan l-approċċ huwa differenti mill-istrateġija world model ta' Runway, li tiffoka fuq simulazzjoni tal-fiżika u koerenza ambjentali. Wan2.6 jagħti prijorità lill-preservazzjoni tal-identità fuq il-preċiżjoni ambjentali, kompromess li jagħmel sens għall-każ ta' użu intiż tiegħu.

Open source jgħodd

Forsi l-aspett l-aktar sinifikanti ta' Wan2.6 huwa li Alibaba rilaxxatu bħala open source. Il-weights huma disponibbli għat-tniżżil, li jfisser li tista' tħaddmu lokalment fuq hardware kapaċi.

Wan2.6 (Miftuħ)

Ħaddem lokalment, l-ebda spejjeż tal-API, kontroll sħiħ fuq id-dejta tiegħek

Sora 2 / Veo 3 (Magħluqa)

API biss, spejjeż għal kull ġenerazzjoni, dejta mibgħuta lil partijiet terzi

Dan ikompli l-pattern li koprejna fir-rivoluzzjoni tal-vidjo AI open-source, fejn kumpaniji Ċiniżi ħarġu mudelli b'saħħithom li jaħdmu fuq hardware tal-konsumatur. Il-verżjoni 14B teħtieġ VRAM sostanzjali (24GB+), iżda l-varjant 1.3B jista' joqgħod fuq RTX 4090.

Każijiet ta' użu li jagħmlu sens

Referenza-għal-vidjo tiftaħ xenarji li qabel kienu impossibbli jew għoljin wisq.

  • Kontenut tal-marketing personalizzat fuq skala
  • Ħolqien ta' avatar personalizzat mingħajr sessjonijiet tal-istudjo
  • Prototipar rapidu għal kunċetti ta' vidjo
  • Aċċessibbiltà: avatars tal-lingwa tas-sinjali, edukazzjoni personalizzata

Immaġina li toħloq vidjo ta' dimostrazzjoni tal-prodott b'lilek f'rwol prinċipali mingħajr ma qatt tieqaf quddiem kamera. Jew li tiġġenera kontenut ta' taħriġ fejn l-istruttuur huwa verżjoni kundizzjonata bir-referenza taċ-CEO tiegħek. L-applikazzjonijiet imorru lil hinn mill-kurżità.

L-iljunfant fil-kamra: privatezza

Ejja nindirizzaw it-tħassib ovvju: din it-teknoloġija tista' tintuża ħażin għal deepfakes.

Alibaba implimentat xi salvagwardji. Il-mudell jinkludi watermarking simili għall-approċċ SynthID ta' Google, u t-termini tas-servizz jipprojbixxu użu mingħajr kunsens. Iżda dawn huma speed bumps, mhux barriers.

⚠️

It-teknoloġija referenza-għal-vidjo teħtieġ użu responsabbli. Dejjem ikseb kunsens qabel ma tuża x-xebh ta' ħaddieħor, u kun trasparenti dwar kontenut iġġenerat mill-AI.

Il-ġenju ħareġ mill-flixkun. Diversi mudelli issa joffru ġenerazzjoni li tippreserva l-identità, u n-natura open-source ta' Wan2.6 tfisser li kulħadd jista' jaċċessa din il-kapaċità. Il-konversazzjoni nbidlet minn "għandu dan jeżisti" għal "kif nittrattawh b'responsabbiltà."

Il-paragun

Wan2.6 tidħol f'suq miżgħud. Hawn kif tqabbel mal-kompetituri ewlenin ta' Diċembru 2025.

MudellReferenza-għal-VidjoOpen SourceAwdjo nattivTul massimu
Wan2.610s
Runway Gen-4.5Limitat15s
Sora 260s
Veo 3120s
LTX-210s

Wan2.6 jibdel it-tul għall-preservazzjoni tal-identità. Jekk teħtieġ klipps ta' 60 sekonda, Sora 2 għadha l-aħjar għażla tiegħek. Iżda jekk teħtieġ li dawk il-klipps juru b'konsistenza persuna speċifika, Wan2.6 joffri xi ħaġa li l-mudelli magħluqa ma għandhomx.

L-istampa l-kbira

Referenza-għal-vidjo tirrappreżenta bidla fil-mod kif naħsbu dwar il-ġenerazzjoni ta' vidjo bl-AI. Il-mistoqsija m'għadhiex biss "x'għandu jiġri f'dan il-vidjo," iżda "min għandu jkun fih."

Din hija s-saff ta' personalizzazzjoni li kien nieqes mit-test-għal-vidjo. Avatars ġeneriċi tal-AI kienu jħossu bħal footage tal-istokk. Karattri kundizzjonati bir-referenza jħossuhom bħal int.

Kombinat mal-ġenerazzjoni ta' awdjo nattiva u konsistenza tal-karattri li qed titjieb, qed nersqu lejn futur fejn il-ħolqien ta' kontenut ta' vidjo professjonali ma jirrikjedix aktar minn ritratt tal-webcam u prompt tat-test.

Alibaba qed jimmarkaw li l-ġenerazzjoni bbażata fuq l-identità hija l-fruntiera li jmiss. B'Wan2.6 issa open source u jaħdem fuq hardware tal-konsumatur, dalwaqt ser inkunu nafu jekk kellhomx raġun.

💡

Qari ieħor: Għal paragun tal-mudelli ewlenin ta' vidjo AI, ara l-paragun tagħna Sora 2 vs Runway vs Veo 3. Biex tifhem l-arkitettura sottostanti, ara Diffusion Transformers fl-2025.

Dan l-artiklu kien utli?

Henry

Henry

Teknoloġist Kreattiv

Teknoloġist kreattiv minn Lausanne jesplora fejn l-AI tiltaqa' mal-arti. Jespermenta b'mudelli ġenerattivi bejn sessjonijiet ta' mużika elettronika.

Artikli Relatati

Kompli esplora b'dawn il-postijiet relatati

Għoġbok dan l-artiklu?

Skopri aktar għarfien u żomm ruħek aġġornat bl-aħħar kontenut tagħna.

Alibaba Wan2.6: Referenza-għal-Vidjo tpoġġi wiċċek f'dinjiet iġġenerati mill-AI