Alibaba Wan2.6: Tilvísunar-í-myndband setur andlit þitt í heima skapaða af gervigreind

Gleymdu almennum gervigreindartárum. Alibaba gaf nýlega út Wan2.6 og aðalaðgerð þess gerir þér kleift að setja sjálfan þig inn í myndbönd búin til af gervigreind með aðeins tilvísunarmynd eða raddupptöku. Afleiðingarnar eru veigamiklar.

Tilvísunarbyltingin

Texti-í-myndband hefur verið staðlað viðmið frá upphafi gervigreindar myndbandagerðar. Þú skrifar fyrirmæli, þú færð myndband. Einfalt, en takmarkað. Þú getur ekki gert það að þér án umfangsmikils fínstillingar eða LoRA þjálfunar.

Wan2.6 breytir þessari jöfnu algjörlega.

💡

Tilvísunar-í-myndband þýðir að gervigreindin notar raunverulegt útlit þitt, rödd, eða hvort tveggja sem skilyrðandi inntak ásamt textafyrirmælum. Þú verður persóna í gerðinni, ekki viðbót.

Gefið út 16. desember 2025, táknar Wan2.6 kröftuga inngöngu Alibaba á gervigreindar myndbandamarkað. Líkanið kemur í mörgum stærðum (1,3B og 14B breytur) og kynnir þrjá grunneiginleika sem aðgreina það frá keppinautum.

Hvað Wan2.6 gerir í raun

14B

Breytur

720p

Innfædd upplausn

5-10s

Lengd myndbands

Líkanið vinnur í þremur aðskildum stillingum:

📝

Texti-í-Myndband

Staðlað fyrirmælabundið gerð með bættri hreyfigæðum og tímalegri samkvæmni.

🖼️

Mynd-í-Myndband

Lífgaðu hvaða kyrrmynd sem er í samfellda myndbandsröð.

👤

Tilvísun-í-Myndband

Notaðu útlit þitt sem varanlega persónu í búnu efni.

Tilvísunar-í-myndband eiginleikinn er þar sem hlutirnir verða áhugaverðir. Hladdu upp skýrri mynd af þér (eða hvaða viðfangi sem er), og Wan2.6 dregur út auðkenniseiginleika sem haldast í gegnum alla búnu röðina. Andlit þitt helst andlit þitt, jafnvel þegar gervigreindin býr til algjörlega ný atburðarás í kringum það.

Tæknilega aðferðin

Wan2.6 notar afbrigði af diffusion transformer arkitektúr sem er orðin staðall í leiðandi líkönum 2025. En útfærsla Alibaba inniheldur sérhæfðar auðkennisvarðandi embeddings, svipað og við könnuðum í okkar dýpkandi grein um persónusamkvæmni.

💡

Tilvísunarskilyrðingin virkar í gegnum cross-attention kerfi sem sprauta auðkennisupplýsingum á mörg lög gerðarferlisins. Þetta heldur andlitsdráttum stöðugum á meðan allt annað getur breyst eðlilega.

Raddþátturinn notar sérstakan hljóðkóðara sem fangar raddeiginleika þína: hljómblæ, tónhæðarmynstur og talrythma. Sameinað við sjónrænu tilvísunina færðu samstillta hljóð-sjón-úttak sem hljómar og lítur í raun út eins og þú.

Þessi nálgun er frábrugðin world model stefnu Runway, sem einblínir á eðlisfræðilega hermingu og umhverfissamræmi. Wan2.6 setur auðkennisvörslu í forgang fram yfir umhverfisnákvæmni, málamiðlun sem er skynsamleg fyrir tilætlaðan notkunartilgang.

Opinn upprunakóði skiptir máli

Kannski mikilvægasti þáttur Wan2.6 er að Alibaba gaf það út sem opinn upprunakóði. Þyngdirnar eru tiltækar til niðurhals, sem þýðir að þú getur keyrt þetta á staðnum á hæfum búnaði.

✓Wan2.6 (Opið)

Keyrðu á staðnum, engin API kostnaður, full stjórn á gögnunum þínum

✗Sora 2 / Veo 3 (Lokuð)

Aðeins API, kostnaður á hverja gerð, gögn send til þriðja aðila

Þetta heldur áfram mynstrinu sem við fjölluðum um í opins upprunakóða gervigreindar myndbandabyltingunni, þar sem kínversk fyrirtæki hafa gefið út öflug líkön sem keyra á neytendabúnaði. 14B útgáfan þarfnast umtalsverðs VRAM (24GB+), en 1,3B afbrigðið getur passað á RTX 4090.

Notkunartilvik sem eru skynsamleg

Tilvísunar-í-myndband opnar aðstæður sem áður voru ómögulegar eða óhóflega dýrar.

✓Persónulegt markaðsefni í stórum stíl
✓Sérsniðin tárugerð án stúdíólotu
✓Hröð frumgerðarsmíði fyrir myndbandshugmyndir
✓Aðgengi: táknmálstárar, persónuleg menntun

Ímyndaðu þér að búa til vörukynningu myndband með sjálfum þér í aðalhlutverki án þess að standa nokkurn tíma fyrir framan myndavél. Eða að búa til þjálfunarefni þar sem kennari er tilvísunarskilyrð útgáfa af forstjóra þínum. Notkunarmöguleikarnir ná langt út fyrir nýnæmið.

Fíllinn í herberginu: friðhelgi

Tökum á augljósu áhyggjuefninu: þessa tækni er hægt að misnota fyrir deepfakes.

Alibaba hefur innleitt nokkrar öryggisráðstafanir. Líkanið inniheldur vatnsmerki svipuð SynthID aðferð Google, og þjónustuskilmálar banna notkun án samþykkis. En þetta eru hraðahindranir, ekki hindrunarveggir.

⚠️

Tilvísunar-í-myndband tækni krefst ábyrgrar notkunar. Fáðu alltaf samþykki áður en þú notar líki annarra, og vertu gagnsær um efni búið til af gervigreind.

Andinn er úr flöskunni. Mörg líkön bjóða nú auðkennisvarðandi gerð, og opinn upprunakóði eðli Wan2.6 þýðir að hver sem er getur fengið aðgang að þessum eiginleika. Samtalið hefur færst frá "ætti þetta að vera til" yfir í "hvernig tökum við ábyrgð á því."

Samanburðurinn

Wan2.6 gengur inn á þéttsetinn markað. Svona stendur það samanborið við leiðandi keppinauta desember 2025.

Líkan	Tilvísun-í-Myndband	Opinn upprunakóði	Innfætt hljóð	Hámarks lengd
Wan2.6	✅	✅	✅	10s
Runway Gen-4.5	Takmarkað	❌	✅	15s
Sora 2	❌	❌	✅	60s
Veo 3	❌	❌	✅	120s
LTX-2	❌	✅	✅	10s

Wan2.6 skiptir lengd fyrir auðkennisvörslu. Ef þú þarft 60 sekúndna klippur er Sora 2 enn besta valið þitt. En ef þú þarft að þessar klippur sýni stöðugt tiltekna manneskju, býður Wan2.6 eitthvað sem lokuðu líkönin gera ekki.

Stærri myndin

Tilvísunar-í-myndband táknar breytingu í því hvernig við hugsum um gervigreindar myndbandagerð. Spurningin er ekki lengur aðeins "hvað á að gerast í þessu myndbandi," heldur "hver á að vera í því."

Þetta er sérsniðningarlagið sem vantaði í texti-í-myndband. Almennir gervigreindartárar líktust söluefni. Tilvísunarskilyrðar persónur líta út eins og þú.

Sameinað við innfædda hljóðgerð og batnandi persónusamkvæmni, erum við að nálgast framtíð þar sem gerð fagmannlegs myndbandaefnis krefst ekki meira en vefmyndavélarmyndar og textafyrirmæla.

Alibaba veðjar á að auðkennis-fyrst gerð sé næsta landamæri. Með Wan2.6 nú opinn upprunakóði og keyrandi á neytendabúnaði, munum við fljótlega komast að því hvort þeir höfðu rétt fyrir sér.

💡

Frekari lestur: Fyrir samanburð á leiðandi gervigreindar myndbandslíkönum, sjá okkar Sora 2 vs Runway vs Veo 3 samanburð. Til að skilja undirliggjandi arkitektúr, skoðaðu Diffusion Transformers árið 2025.