Alibaba Wan2.6: Tilvísunar-í-myndband setur andlit þitt í heima skapaða af gervigreind
Nýjasta gervigreindar myndbandslíkan Alibaba kynnir tilvísunar-í-myndband gerð. Þú getur notað þitt eigið útlit og rödd í efni sem gervigreind býr til. Hér er hvað þetta þýðir fyrir skapara.

Gleymdu almennum gervigreindartárum. Alibaba gaf nýlega út Wan2.6 og aðalaðgerð þess gerir þér kleift að setja sjálfan þig inn í myndbönd búin til af gervigreind með aðeins tilvísunarmynd eða raddupptöku. Afleiðingarnar eru veigamiklar.
Tilvísunarbyltingin
Texti-í-myndband hefur verið staðlað viðmið frá upphafi gervigreindar myndbandagerðar. Þú skrifar fyrirmæli, þú færð myndband. Einfalt, en takmarkað. Þú getur ekki gert það að þér án umfangsmikils fínstillingar eða LoRA þjálfunar.
Wan2.6 breytir þessari jöfnu algjörlega.
Tilvísunar-í-myndband þýðir að gervigreindin notar raunverulegt útlit þitt, rödd, eða hvort tveggja sem skilyrðandi inntak ásamt textafyrirmælum. Þú verður persóna í gerðinni, ekki viðbót.
Gefið út 16. desember 2025, táknar Wan2.6 kröftuga inngöngu Alibaba á gervigreindar myndbandamarkað. Líkanið kemur í mörgum stærðum (1,3B og 14B breytur) og kynnir þrjá grunneiginleika sem aðgreina það frá keppinautum.
Hvað Wan2.6 gerir í raun
Líkanið vinnur í þremur aðskildum stillingum:
Texti-í-Myndband
Staðlað fyrirmælabundið gerð með bættri hreyfigæðum og tímalegri samkvæmni.
Mynd-í-Myndband
Lífgaðu hvaða kyrrmynd sem er í samfellda myndbandsröð.
Tilvísun-í-Myndband
Notaðu útlit þitt sem varanlega persónu í búnu efni.
Tilvísunar-í-myndband eiginleikinn er þar sem hlutirnir verða áhugaverðir. Hladdu upp skýrri mynd af þér (eða hvaða viðfangi sem er), og Wan2.6 dregur út auðkenniseiginleika sem haldast í gegnum alla búnu röðina. Andlit þitt helst andlit þitt, jafnvel þegar gervigreindin býr til algjörlega ný atburðarás í kringum það.
Tæknilega aðferðin
Wan2.6 notar afbrigði af diffusion transformer arkitektúr sem er orðin staðall í leiðandi líkönum 2025. En útfærsla Alibaba inniheldur sérhæfðar auðkennisvarðandi embeddings, svipað og við könnuðum í okkar dýpkandi grein um persónusamkvæmni.
Tilvísunarskilyrðingin virkar í gegnum cross-attention kerfi sem sprauta auðkennisupplýsingum á mörg lög gerðarferlisins. Þetta heldur andlitsdráttum stöðugum á meðan allt annað getur breyst eðlilega.
Raddþátturinn notar sérstakan hljóðkóðara sem fangar raddeiginleika þína: hljómblæ, tónhæðarmynstur og talrythma. Sameinað við sjónrænu tilvísunina færðu samstillta hljóð-sjón-úttak sem hljómar og lítur í raun út eins og þú.
Þessi nálgun er frábrugðin world model stefnu Runway, sem einblínir á eðlisfræðilega hermingu og umhverfissamræmi. Wan2.6 setur auðkennisvörslu í forgang fram yfir umhverfisnákvæmni, málamiðlun sem er skynsamleg fyrir tilætlaðan notkunartilgang.
Opinn upprunakóði skiptir máli
Kannski mikilvægasti þáttur Wan2.6 er að Alibaba gaf það út sem opinn upprunakóði. Þyngdirnar eru tiltækar til niðurhals, sem þýðir að þú getur keyrt þetta á staðnum á hæfum búnaði.
Keyrðu á staðnum, engin API kostnaður, full stjórn á gögnunum þínum
Aðeins API, kostnaður á hverja gerð, gögn send til þriðja aðila
Þetta heldur áfram mynstrinu sem við fjölluðum um í opins upprunakóða gervigreindar myndbandabyltingunni, þar sem kínversk fyrirtæki hafa gefið út öflug líkön sem keyra á neytendabúnaði. 14B útgáfan þarfnast umtalsverðs VRAM (24GB+), en 1,3B afbrigðið getur passað á RTX 4090.
Notkunartilvik sem eru skynsamleg
Tilvísunar-í-myndband opnar aðstæður sem áður voru ómögulegar eða óhóflega dýrar.
- ✓Persónulegt markaðsefni í stórum stíl
- ✓Sérsniðin tárugerð án stúdíólotu
- ✓Hröð frumgerðarsmíði fyrir myndbandshugmyndir
- ✓Aðgengi: táknmálstárar, persónuleg menntun
Ímyndaðu þér að búa til vörukynningu myndband með sjálfum þér í aðalhlutverki án þess að standa nokkurn tíma fyrir framan myndavél. Eða að búa til þjálfunarefni þar sem kennari er tilvísunarskilyrð útgáfa af forstjóra þínum. Notkunarmöguleikarnir ná langt út fyrir nýnæmið.
Fíllinn í herberginu: friðhelgi
Tökum á augljósu áhyggjuefninu: þessa tækni er hægt að misnota fyrir deepfakes.
Alibaba hefur innleitt nokkrar öryggisráðstafanir. Líkanið inniheldur vatnsmerki svipuð SynthID aðferð Google, og þjónustuskilmálar banna notkun án samþykkis. En þetta eru hraðahindranir, ekki hindrunarveggir.
Tilvísunar-í-myndband tækni krefst ábyrgrar notkunar. Fáðu alltaf samþykki áður en þú notar líki annarra, og vertu gagnsær um efni búið til af gervigreind.
Andinn er úr flöskunni. Mörg líkön bjóða nú auðkennisvarðandi gerð, og opinn upprunakóði eðli Wan2.6 þýðir að hver sem er getur fengið aðgang að þessum eiginleika. Samtalið hefur færst frá "ætti þetta að vera til" yfir í "hvernig tökum við ábyrgð á því."
Samanburðurinn
Wan2.6 gengur inn á þéttsetinn markað. Svona stendur það samanborið við leiðandi keppinauta desember 2025.
| Líkan | Tilvísun-í-Myndband | Opinn upprunakóði | Innfætt hljóð | Hámarks lengd |
|---|---|---|---|---|
| Wan2.6 | ✅ | ✅ | ✅ | 10s |
| Runway Gen-4.5 | Takmarkað | ❌ | ✅ | 15s |
| Sora 2 | ❌ | ❌ | ✅ | 60s |
| Veo 3 | ❌ | ❌ | ✅ | 120s |
| LTX-2 | ❌ | ✅ | ✅ | 10s |
Wan2.6 skiptir lengd fyrir auðkennisvörslu. Ef þú þarft 60 sekúndna klippur er Sora 2 enn besta valið þitt. En ef þú þarft að þessar klippur sýni stöðugt tiltekna manneskju, býður Wan2.6 eitthvað sem lokuðu líkönin gera ekki.
Stærri myndin
Tilvísunar-í-myndband táknar breytingu í því hvernig við hugsum um gervigreindar myndbandagerð. Spurningin er ekki lengur aðeins "hvað á að gerast í þessu myndbandi," heldur "hver á að vera í því."
Þetta er sérsniðningarlagið sem vantaði í texti-í-myndband. Almennir gervigreindartárar líktust söluefni. Tilvísunarskilyrðar persónur líta út eins og þú.
Sameinað við innfædda hljóðgerð og batnandi persónusamkvæmni, erum við að nálgast framtíð þar sem gerð fagmannlegs myndbandaefnis krefst ekki meira en vefmyndavélarmyndar og textafyrirmæla.
Alibaba veðjar á að auðkennis-fyrst gerð sé næsta landamæri. Með Wan2.6 nú opinn upprunakóði og keyrandi á neytendabúnaði, munum við fljótlega komast að því hvort þeir höfðu rétt fyrir sér.
Frekari lestur: Fyrir samanburð á leiðandi gervigreindar myndbandslíkönum, sjá okkar Sora 2 vs Runway vs Veo 3 samanburð. Til að skilja undirliggjandi arkitektúr, skoðaðu Diffusion Transformers árið 2025.
Var þessi grein gagnleg?

Henry
Skapandi tæknimaðurSkapandi tæknimaður frá Lausanne sem kannar þar sem gervigreind hittir listir. Tilraunir með framleiðandi líkön á milli rafeindatónleikaþátta.
Tengdar greinar
Haltu áfram að kanna með þessum tengdu færslum

LTX-2: Innfædd 4K gervigreindarmyndmyndun á notendavélar í gegnum opinn hugbúnað
Lightricks gefur út LTX-2 með innfæddri 4K myndmyndun og samstilltu hljóði og býður upp á opinn hugbúnaðaraðgang á notendavélbúnaði á meðan keppinautar haldast API-læstir þó með mikilvægum afkastavigtum.

Runway GWM-1: Almennt heimslíkan sem hermir veruleikann í rauntíma
GWM-1 frá Runway markar hugmyndafræðilega breytingu frá myndbandsgerð til heimshermunar. Kynntu þér hvernig þetta sjálflæga líkan skapar könnunarumhverfi, raunveruleikatengda persónur og hermun fyrir vélmennaþjálfun.

YouTube setur Veo 3 Fast inn i Shorts: Opin gervigreind-myndbandagerð fyrir 2,5 milljarða notenda
Google samhefur Veo 3 Fast gerð sina beint inn i YouTube Shorts og býður upp á opin texta-til-myndbands myndun með hljóði fyrir myndbandshöfunda um allan heim. Hér er hvað þetta þýðir fyrir vettvanginn og aðgengi að gervigreind-myndböndum.