Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA

Oblida els avatars d'IA genèrics. Alibaba acaba de llançar Wan2.6, i la seva funció estrella et permet inserir-te en vídeos generats per IA utilitzant només una imatge de referència o un clip de veu. Les possibilitats són realment impressionants.

La revolució de la referència

Text-to-video ha estat el paradigma estàndard des dels primers dies de la generació de vídeo IA. Escrius un prompt, obtens un vídeo. Senzill, però limitat. No pots fer que siguis tu sense un ajust fi extens o entrenament LoRA.

Wan2.6 canvia completament aquesta equació.

💡

Reference-to-video significa que la IA utilitza la teva aparença real, veu o ambdues com a entrades condicionants juntament amb els prompts de text. Et converteixes en un personatge en la generació, no en una idea posterior.

Llançat el 16 de desembre de 2025, Wan2.6 representa l'entrada agressiva d'Alibaba en l'espai del vídeo IA. El model ve en múltiples mides (1,3B i 14B paràmetres) i introdueix tres capacitats bàsiques que el diferencien dels competidors.

Què fa realment Wan2.6

14B

Paràmetres

720p

Resolució nativa

5-10s

Durada del vídeo

El model opera en tres modes diferents:

📝

Text-to-Video

Generació estàndard basada en prompts amb qualitat de moviment i consistència temporal millorades.

🖼️

Image-to-Video

Anima qualsevol imatge fixa en una seqüència de vídeo coherent.

👤

Reference-to-Video

Utilitza la teva aparença com a personatge persistent a través del contingut generat.

La capacitat reference-to-video és on les coses es tornen interessants. Puja una foto clara de tu mateix (o de qualsevol subjecte), i Wan2.6 extreu les característiques d'identitat que persisteixen a través de tota la seqüència generada. La teva cara continua sent la teva cara, fins i tot quan la IA crea escenaris completament nous al seu voltant.

L'enfocament tècnic

Wan2.6 utilitza una variant de l'arquitectura de transformador de difusió que s'ha convertit en estàndard en els models líders de 2025. Però la implementació d'Alibaba inclou embeddings especialitzats per preservar la identitat, similars als que vam explorar en la nostra anàlisi en profunditat sobre la consistència de personatges.

💡

El condicionament de referència funciona a través de mecanismes d'atenció creuada que injecten informació d'identitat en múltiples capes del procés de generació. Això manté les característiques facials estables mentre permet que tot el demés variï naturalment.

El component de veu utilitza un codificador d'àudio separat que captura les teves característiques vocals: timbre, patrons de to i ritme de parla. Combinat amb la referència visual, obtens una sortida audiovisual sincronitzada que realment sona i sembla tu.

Aquest enfocament difereix de l'estratègia de model mundial de Runway, que se centra en la simulació física i la coherència ambiental. Wan2.6 prioritza la preservació de la identitat per sobre de la precisió ambiental, un compromís que té sentit per al seu cas d'ús objectiu.

El codi obert importa

Potser l'aspecte més significatiu de Wan2.6 és que Alibaba el va llançar com a codi obert. Els pesos estan disponibles per descarregar, cosa que significa que pots executar-ho localment en maquinari capaç.

✓Wan2.6 (Obert)

Executa localment, sense costos d'API, control total sobre les teves dades

✗Sora 2 / Veo 3 (Tancat)

Només API, costos per generació, les dades s'envien a tercers

Això continua la tendència que vam cobrir en la revolució del vídeo IA de codi obert, on les empreses xineses estan llançant models potents que funcionen en maquinari de consum. La versió 14B requereix VRAM substancial (24GB+), però la variant 1,3B pot funcionar en una RTX 4090.

Casos d'ús pràctics

Reference-to-video desbloqueja escenaris que abans eren impossibles o prohibitivament cars.

✓Contingut de màrqueting personalitzat a escala
✓Creació d'avatars personalitzats sense sessions d'estudi
✓Prototipatge ràpid per a conceptes de vídeo
✓Accessibilitat: avatars de llengua de signes, educació personalitzada

Imagina crear un vídeo de demostració de producte protagonitzat per tu sense haver de posar-te mai davant d'una càmera. O generar contingut de formació on l'instructor és una versió condicionada per referència del teu director executiu. Les aplicacions van molt més enllà de la novetat.

El problema de la privacitat

Abordem la preocupació òbvia: aquesta tecnologia pot ser mal utilitzada per a deepfakes.

Alibaba ha implementat algunes salvaguardes. El model inclou marca d'aigua similar a l'enfocament SynthID de Google, i els termes de servei prohibeixen l'ús sense consentiment. Però aquestes són mesures de fre, no barreres.

⚠️

La tecnologia reference-to-video requereix un ús responsable. Sempre obtén el consentiment abans d'utilitzar l'aparença d'algú altre, i sigues transparent sobre el contingut generat per IA.

El geni ha sortit de l'ampolla. Múltiples models ara ofereixen generació amb preservació d'identitat, i la naturalesa de codi obert de Wan2.6 significa que qualsevol pot accedir a aquesta capacitat. La conversa ha canviat de "hauria d'existir això" a "com ho gestionem de manera responsable".

Com es compara

Wan2.6 entra en un mercat saturat. Aquí tens com es compara amb els principals competidors de desembre de 2025.

Model	Reference-to-Video	Codi obert	Àudio natiu	Durada màx.
Wan2.6	✅	✅	✅	10s
Runway Gen-4.5	Limitat	❌	✅	15s
Sora 2	❌	❌	✅	60s
Veo 3	❌	❌	✅	120s
LTX-2	❌	✅	✅	10s

Wan2.6 intercanvia durada per preservació d'identitat. Si necessites clips de 60 segons, Sora 2 segueix sent la millor opció. Però si necessites que aquests clips mostrin consistentment una persona específica, Wan2.6 ofereix alguna cosa que els models tancats no tenen.

La imatge més àmplia

Reference-to-video representa un canvi en com pensem sobre la generació de vídeo IA. La pregunta ja no és només "què hauria de passar en aquest vídeo" sinó "qui hauria de ser-hi".

Aquesta és la capa de personalització que faltava al text-to-video. Els avatars d'IA genèrics semblaven com a metratge d'arxiu. Els personatges condicionats per referència se senten com tu.

Combinat amb la generació d'àudio nativa i la millora de la consistència de personatges, ens estem acostant a un futur on crear contingut de vídeo professional no requereix més que una foto de webcam i un prompt de text.

Alibaba aposta que la generació amb prioritat d'identitat és la pròxima frontera. Amb Wan2.6 ara de codi obert i funcionant en maquinari de consum, aviat descobrirem si tenen raó.

💡

Lectures addicionals: Per a una comparació dels principals models de vídeo IA, consulta la nostra comparació Sora 2 vs Runway vs Veo 3. Per entendre l'arquitectura subjacent, llegeix Transformadors de difusió el 2025.