Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA
L'últim model de vídeo IA d'Alibaba introdueix la generació de referència a vídeo, que et permet utilitzar la teva pròpia aparença i veu en contingut creat per IA. Aquí tens què significa això per als creadors.

Oblida els avatars d'IA genèrics. Alibaba acaba de llançar Wan2.6, i la seva funció estrella et permet inserir-te en vídeos generats per IA utilitzant només una imatge de referència o un clip de veu. Les possibilitats són realment impressionants.
La revolució de la referència
Text-to-video ha estat el paradigma estàndard des dels primers dies de la generació de vídeo IA. Escrius un prompt, obtens un vídeo. Senzill, però limitat. No pots fer que siguis tu sense un ajust fi extens o entrenament LoRA.
Wan2.6 canvia completament aquesta equació.
Reference-to-video significa que la IA utilitza la teva aparença real, veu o ambdues com a entrades condicionants juntament amb els prompts de text. Et converteixes en un personatge en la generació, no en una idea posterior.
Llançat el 16 de desembre de 2025, Wan2.6 representa l'entrada agressiva d'Alibaba en l'espai del vídeo IA. El model ve en múltiples mides (1,3B i 14B paràmetres) i introdueix tres capacitats bàsiques que el diferencien dels competidors.
Què fa realment Wan2.6
El model opera en tres modes diferents:
Text-to-Video
Generació estàndard basada en prompts amb qualitat de moviment i consistència temporal millorades.
Image-to-Video
Anima qualsevol imatge fixa en una seqüència de vídeo coherent.
Reference-to-Video
Utilitza la teva aparença com a personatge persistent a través del contingut generat.
La capacitat reference-to-video és on les coses es tornen interessants. Puja una foto clara de tu mateix (o de qualsevol subjecte), i Wan2.6 extreu les característiques d'identitat que persisteixen a través de tota la seqüència generada. La teva cara continua sent la teva cara, fins i tot quan la IA crea escenaris completament nous al seu voltant.
L'enfocament tècnic
Wan2.6 utilitza una variant de l'arquitectura de transformador de difusió que s'ha convertit en estàndard en els models líders de 2025. Però la implementació d'Alibaba inclou embeddings especialitzats per preservar la identitat, similars als que vam explorar en la nostra anàlisi en profunditat sobre la consistència de personatges.
El condicionament de referència funciona a través de mecanismes d'atenció creuada que injecten informació d'identitat en múltiples capes del procés de generació. Això manté les característiques facials estables mentre permet que tot el demés variï naturalment.
El component de veu utilitza un codificador d'àudio separat que captura les teves característiques vocals: timbre, patrons de to i ritme de parla. Combinat amb la referència visual, obtens una sortida audiovisual sincronitzada que realment sona i sembla tu.
Aquest enfocament difereix de l'estratègia de model mundial de Runway, que se centra en la simulació física i la coherència ambiental. Wan2.6 prioritza la preservació de la identitat per sobre de la precisió ambiental, un compromís que té sentit per al seu cas d'ús objectiu.
El codi obert importa
Potser l'aspecte més significatiu de Wan2.6 és que Alibaba el va llançar com a codi obert. Els pesos estan disponibles per descarregar, cosa que significa que pots executar-ho localment en maquinari capaç.
Executa localment, sense costos d'API, control total sobre les teves dades
Només API, costos per generació, les dades s'envien a tercers
Això continua la tendència que vam cobrir en la revolució del vídeo IA de codi obert, on les empreses xineses estan llançant models potents que funcionen en maquinari de consum. La versió 14B requereix VRAM substancial (24GB+), però la variant 1,3B pot funcionar en una RTX 4090.
Casos d'ús pràctics
Reference-to-video desbloqueja escenaris que abans eren impossibles o prohibitivament cars.
- ✓Contingut de màrqueting personalitzat a escala
- ✓Creació d'avatars personalitzats sense sessions d'estudi
- ✓Prototipatge ràpid per a conceptes de vídeo
- ✓Accessibilitat: avatars de llengua de signes, educació personalitzada
Imagina crear un vídeo de demostració de producte protagonitzat per tu sense haver de posar-te mai davant d'una càmera. O generar contingut de formació on l'instructor és una versió condicionada per referència del teu director executiu. Les aplicacions van molt més enllà de la novetat.
El problema de la privacitat
Abordem la preocupació òbvia: aquesta tecnologia pot ser mal utilitzada per a deepfakes.
Alibaba ha implementat algunes salvaguardes. El model inclou marca d'aigua similar a l'enfocament SynthID de Google, i els termes de servei prohibeixen l'ús sense consentiment. Però aquestes són mesures de fre, no barreres.
La tecnologia reference-to-video requereix un ús responsable. Sempre obtén el consentiment abans d'utilitzar l'aparença d'algú altre, i sigues transparent sobre el contingut generat per IA.
El geni ha sortit de l'ampolla. Múltiples models ara ofereixen generació amb preservació d'identitat, i la naturalesa de codi obert de Wan2.6 significa que qualsevol pot accedir a aquesta capacitat. La conversa ha canviat de "hauria d'existir això" a "com ho gestionem de manera responsable".
Com es compara
Wan2.6 entra en un mercat saturat. Aquí tens com es compara amb els principals competidors de desembre de 2025.
| Model | Reference-to-Video | Codi obert | Àudio natiu | Durada màx. |
|---|---|---|---|---|
| Wan2.6 | ✅ | ✅ | ✅ | 10s |
| Runway Gen-4.5 | Limitat | ❌ | ✅ | 15s |
| Sora 2 | ❌ | ❌ | ✅ | 60s |
| Veo 3 | ❌ | ❌ | ✅ | 120s |
| LTX-2 | ❌ | ✅ | ✅ | 10s |
Wan2.6 intercanvia durada per preservació d'identitat. Si necessites clips de 60 segons, Sora 2 segueix sent la millor opció. Però si necessites que aquests clips mostrin consistentment una persona específica, Wan2.6 ofereix alguna cosa que els models tancats no tenen.
La imatge més àmplia
Reference-to-video representa un canvi en com pensem sobre la generació de vídeo IA. La pregunta ja no és només "què hauria de passar en aquest vídeo" sinó "qui hauria de ser-hi".
Aquesta és la capa de personalització que faltava al text-to-video. Els avatars d'IA genèrics semblaven com a metratge d'arxiu. Els personatges condicionats per referència se senten com tu.
Combinat amb la generació d'àudio nativa i la millora de la consistència de personatges, ens estem acostant a un futur on crear contingut de vídeo professional no requereix més que una foto de webcam i un prompt de text.
Alibaba aposta que la generació amb prioritat d'identitat és la pròxima frontera. Amb Wan2.6 ara de codi obert i funcionant en maquinari de consum, aviat descobrirem si tenen raó.
Lectures addicionals: Per a una comparació dels principals models de vídeo IA, consulta la nostra comparació Sora 2 vs Runway vs Veo 3. Per entendre l'arquitectura subjacent, llegeix Transformadors de difusió el 2025.
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

LTX-2: generació de vídeo IA 4K natiu en GPUs de consum a través del codi obert
Lightricks llança LTX-2 amb generació de vídeo 4K natiu i àudio sincronitzat, oferint accés de codi obert en maquinari de consum mentre els competidors romanen bloquejats per API, tot i que amb compromisos importants de rendiment.

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real
El GWM-1 de Runway marca un canvi de paradigma des de generar vídeos fins a simular mons. Descobreix com aquest model autoregressiu crea entorns explorables, avatars fotorealistes i simulacions d'entrenament de robots.

YouTube porta Veo 3 Fast als Shorts: Generació de vídeo amb IA gratuïta per a 2.500 milions d'usuaris
Google integra el seu model Veo 3 Fast directament a YouTube Shorts, oferint generació de vídeo a partir de text amb àudio de manera gratuïta per a creadors de tot el món. Això és el que significa per a la plataforma i l'accessibilitat del vídeo amb IA.