Meta Pixel
HenryHenry
6 min read
1130 paraules

Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA

L'últim model de vídeo IA d'Alibaba introdueix la generació de referència a vídeo, que et permet utilitzar la teva pròpia aparença i veu en contingut creat per IA. Aquí tens què significa això per als creadors.

Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA

Oblida els avatars d'IA genèrics. Alibaba acaba de llançar Wan2.6, i la seva funció estrella et permet inserir-te en vídeos generats per IA utilitzant només una imatge de referència o un clip de veu. Les possibilitats són realment impressionants.

La revolució de la referència

Text-to-video ha estat el paradigma estàndard des dels primers dies de la generació de vídeo IA. Escrius un prompt, obtens un vídeo. Senzill, però limitat. No pots fer que siguis tu sense un ajust fi extens o entrenament LoRA.

Wan2.6 canvia completament aquesta equació.

💡

Reference-to-video significa que la IA utilitza la teva aparença real, veu o ambdues com a entrades condicionants juntament amb els prompts de text. Et converteixes en un personatge en la generació, no en una idea posterior.

Llançat el 16 de desembre de 2025, Wan2.6 representa l'entrada agressiva d'Alibaba en l'espai del vídeo IA. El model ve en múltiples mides (1,3B i 14B paràmetres) i introdueix tres capacitats bàsiques que el diferencien dels competidors.

Què fa realment Wan2.6

14B
Paràmetres
720p
Resolució nativa
5-10s
Durada del vídeo

El model opera en tres modes diferents:

📝

Text-to-Video

Generació estàndard basada en prompts amb qualitat de moviment i consistència temporal millorades.

🖼️

Image-to-Video

Anima qualsevol imatge fixa en una seqüència de vídeo coherent.

👤

Reference-to-Video

Utilitza la teva aparença com a personatge persistent a través del contingut generat.

La capacitat reference-to-video és on les coses es tornen interessants. Puja una foto clara de tu mateix (o de qualsevol subjecte), i Wan2.6 extreu les característiques d'identitat que persisteixen a través de tota la seqüència generada. La teva cara continua sent la teva cara, fins i tot quan la IA crea escenaris completament nous al seu voltant.

L'enfocament tècnic

Wan2.6 utilitza una variant de l'arquitectura de transformador de difusió que s'ha convertit en estàndard en els models líders de 2025. Però la implementació d'Alibaba inclou embeddings especialitzats per preservar la identitat, similars als que vam explorar en la nostra anàlisi en profunditat sobre la consistència de personatges.

💡

El condicionament de referència funciona a través de mecanismes d'atenció creuada que injecten informació d'identitat en múltiples capes del procés de generació. Això manté les característiques facials estables mentre permet que tot el demés variï naturalment.

El component de veu utilitza un codificador d'àudio separat que captura les teves característiques vocals: timbre, patrons de to i ritme de parla. Combinat amb la referència visual, obtens una sortida audiovisual sincronitzada que realment sona i sembla tu.

Aquest enfocament difereix de l'estratègia de model mundial de Runway, que se centra en la simulació física i la coherència ambiental. Wan2.6 prioritza la preservació de la identitat per sobre de la precisió ambiental, un compromís que té sentit per al seu cas d'ús objectiu.

El codi obert importa

Potser l'aspecte més significatiu de Wan2.6 és que Alibaba el va llançar com a codi obert. Els pesos estan disponibles per descarregar, cosa que significa que pots executar-ho localment en maquinari capaç.

Wan2.6 (Obert)

Executa localment, sense costos d'API, control total sobre les teves dades

Sora 2 / Veo 3 (Tancat)

Només API, costos per generació, les dades s'envien a tercers

Això continua la tendència que vam cobrir en la revolució del vídeo IA de codi obert, on les empreses xineses estan llançant models potents que funcionen en maquinari de consum. La versió 14B requereix VRAM substancial (24GB+), però la variant 1,3B pot funcionar en una RTX 4090.

Casos d'ús pràctics

Reference-to-video desbloqueja escenaris que abans eren impossibles o prohibitivament cars.

  • Contingut de màrqueting personalitzat a escala
  • Creació d'avatars personalitzats sense sessions d'estudi
  • Prototipatge ràpid per a conceptes de vídeo
  • Accessibilitat: avatars de llengua de signes, educació personalitzada

Imagina crear un vídeo de demostració de producte protagonitzat per tu sense haver de posar-te mai davant d'una càmera. O generar contingut de formació on l'instructor és una versió condicionada per referència del teu director executiu. Les aplicacions van molt més enllà de la novetat.

El problema de la privacitat

Abordem la preocupació òbvia: aquesta tecnologia pot ser mal utilitzada per a deepfakes.

Alibaba ha implementat algunes salvaguardes. El model inclou marca d'aigua similar a l'enfocament SynthID de Google, i els termes de servei prohibeixen l'ús sense consentiment. Però aquestes són mesures de fre, no barreres.

⚠️

La tecnologia reference-to-video requereix un ús responsable. Sempre obtén el consentiment abans d'utilitzar l'aparença d'algú altre, i sigues transparent sobre el contingut generat per IA.

El geni ha sortit de l'ampolla. Múltiples models ara ofereixen generació amb preservació d'identitat, i la naturalesa de codi obert de Wan2.6 significa que qualsevol pot accedir a aquesta capacitat. La conversa ha canviat de "hauria d'existir això" a "com ho gestionem de manera responsable".

Com es compara

Wan2.6 entra en un mercat saturat. Aquí tens com es compara amb els principals competidors de desembre de 2025.

ModelReference-to-VideoCodi obertÀudio natiuDurada màx.
Wan2.610s
Runway Gen-4.5Limitat15s
Sora 260s
Veo 3120s
LTX-210s

Wan2.6 intercanvia durada per preservació d'identitat. Si necessites clips de 60 segons, Sora 2 segueix sent la millor opció. Però si necessites que aquests clips mostrin consistentment una persona específica, Wan2.6 ofereix alguna cosa que els models tancats no tenen.

La imatge més àmplia

Reference-to-video representa un canvi en com pensem sobre la generació de vídeo IA. La pregunta ja no és només "què hauria de passar en aquest vídeo" sinó "qui hauria de ser-hi".

Aquesta és la capa de personalització que faltava al text-to-video. Els avatars d'IA genèrics semblaven com a metratge d'arxiu. Els personatges condicionats per referència se senten com tu.

Combinat amb la generació d'àudio nativa i la millora de la consistència de personatges, ens estem acostant a un futur on crear contingut de vídeo professional no requereix més que una foto de webcam i un prompt de text.

Alibaba aposta que la generació amb prioritat d'identitat és la pròxima frontera. Amb Wan2.6 ara de codi obert i funcionant en maquinari de consum, aviat descobrirem si tenen raó.

💡

Lectures addicionals: Per a una comparació dels principals models de vídeo IA, consulta la nostra comparació Sora 2 vs Runway vs Veo 3. Per entendre l'arquitectura subjacent, llegeix Transformadors de difusió el 2025.

T'ha resultat útil aquest article?

Henry

Henry

Tecnòleg Creatiu

Tecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

Alibaba Wan2.6: El vídeo de referència posa la teva cara en mons generats per IA