Alibaba Wan2.6: Reference-to-Video stavlja vaše lice u AI-generirane svjetove

Zaboravite generičke AI avatare. Alibaba je upravo objavila Wan2.6, a njegova ključna značajka omogućuje umetanje sebe u AI-generirane videozapise koristeći samo referentnu sliku ili glasovni isječak. Implikacije su značajne.

Referentna revolucija

Text-to-video bila je standardna paradigma od ranih dana AI video generiranja. Upišete prompt, dobijete video. Jednostavno, ali ograničeno. Ne možete to učiniti vama bez opsežnog fine-tuninga ili LoRA treninga.

Wan2.6 potpuno mijenja ovu jednadžbu.

💡

Reference-to-video znači da AI koristi vaš stvarni izgled, glas ili oboje kao ulaze za kondicioniranje uz tekstualne promptove. Postajete lik u generiranju, ne naknadno razmišljanje.

Objavljen 16. prosinca 2025., Wan2.6 predstavlja Alibabinu agresivnu ekspanziju u prostor AI videa. Model dolazi u više veličina (1.3B i 14B parametara) i uvodi tri ključne sposobnosti koje ga razlikuju od konkurencije.

Što Wan2.6 zapravo radi

14B

Parametri

720p

Nativna rezolucija

5-10s

Duljina videa

Model radi u tri različita načina:

📝

Text-to-Video

Standardno generiranje temeljeno na promptu s poboljšanom kvalitetom pokreta i vremenskom konzistentnošću.

🖼️

Image-to-Video

Animirajte bilo koju statičnu sliku u koherentnu video sekvencu.

👤

Reference-to-Video

Koristite svoj izgled kao postojan lik kroz generirani sadržaj.

Reference-to-video sposobnost je ono gdje stvari postaju zanimljive. Učitajte jasnu fotografiju sebe (ili bilo kojeg subjekta), i Wan2.6 ekstrahira značajke identiteta koje se održavaju kroz cijelu generiranu sekvencu. Vaše lice ostaje vaše lice, čak i dok AI stvara potpuno nove scenarije oko njega.

Tehnički pristup

Wan2.6 koristi varijantu diffusion transformer arhitekture koja je postala standard u vodećim modelima 2025. No Alibabina implementacija uključuje specijalizirane embedding-e za očuvanje identiteta, slično onome što smo istražili u našoj dubinskoj analizi konzistentnosti likova.

💡

Reference kondicioniranje radi kroz cross-attention mehanizme koji ubrizgavaju informacije o identitetu na više slojeva procesa generiranja. To održava značajke lica stabilnima dok sve ostalo može prirodno varirati.

Glasovna komponenta koristi zaseban audio enkoder koji hvata vaše vokalne karakteristike: timbar, obrasce visine tona i ritam govora. U kombinaciji s vizualnom referencom, dobivate sinkronizirani audio-vizualni izlaz koji zaista zvuči i izgleda kao vi.

Ovaj pristup razlikuje se od Runway-eve strategije world modela, koja se fokusira na simulaciju fizike i ekološku koherentnost. Wan2.6 prioritizira očuvanje identiteta nad ekološkom preciznošću, kompromis koji ima smisla za njegovu ciljnu uporabu.

Open source je bitan

Možda najznačajniji aspekt Wan2.6 je to što ga je Alibaba objavila kao open source. Težine su dostupne za preuzimanje, što znači da to možete pokrenuti lokalno na sposobnom hardveru.

✓Wan2.6 (Open)

Pokrenite lokalno, bez API troškova, puna kontrola nad vašim podacima

✗Sora 2 / Veo 3 (Closed)

Samo API, troškovi po generiranju, podaci se šalju trećim stranama

Ovo nastavlja obrazac koji smo pokrili u open-source AI video revoluciji, gdje kineske tvrtke objavljuju moćne modele koji rade na potrošačkom hardveru. 14B verzija zahtijeva značajan VRAM (24GB+), ali 1.3B varijanta može stati na RTX 4090.

Slučajevi uporabe koji zapravo imaju smisla

Reference-to-video otključava scenarije koji su prije bili nemogući ili pretjerano skupi.

✓Personalizirani marketinški sadržaj u velikom obimu
✓Izrada prilagođenih avatara bez studijskih sesija
✓Brzo prototipiranje video koncepata
✓Pristupačnost: avatari znakovnog jezika, personalizirana edukacija

Zamislite stvaranje demo videa proizvoda u kojem glumite vi, a da nikada niste stali pred kameru. Ili generiranje sadržaja za obuku gdje je instruktor reference-conditioned verzija vašeg CEO-a. Primjene se protežu daleko izvan novosti.

Pitanje privatnosti

Obratimo se očitoj zabrinutosti: ova tehnologija može se zloupotrijebiti za deepfake-ove.

Alibaba je implementirala neke zaštite. Model uključuje vodene žigove slične Googleovom SynthID pristupu, a uvjeti korištenja zabranjuju korištenje bez pristanka. No to su usporivači, ne barijere.

⚠️

Reference-to-video tehnologija zahtijeva odgovornu uporabu. Uvijek pribavite pristanak prije korištenja nečijeg izgleda i budite transparentni o AI-generiranom sadržaju.

Duh je izašao iz boce. Više modela sada nudi generiranje s očuvanjem identiteta, a open-source priroda Wan2.6 znači da svatko može pristupiti ovoj sposobnosti. Razgovor se pomaknuo s "treba li ovo postojati" na "kako s tim postupamo odgovorno."

Usporedba

Wan2.6 ulazi na pretrpano tržište. Evo kako se mjeri s vodećim konkurentima prosinca 2025.

Model	Reference-to-Video	Open Source	Nativni audio	Max duljina
Wan2.6	✅	✅	✅	10s
Runway Gen-4.5	Ograničeno	❌	✅	15s
Sora 2	❌	❌	✅	60s
Veo 3	❌	❌	✅	120s
LTX-2	❌	✅	✅	10s

Wan2.6 mijenja duljinu za očuvanje identiteta. Ako trebate 60-sekundne isječke, Sora 2 je i dalje vaš najbolji izbor. Ali ako trebate da ti isječci dosljedno prikazuju određenu osobu, Wan2.6 nudi nešto što zatvoreni modeli ne nude.

Šira slika

Reference-to-video predstavlja promjenu u načinu na koji razmišljamo o AI video generiranju. Pitanje više nije samo "što bi se trebalo događati u ovom videu" već "tko bi trebao biti u njemu."

Ovo je sloj personalizacije koji je nedostajao text-to-video-u. Generički AI avatari osjećali su se kao stock footage. Reference-conditioned likovi osjećaju se kao vi.

U kombinaciji s nativnim audio generiranjem i poboljšanom konzistentnošću likova, približavamo se budućnosti gdje stvaranje profesionalnog video sadržaja zahtijeva samo fotografiju s web kamere i tekstualni prompt.

Alibaba se kladi da je generiranje s fokusom na identitet sljedeća granica. S Wan2.6 sada kao open source i pokretanjem na potrošačkom hardveru, uskoro ćemo saznati jesu li u pravu.

💡

Dodatno čitanje: Za usporedbu vodećih AI video modela, pogledajte našu usporedbu Sora 2 vs Runway vs Veo 3. Za razumijevanje temeljne arhitekture, pogledajte Diffusion Transformers u 2025.