Alibaba Wan2.6: Reference-to-Video paneb sinu näo AI-loodud maailmadesse
Alibaba uusim AI videomudel tutvustab reference-to-video genereerimist, mis võimaldab kasutada oma nägu ja häält AI-loodud sisus. Siin on, mida see loojatele tähendab.

Unusta üldised AI avatarid. Alibaba lasi just välja Wan2.6 ja selle põhifunktsioon võimaldab sul end AI-genereeritud videotesse lisada, kasutades vaid referentspilti või hääleklippi. Tagajärjed on märkimisväärsed.
Referentsrevolutsioon
Text-to-video on olnud standardne paradigma AI videogenereerimise alguspäevadest saati. Sisesta käsk, saa video. Lihtne, kuid piiratud. Sa ei saa seda muuta sinuks ilma ulatusliku fine-tuningu või LoRA treeninguta.
Wan2.6 muudab selle võrrandi täielikult.
Reference-to-video tähendab, et AI kasutab tekstikäskude kõrval sinu tegelikku välimust, häält või mõlemat konditsioneerivate sisenditena. Sinust saab genereerimisel tegelane, mitte järelmõte.
- detsembril 2025 välja antud Wan2.6 esindab Alibaba agressiivset sissetungi AI videoruumi. Mudel on saadaval mitmes suuruses (1.3B ja 14B parameetrit) ning tutvustab kolme põhivõimekust, mis eristavad seda konkurentidest.
Mida Wan2.6 tegelikult teeb
Mudel töötab kolmes erinevas režiimis:
Text-to-Video
Standardne käsupõhine genereerimine täiustatud liikumiskvaliteedi ja ajalise järjepidevusega.
Image-to-Video
Animeeri mis tahes staatilise pildi sidusaks videojadaks.
Reference-to-Video
Kasuta oma välimust püsiva tegelasena kogu genereeritud sisus.
Reference-to-video võimekus on see, kus asjad muutuvad huvitavaks. Laadi üles selge foto endast (või mis tahes subjektist) ja Wan2.6 ekstraktib identiteedi tunnused, mis püsivad kogu genereeritud jadas. Sinu nägu jääb sinu näoks, isegi kui AI loob selle ümber täiesti uusi stsenaariume.
Tehniline lähenemine
Wan2.6 kasutab diffusion transformer arhitektuuri varianti, mis on muutunud 2025. aasta juhtivate mudelite standardiks. Kuid Alibaba rakendus sisaldab spetsialiseeritud identiteeti säilitavaid manustusi, sarnaselt sellele, mida uurisime meie süvaanalüüsis tegelaste järjepidevusest.
Referentskonditsioonimine töötab cross-attention mehhanismide kaudu, mis süstivad identiteediteavet genereerimisprotsessi mitmetesse kihtidesse. See hoiab näojooned stabiilsena, lubades kõigel muul loomulikult varieeruda.
Häälkomponent kasutab eraldi audiokooderit, mis salvestab sinu vokaalsed omadused: tämbri, helikõrguse mustrid ja kõnerütmi. Kombineerituna visuaalse referentsiga, saad sünkroniseeritud audio-visuaalse väljundi, mis tegelikult kõlab ja näeb välja nagu sina.
See lähenemine erineb Runway maailmamudeli strateegiast, mis keskendub füüsika simulatsioonile ja keskkondlikule sidususele. Wan2.6 prioritiseerib identiteedi säilitamist keskkondliku täpsuse ees, kompromiss, mis on tema sihtotstarbe jaoks mõistlik.
Avatud lähtekood on oluline
Wan2.6 võib-olla kõige olulisem aspekt on see, et Alibaba andis selle välja avatud lähtekoodina. Kaalud on allalaadimiseks saadaval, mis tähendab, et saad seda võimsas riistvaras lokaalselt käitada.
Käita lokaalselt, ilma API kuludeta, täielik kontroll oma andmete üle
Ainult API, genereerimistasud, andmed saadetakse kolmandatele osapooltele
See jätkab mustrit, mida käsitlesime avatud lähtekoodiga AI video revolutsioonis, kus Hiina ettevõtted on välja andnud võimsaid mudeleid, mis töötavad tarbija riistvaral. 14B versioon nõuab märkimisväärset VRAM-i (24GB+), kuid 1.3B variant mahub RTX 4090 peale.
Kasutusjuhud, mis tegelikult on mõistlikud
Reference-to-video avab stsenaariume, mis varem olid võimatud või ülemäära kallid.
- ✓Personaliseeritud turundussisu mastaabis
- ✓Kohandatud avataride loomine ilma stuudioseanssideta
- ✓Videokontseptsioonide kiire prototüüpimine
- ✓Juurdepääsetavus: viipekeele avatarid, personaliseeritud haridus
Kujutle tooteesitlusvideo loomist, kus sina oled peaosas, ilma kunagi kaamera ette astumata. Või koolitusmaterjalide genereerimist, kus juhendaja on sinu tegevjuhi reference-conditioned versioon. Rakendused ulatuvad kaugele uudsusest kaugemale.
Privaatsuse küsimus
Käsitleme ilmset muret: seda tehnoloogiat saab kuritarvitada deepfake'ide jaoks.
Alibaba on rakendanud mõned kaitsemeetmed. Mudel sisaldab vesimärke, sarnaselt Google'i SynthID lähenemisele, ja teenustingimused keelavad nõusolekuta kasutamise. Kuid need on kiiruskühkud, mitte tõkked.
Reference-to-video tehnoloogia nõuab vastutustundlikku kasutamist. Hangi alati nõusolek enne kellegi teise välimuse kasutamist ja ole AI-genereeritud sisu osas läbipaistev.
Džinn on pudelist väljas. Mitmed mudelid pakuvad nüüd identiteeti säilitavat genereerimist ja Wan2.6 avatud lähtekoodiga olemus tähendab, et igaüks pääseb sellele võimekusele ligi. Vestlus on nihkunud "kas see peaks eksisteerima" juurest "kuidas me sellega vastutustundlikult käitume" juurde.
Kuidas see võrdlub
Wan2.6 siseneb rahvarohkele turule. Siin on, kuidas see mõõdab end 2025. aasta detsembri juhtivate konkurentidega.
| Mudel | Reference-to-Video | Avatud lähtekood | Natiivne audio | Max pikkus |
|---|---|---|---|---|
| Wan2.6 | ✅ | ✅ | ✅ | 10s |
| Runway Gen-4.5 | Piiratud | ❌ | ✅ | 15s |
| Sora 2 | ❌ | ❌ | ✅ | 60s |
| Veo 3 | ❌ | ❌ | ✅ | 120s |
| LTX-2 | ❌ | ✅ | ✅ | 10s |
Wan2.6 vahetab pikkuse identiteedi säilitamise vastu. Kui vajad 60-sekundilisi klippe, on Sora 2 endiselt sinu parim valik. Aga kui vajad, et need klipid sisaldaksid järjepidevalt konkreetset isikut, pakub Wan2.6 midagi, mida suletud mudelid ei paku.
Suurem pilt
Reference-to-video esindab nihet selles, kuidas me mõtleme AI video genereerimisest. Küsimus ei ole enam lihtsalt "mis peaks selles videos toimuma", vaid "kes peaks selles olema."
See on personaliseerimise kiht, mis puudus text-to-video'st. Üldised AI avatarid tundusid nagu stock footage. Reference-conditioned tegelased tunduvad nagu sina.
Kombineerituna natiivse audio genereerimisega ja paranevate tegelaste järjepidevusega, läheneme tulevikule, kus professionaalse videosisu loomine nõuab vaid veebikaamera fotot ja tekstikäsku.
Alibaba panustab sellele, et identiteedikeskne genereerimine on järgmine piir. Nüüd, kui Wan2.6 on avatud lähtekoodiga ja töötab tarbija riistvaral, saame peagi teada, kas neil on õigus.
Lisalugemine: Juhtivate AI videomudelite võrdluseks vaata meie Sora 2 vs Runway vs Veo 3 võrdlust. Aluseks oleva arhitektuuri mõistmiseks vaata Diffusion Transformers 2025.
Kas see artikkel oli kasulik?

Henry
Loov tehnoloogLoov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.
Seotud artiklid
Jätkake uurimist nende seotud postitustega

LTX-2: natiivsest 4K AI-video genereerimine tarbija GPU-del läbi avatud lähtekoodi
Lightricks avaldab LTX-2 natiivsest 4K video genereerimise ja sünkroniseeritud heliga, pakkudes avatud lähtekoodist juurdepääsu tarbija riistvarale, kuigi konkurendid jäävad API-lukustuseks, kuigi oluliste jõudluse kompromissidega.

Runway GWM-1: Üldine maailmamudel, mis simuleerib reaalsust reaalajas
Runway GWM-1 märgib paradigma muutust videote genereerimiselt maailmade simuleerimisele. Uurige, kuidas see autoregressive mudel loob uuritavaid keskkondi, fotorealistlikke avataare ja robotite treenimissimulatsioone.

YouTube toob Veo 3 Fasti Shortsidesse: tasuta AI-videote loomine 2,5 miljardile kasutajale
Google integreerib oma Veo 3 Fast mudeli otse YouTube Shortsidesse, pakkudes loojatele üle maailma tasuta tekst-videoks genereerimist koos heliga. Mida see tähendab platvormile ja AI-video kättesaadavusele.