Els models de vídeo IA de codi obert finalment estan arribant
Wan 2.2, HunyuanVideo 1.5 i Open-Sora 2.0 estan reduint la distància amb els gegants propietaris. Això és el que significa per a creadors i empreses.

Durant anys, el vídeo IA de codi obert semblava presentar-se a una cursa de supercotxes amb una bicicleta. Els models propietaris d'OpenAI, Google i Runway dominaven cada referència mentre les alternatives obertes lluitaven amb la coherència bàsica. Però alguna cosa va canviar a finals de 2025, i la bretxa finalment, genuïnament, s'està tancant.
Els nous contendents de codi obert
Deixeu-me ser directe: si vau provar la generació de vídeo de codi obert fa un any i vau abandonar frustrats, és hora de tornar-ho a intentar. El panorama s'ha transformat.
Wan 2.2: L'avenç MoE
El Wan 2.2 d'Alibaba mereix una atenció especial. És el primer model de vídeo de codi obert que utilitza una arquitectura Mixture-of-Experts, el mateix enfocament que va fer GPT-4 tan potent. El resultat? 720p natiu a 24fps funcionant en targetes RTX 4090 de consumidor, amb 1080p assolible mitjançant upscaling amb IA.
Wan 2.2 es va entrenar amb un 65% més d'imatges i un 83% més de vídeos que el seu predecessor. El salt de qualitat és visible.
El model gestiona la física sorprenentment bé, mantenint la permanència d'objectes i la consistència gravitacional que els models oberts anteriors fallaven. No és perfecte, però és prou proper per importar.
HunyuanVideo 1.5: Fer més amb menys
Tencent va adoptar un enfocament diferent amb HunyuanVideo 1.5. En lloc d'escalar cap amunt, van escalar cap avall, de 13 mil milions a 8,3 mil milions de paràmetres, mentre d'alguna manera augmentaven la velocitat i la qualitat simultàniament.
Funciona amb 14GB de VRAM amb descàrrega. Integració d'àudio nativa. Simulació de física incorporada. Arquitectura eficient.
Més lent que les alternatives al núvol. Requereix configuració tècnica. Menys polit que les eines comercials.
Els guanys d'eficiència importen perquè porten la generació de vídeo seriosa a portàtils i estacions de treball, no només a centres de dades.
Open-Sora 2.0: L'experiment de $200K
Aquí hi ha un número provocador: Open-Sora 2.0 es va entrenar per aproximadament $200.000. Compareu això amb els centenars de milions gastats en models propietaris. Tot i així, iguala la qualitat de l'HunyuanVideo d'11 mil milions de paràmetres i fins i tot desafia el gegant Step-Video de 30 mil milions de paràmetres.
El codi d'entrenament és completament obert. Els pesos es poden descarregar. L'arquitectura està documentada. Això no és una vista prèvia de recerca, és un model llest per a producció que podeu executar avui.
Per què la bretxa s'està reduint
Tres forces estan convergint:
Convergència d'arquitectura
Els models oberts van adoptar arquitectures de transformer de difusió, posant-se al dia amb les innovacions propietàries.
Eficiència d'entrenament
Noves tècniques com MoE i atenció dispersa van reduir dràsticament els requisits computacionals.
Impuls de la comunitat
Els fluxos de treball de ComfyUI, les guies d'ajust fi i les eines d'optimització van madurar ràpidament.
El patró reflecteix el que va passar amb LTX-2 portant 4K a GPUs de consumidor, però a una escala més gran.
La realitat pràctica
Deixeu-me ser honest sobre què significa realment "arribar":
| Aspecte | Codi obert | Propietari |
|---|---|---|
| Qualitat màxima | 85-90% | 100% |
| Velocitat de generació | 2-5 minuts | 10-30 segons |
| Facilitat d'ús | Configuració tècnica | Web d'un clic |
| Cost per vídeo | Gratuït (després del maquinari) | $0.10-$2.00 |
| Personalització | Il·limitada | Limitada |
El codi obert encara va per darrere en qualitat i velocitat brutes. Però per a molts casos d'ús, aquesta bretxa ja no importa.
Per a més context sobre com es comparen aquests models amb les opcions comercials, consulteu la nostra comparació detallada de Sora 2, Runway i Veo 3.
Qui hauria de preocupar-se?
Creadors independents
Genereu vídeos il·limitats sense costos de subscripció. Entrena amb el teu propi estil.
Equips empresarials
Desplegueu in situ per a contingut sensible. Cap dada surt dels vostres servidors.
Investigadors
Accés complet a pesos i arquitectura. Modifiqueu, experimenteu, publiqueu.
Desenvolupadors de jocs
Genereu escenes cinemàtiques i recursos localment. Integreu a les vostres pipelines.
La previsió de sis mesos
Basant-me en les trajectòries actuals, espero:
- ✓Generació sub-10-segons convertint-se en estàndard pel Q2 2026
- ✓Prototips de generació en temps real emergint a mitjans d'any
- ○Paritat de qualitat amb models propietaris (encara falten 12-18 mesos)
- ✓Adopció de ComfyUI convencional accelerant-se
L'arquitectura de transformer de difusió que impulsa aquests models continua millorant. Cada mes porta noves optimitzacions, noves tècniques d'entrenament, nous guanys d'eficiència.
Començant
Si voleu provar aquests models vosaltres mateixos:
- Wan 2.2: Requereix RTX 4090 o equivalent. Disponible a GitHub amb nodes ComfyUI.
- HunyuanVideo 1.5: Funciona amb 14GB+ de VRAM. Integració amb Hugging Face disponible.
- Open-Sora 2.0: Codi complet d'entrenament i inferència a GitHub.
Aquests models requereixen comoditat tècnica amb Python, CUDA i càrrega de models. Encara no són solucions d'un sol clic.
El panorama més ampli
El que més m'emociona no és on és el vídeo de codi obert avui, sinó cap on es dirigeix. Cada avenç en simulació de física i generació d'àudio nativa eventualment flueix cap als models oberts.
La democratització és real. Les eines són accessibles. La bretxa s'està tancant.
Per als creadors que han estat exclosos de les subscripcions de vídeo IA premium, per a les empreses que necessiten solucions in situ, per als investigadors que empenten els límits del possible, aquest és el moment de prestar atenció.
La bicicleta s'està convertint en una moto. I la cursa de supercotxes s'ha tornat molt més interessant.
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

ByteDance Vidi2: IA que entén el vídeo com un editor
ByteDance acaba de publicar Vidi2 com a codi obert, un model de 12B paràmetres que entén el contingut de vídeo prou bé per editar automàticament hores de metratge en clips polits. Ja impulsa TikTok Smart Split.

La revolució del vídeo amb IA de codi obert: poden les GPUs de consum competir amb els gegants tecnològics?
ByteDance i Tencent acaben de publicar models de vídeo de codi obert que funcionen en maquinari de consum. Això ho canvia tot per als creadors independents.

Plataformes de Vídeo per a Contar Històries amb IA: Com el Contingut Serialitzat ho Està Canviant Tot el 2026
Des de clips aïllats fins a sèries completes, el vídeo amb IA evoluciona d"una eina de generació a un motor de narració. Coneix les plataformes que ho fan possible.