Els models de vídeo IA de codi obert finalment estan arribant

Durant anys, el vídeo IA de codi obert semblava presentar-se a una cursa de supercotxes amb una bicicleta. Els models propietaris d'OpenAI, Google i Runway dominaven cada referència mentre les alternatives obertes lluitaven amb la coherència bàsica. Però alguna cosa va canviar a finals de 2025, i la bretxa finalment, genuïnament, s'està tancant.

Els nous contendents de codi obert

Deixeu-me ser directe: si vau provar la generació de vídeo de codi obert fa un any i vau abandonar frustrats, és hora de tornar-ho a intentar. El panorama s'ha transformat.

720p

Native Resolution

24fps

Frame Rate

14GB

Min VRAM

Wan 2.2: L'avenç MoE

El Wan 2.2 d'Alibaba mereix una atenció especial. És el primer model de vídeo de codi obert que utilitza una arquitectura Mixture-of-Experts, el mateix enfocament que va fer GPT-4 tan potent. El resultat? 720p natiu a 24fps funcionant en targetes RTX 4090 de consumidor, amb 1080p assolible mitjançant upscaling amb IA.

💡

Wan 2.2 es va entrenar amb un 65% més d'imatges i un 83% més de vídeos que el seu predecessor. El salt de qualitat és visible.

El model gestiona la física sorprenentment bé, mantenint la permanència d'objectes i la consistència gravitacional que els models oberts anteriors fallaven. No és perfecte, però és prou proper per importar.

HunyuanVideo 1.5: Fer més amb menys

Tencent va adoptar un enfocament diferent amb HunyuanVideo 1.5. En lloc d'escalar cap amunt, van escalar cap avall, de 13 mil milions a 8,3 mil milions de paràmetres, mentre d'alguna manera augmentaven la velocitat i la qualitat simultàniament.

✓Strengths

Funciona amb 14GB de VRAM amb descàrrega. Integració d'àudio nativa. Simulació de física incorporada. Arquitectura eficient.

✗Limitations

Més lent que les alternatives al núvol. Requereix configuració tècnica. Menys polit que les eines comercials.

Els guanys d'eficiència importen perquè porten la generació de vídeo seriosa a portàtils i estacions de treball, no només a centres de dades.

Open-Sora 2.0: L'experiment de $200K

Aquí hi ha un número provocador: Open-Sora 2.0 es va entrenar per aproximadament $200.000. Compareu això amb els centenars de milions gastats en models propietaris. Tot i així, iguala la qualitat de l'HunyuanVideo d'11 mil milions de paràmetres i fins i tot desafia el gegant Step-Video de 30 mil milions de paràmetres.

El codi d'entrenament és completament obert. Els pesos es poden descarregar. L'arquitectura està documentada. Això no és una vista prèvia de recerca, és un model llest per a producció que podeu executar avui.

Per què la bretxa s'està reduint

Tres forces estan convergint:

Mid 2025

Convergència d'arquitectura

Els models oberts van adoptar arquitectures de transformer de difusió, posant-se al dia amb les innovacions propietàries.

Late 2025

Eficiència d'entrenament

Noves tècniques com MoE i atenció dispersa van reduir dràsticament els requisits computacionals.

Early 2026

Impuls de la comunitat

Els fluxos de treball de ComfyUI, les guies d'ajust fi i les eines d'optimització van madurar ràpidament.

El patró reflecteix el que va passar amb LTX-2 portant 4K a GPUs de consumidor, però a una escala més gran.

La realitat pràctica

Deixeu-me ser honest sobre què significa realment "arribar":

Aspecte	Codi obert	Propietari
Qualitat màxima	85-90%	100%
Velocitat de generació	2-5 minuts	10-30 segons
Facilitat d'ús	Configuració tècnica	Web d'un clic
Cost per vídeo	Gratuït (després del maquinari)	$0.10-$2.00
Personalització	Il·limitada	Limitada

El codi obert encara va per darrere en qualitat i velocitat brutes. Però per a molts casos d'ús, aquesta bretxa ja no importa.

💡

Per a més context sobre com es comparen aquests models amb les opcions comercials, consulteu la nostra comparació detallada de Sora 2, Runway i Veo 3.

Qui hauria de preocupar-se?

🎨

Creadors independents

Genereu vídeos il·limitats sense costos de subscripció. Entrena amb el teu propi estil.

🏢

Equips empresarials

Desplegueu in situ per a contingut sensible. Cap dada surt dels vostres servidors.

🔬

Investigadors

Accés complet a pesos i arquitectura. Modifiqueu, experimenteu, publiqueu.

🎮

Desenvolupadors de jocs

Genereu escenes cinemàtiques i recursos localment. Integreu a les vostres pipelines.

La previsió de sis mesos

Basant-me en les trajectòries actuals, espero:

✓Generació sub-10-segons convertint-se en estàndard pel Q2 2026
✓Prototips de generació en temps real emergint a mitjans d'any
○Paritat de qualitat amb models propietaris (encara falten 12-18 mesos)
✓Adopció de ComfyUI convencional accelerant-se

L'arquitectura de transformer de difusió que impulsa aquests models continua millorant. Cada mes porta noves optimitzacions, noves tècniques d'entrenament, nous guanys d'eficiència.

Començant

Si voleu provar aquests models vosaltres mateixos:

Wan 2.2: Requereix RTX 4090 o equivalent. Disponible a GitHub amb nodes ComfyUI.
HunyuanVideo 1.5: Funciona amb 14GB+ de VRAM. Integració amb Hugging Face disponible.
Open-Sora 2.0: Codi complet d'entrenament i inferència a GitHub.

⚠️

Aquests models requereixen comoditat tècnica amb Python, CUDA i càrrega de models. Encara no són solucions d'un sol clic.

El panorama més ampli

El que més m'emociona no és on és el vídeo de codi obert avui, sinó cap on es dirigeix. Cada avenç en simulació de física i generació d'àudio nativa eventualment flueix cap als models oberts.

La democratització és real. Les eines són accessibles. La bretxa s'està tancant.

Per als creadors que han estat exclosos de les subscripcions de vídeo IA premium, per a les empreses que necessiten solucions in situ, per als investigadors que empenten els límits del possible, aquest és el moment de prestar atenció.

La bicicleta s'està convertint en una moto. I la cursa de supercotxes s'ha tornat molt més interessant.