La revolució del vídeo amb IA de codi obert: poden les GPUs de consum competir amb els gegants tecnològics?

Finals de novembre de 2025 podria passar a la història com la setmana en què la generació de vídeo amb IA es va dividir en dos. Mentre Runway celebrava que Gen-4.5 arribés al #1 al Video Arena, alguna cosa més gran passava en segon pla. ByteDance i Tencent van publicar models de vídeo de codi obert que funcionen en maquinari que potser ja tens.

La setmana en què tot va canviar

Em vaig despertar amb el caos als meus servidors de Discord. Tothom parlava de la gran victòria de Runway, però la veritable emoció? Dos llançaments importants de codi obert en dies de diferència:

ByteDance Vidi2

12 mil milions de paràmetres
Capacitats d'edició completes
Pesos oberts a Hugging Face

Tencent HunyuanVideo-1.5

8.3 mil milions de paràmetres
Funciona amb 14GB VRAM
Compatible amb GPUs de consum

Aquest número de 14GB importa. Una RTX 4080 té 16GB. Una RTX 4070 Ti Super té 16GB. De sobte, "executar generació de vídeo amb IA localment" va passar de "necessites un centre de dades" a "necessites un PC gaming."

La gran divisió

💡

Estem veient la generació de vídeo amb IA dividir-se en dos ecosistemes diferents: serveis al núvol propietaris i generació local de codi obert. Ambdós tenen el seu lloc, però per a creadors molt diferents.

Així és com es veu el panorama ara mateix:

Enfocament	Models	Maquinari	Model de cost
Núvol propietari	Runway Gen-4.5, Sora 2, Veo 3	GPUs al núvol	Subscripció + crèdits
Codi obert local	HunyuanVideo, Vidi2, LTX-Video	GPUs de consum	Només electricitat

Els models propietaris encara lideren en qualitat pura. Gen-4.5 no va aconseguir el lloc #1 per accident. Però la qualitat no és l'única dimensió que importa.

Per què el codi obert canvia el joc

Deixeu-me desglossar què significa realment la generació local per als creadors:

Sense costos per generació

Genera 1.000 clips experimentant amb prompts? Cap sistema de crèdits mirant. Cap límit de nivell de subscripció. El teu únic cost és electricitat.

Privacitat completa

Els teus prompts mai surten de la teva màquina. Per a treball comercial amb conceptes sensibles o projectes de clients, això importa enormement.

Iteració il·limitada

Els millors resultats creatius vénen de la iteració. Quan cada generació costa diners, optimitzes per menys intents. Elimina aquesta fricció, i l'exploració creativa es torna il·limitada.

Capacitat fora de línia

Genera vídeo en un avió. En una ubicació remota. Durant una interrupció d'internet. Els models locals no necessiten connexió.

La verificació de realitat del maquinari

Siguem honestos sobre què significa realment "maquinari de consum":

14GB

VRAM mínim

500€+

Cost de GPU

3-5x

Més lent que el núvol

Executar HunyuanVideo-1.5 en una targeta de 14GB és possible però no còmode. Els temps de generació s'allarguen. La qualitat pot requerir múltiples passades. L'experiència no és tan polida com fer clic a "generar" a Runway.

Però aquí està la cosa: aquest cost de GPU és una compra única. Si generes més d'uns centenars de vídeos l'any, les matemàtiques comencen a afavorir la generació local sorprenentment ràpid.

Què poden fer realment els models de codi obert

He estat provant HunyuanVideo-1.5 i Vidi2 des que van sortir. Aquí tens la meva avaluació honesta:

✓Punts forts

Consistència de moviment sòlida
Bona comprensió dels prompts
Qualitat visual respectable
Sense watermarks ni restriccions
Ajust fi possible

✗Febleses

Física encara darrere de Gen-4.5
Sense generació d'àudio nativa
Temps de generació més llargs
Corba d'aprenentatge de configuració més pronunciada
Documentació de qualitat variable

Per a prototipat ràpid, contingut social i treball experimental, aquests models lliuren. Per a la màxima qualitat on cada fotograma importa, els models propietaris encara tenen l'avantatge.

L'estratègia xinesa de codi obert

💡

ByteDance i Tencent publicant models de codi obert no és altruisme. És estratègia.

Ambdues empreses s'enfronten a restriccions en serveis al núvol dels EUA i exportacions de xips. En publicar models de codi obert:

Construeixen comunitat i mindshare globalment
Els desenvolupadors optimitzen les seves arquitectures gratis
Els models milloren a través d'esforç distribuït
El lock-in d'API a empreses dels EUA disminueix

És un joc a llarg termini. I per als creadors independents, és un joc que beneficia a tothom excepte els serveis de subscripció.

El flux de treball híbrid emergent

Els creadors intel·ligents no estan prenent partit. Estan construint fluxos de treball que utilitzen ambdós:

✓Prototipa localment amb models de codi obert
✓Itera sense pressió de costos
✓Utilitza models propietaris per a plans finals hero
✓Ajusta models oberts per a estils específics

Pensa-ho com la fotografia. Potser dispares casualment amb el teu telèfon, experimentes lliurement. Però per a l'exposició a la galeria, treus la càmera de format mitjà. El mateix cervell creatiu, diferents eines per a diferents moments.

Començar amb generació local

Si vols provar això tu mateix, aquí tens el que necessites:

Configuració mínima:

GPU NVIDIA amb 14GB+ VRAM (RTX 4070 Ti Super, 4080, 4090 o 3090)
32GB RAM del sistema
100GB+ emmagatzematge lliure
Linux o Windows amb WSL2

Configuració recomanada:

RTX 4090 amb 24GB VRAM
64GB RAM del sistema
SSD NVMe per a emmagatzematge de models
Màquina dedicada a generació

El procés d'instal·lació implica workflows de ComfyUI, descàrregues de models i certa comoditat amb el terminal. No és trivial, però milers de creadors ho han posat en funcionament. Les comunitats a Reddit i Discord són sorprenentment útils.

Implicacions de mercat

Es projecta que el mercat de generació de vídeo amb IA arribi als 2.56 mil milions de dòlars el 2032. Aquesta projecció assumia que la majoria dels ingressos vindrien de serveis de subscripció. Els models de codi obert compliquen aquesta previsió.

2.56B$

Projecció de mercat 2032

19.5%

Taxa de creixement CAGR

63%

Empreses utilitzant vídeo IA

Quan la generació es converteix en un commodity que funciona en maquinari que ja tens, el valor es desplaça. Les empreses competiran en:

Facilitat d'ús i integració en fluxos de treball
Característiques especialitzades (àudio natiu, duracions més llargues)
Característiques empresarials i suport
Models ajustats per a indústries específiques

La pròpia capacitat de generació pura? Això s'està convertint en table stakes.

La meva predicció

A mitjans de 2026, la generació de vídeo de codi obert igualarà la qualitat propietària per a la majoria de casos d'ús. La bretxa es tancarà més ràpid del que la majoria espera perquè:

El desenvolupament obert accelera tot. Milers d'investigadors milloren models compartits simultàniament.
El maquinari es torna més barat. El mínim de 14GB d'avui serà maquinari de pressupost l'any vinent.
Les eines de la comunitat maduren. Les UI, fluxos de treball i documentació milloren ràpidament.
L'ajust fi es democratitza. Models personalitzats per a estils específics es tornen comuns.

⚠️

Els serveis propietaris no desapareixeran. Competiran en conveniència, integració i capacitats especialitzades en lloc de qualitat de generació en brut.

Què significa això per a tu

Si estàs creant contingut de vídeo, aquí tens el meu consell:

Si generes ocasionalment: Queda't amb els serveis propietaris. El model de subscripció té sentit per a ús casual, i la UX és més polida.

Si generes freqüentment: Comença a explorar opcions locals. La inversió inicial en maquinari i aprenentatge rendeix ràpidament si estàs generant centenars de clips mensualment.

Si estàs construint productes: Considera ambdós. APIs al núvol per als teus usuaris, generació local per a desenvolupament i proves.

Si ets un artista: El codi obert és el teu pati de jocs. Sense termes de servei restringint el que crees. Sense crèdits limitant l'experimentació. Només tu i el model.

El futur és ambdós

No crec que el codi obert "guanyi" o el propietari "guanyi". Ens dirigim cap a un món on ambdós coexisteixen, servint necessitats diferents.

L'analogia a la qual torno sempre: l'streaming de música no va matar els discos de vinil. Va canviar qui compra vinil i per què. El vídeo amb IA de codi obert no matarà Runway o Sora. Canviarà qui els utilitza i per a quin propòsit.

El que importa és que els creadors tenen opcions. Opcions reals, viables i capaços. Finals de novembre de 2025 va ser quan aquestes opcions es van multiplicar.

La revolució del vídeo amb IA no tracta de quin model és el millor. Tracta d'accés, propietat i llibertat creativa. I en els tres fronts, acabem de fer un pas massiu endavant.

Descarrega un model. Genera alguna cosa. Mira què passa quan la fricció desapareix.

El futur de la creació de vídeo s'està construint en dormitoris i soterranis, no només en laboratoris de recerca. I sincerament? Així és exactament com hauria de ser.