La revolució del vídeo amb IA de codi obert: poden les GPUs de consum competir amb els gegants tecnològics?
ByteDance i Tencent acaben de publicar models de vídeo de codi obert que funcionen en maquinari de consum. Això ho canvia tot per als creadors independents.

Finals de novembre de 2025 podria passar a la història com la setmana en què la generació de vídeo amb IA es va dividir en dos. Mentre Runway celebrava que Gen-4.5 arribés al #1 al Video Arena, alguna cosa més gran passava en segon pla. ByteDance i Tencent van publicar models de vídeo de codi obert que funcionen en maquinari que potser ja tens.
La setmana en què tot va canviar
Em vaig despertar amb el caos als meus servidors de Discord. Tothom parlava de la gran victòria de Runway, però la veritable emoció? Dos llançaments importants de codi obert en dies de diferència:
ByteDance Vidi2
- 12 mil milions de paràmetres
- Capacitats d'edició completes
- Pesos oberts a Hugging Face
Tencent HunyuanVideo-1.5
- 8.3 mil milions de paràmetres
- Funciona amb 14GB VRAM
- Compatible amb GPUs de consum
Aquest número de 14GB importa. Una RTX 4080 té 16GB. Una RTX 4070 Ti Super té 16GB. De sobte, "executar generació de vídeo amb IA localment" va passar de "necessites un centre de dades" a "necessites un PC gaming."
La gran divisió
Estem veient la generació de vídeo amb IA dividir-se en dos ecosistemes diferents: serveis al núvol propietaris i generació local de codi obert. Ambdós tenen el seu lloc, però per a creadors molt diferents.
Així és com es veu el panorama ara mateix:
| Enfocament | Models | Maquinari | Model de cost |
|---|---|---|---|
| Núvol propietari | Runway Gen-4.5, Sora 2, Veo 3 | GPUs al núvol | Subscripció + crèdits |
| Codi obert local | HunyuanVideo, Vidi2, LTX-Video | GPUs de consum | Només electricitat |
Els models propietaris encara lideren en qualitat pura. Gen-4.5 no va aconseguir el lloc #1 per accident. Però la qualitat no és l'única dimensió que importa.
Per què el codi obert canvia el joc
Deixeu-me desglossar què significa realment la generació local per als creadors:
Sense costos per generació
Genera 1.000 clips experimentant amb prompts? Cap sistema de crèdits mirant. Cap límit de nivell de subscripció. El teu únic cost és electricitat.
Privacitat completa
Els teus prompts mai surten de la teva màquina. Per a treball comercial amb conceptes sensibles o projectes de clients, això importa enormement.
Iteració il·limitada
Els millors resultats creatius vénen de la iteració. Quan cada generació costa diners, optimitzes per menys intents. Elimina aquesta fricció, i l'exploració creativa es torna il·limitada.
Capacitat fora de línia
Genera vídeo en un avió. En una ubicació remota. Durant una interrupció d'internet. Els models locals no necessiten connexió.
La verificació de realitat del maquinari
Siguem honestos sobre què significa realment "maquinari de consum":
Executar HunyuanVideo-1.5 en una targeta de 14GB és possible però no còmode. Els temps de generació s'allarguen. La qualitat pot requerir múltiples passades. L'experiència no és tan polida com fer clic a "generar" a Runway.
Però aquí està la cosa: aquest cost de GPU és una compra única. Si generes més d'uns centenars de vídeos l'any, les matemàtiques comencen a afavorir la generació local sorprenentment ràpid.
Què poden fer realment els models de codi obert
He estat provant HunyuanVideo-1.5 i Vidi2 des que van sortir. Aquí tens la meva avaluació honesta:
- Consistència de moviment sòlida
- Bona comprensió dels prompts
- Qualitat visual respectable
- Sense watermarks ni restriccions
- Ajust fi possible
- Física encara darrere de Gen-4.5
- Sense generació d'àudio nativa
- Temps de generació més llargs
- Corba d'aprenentatge de configuració més pronunciada
- Documentació de qualitat variable
Per a prototipat ràpid, contingut social i treball experimental, aquests models lliuren. Per a la màxima qualitat on cada fotograma importa, els models propietaris encara tenen l'avantatge.
L'estratègia xinesa de codi obert
ByteDance i Tencent publicant models de codi obert no és altruisme. És estratègia.
Ambdues empreses s'enfronten a restriccions en serveis al núvol dels EUA i exportacions de xips. En publicar models de codi obert:
- Construeixen comunitat i mindshare globalment
- Els desenvolupadors optimitzen les seves arquitectures gratis
- Els models milloren a través d'esforç distribuït
- El lock-in d'API a empreses dels EUA disminueix
És un joc a llarg termini. I per als creadors independents, és un joc que beneficia a tothom excepte els serveis de subscripció.
El flux de treball híbrid emergent
Els creadors intel·ligents no estan prenent partit. Estan construint fluxos de treball que utilitzen ambdós:
- ✓Prototipa localment amb models de codi obert
- ✓Itera sense pressió de costos
- ✓Utilitza models propietaris per a plans finals hero
- ✓Ajusta models oberts per a estils específics
Pensa-ho com la fotografia. Potser dispares casualment amb el teu telèfon, experimentes lliurement. Però per a l'exposició a la galeria, treus la càmera de format mitjà. El mateix cervell creatiu, diferents eines per a diferents moments.
Començar amb generació local
Si vols provar això tu mateix, aquí tens el que necessites:
Configuració mínima:
- GPU NVIDIA amb 14GB+ VRAM (RTX 4070 Ti Super, 4080, 4090 o 3090)
- 32GB RAM del sistema
- 100GB+ emmagatzematge lliure
- Linux o Windows amb WSL2
Configuració recomanada:
- RTX 4090 amb 24GB VRAM
- 64GB RAM del sistema
- SSD NVMe per a emmagatzematge de models
- Màquina dedicada a generació
El procés d'instal·lació implica workflows de ComfyUI, descàrregues de models i certa comoditat amb el terminal. No és trivial, però milers de creadors ho han posat en funcionament. Les comunitats a Reddit i Discord són sorprenentment útils.
Implicacions de mercat
Es projecta que el mercat de generació de vídeo amb IA arribi als 2.56 mil milions de dòlars el 2032. Aquesta projecció assumia que la majoria dels ingressos vindrien de serveis de subscripció. Els models de codi obert compliquen aquesta previsió.
Quan la generació es converteix en un commodity que funciona en maquinari que ja tens, el valor es desplaça. Les empreses competiran en:
- Facilitat d'ús i integració en fluxos de treball
- Característiques especialitzades (àudio natiu, duracions més llargues)
- Característiques empresarials i suport
- Models ajustats per a indústries específiques
La pròpia capacitat de generació pura? Això s'està convertint en table stakes.
La meva predicció
A mitjans de 2026, la generació de vídeo de codi obert igualarà la qualitat propietària per a la majoria de casos d'ús. La bretxa es tancarà més ràpid del que la majoria espera perquè:
- El desenvolupament obert accelera tot. Milers d'investigadors milloren models compartits simultàniament.
- El maquinari es torna més barat. El mínim de 14GB d'avui serà maquinari de pressupost l'any vinent.
- Les eines de la comunitat maduren. Les UI, fluxos de treball i documentació milloren ràpidament.
- L'ajust fi es democratitza. Models personalitzats per a estils específics es tornen comuns.
Els serveis propietaris no desapareixeran. Competiran en conveniència, integració i capacitats especialitzades en lloc de qualitat de generació en brut.
Què significa això per a tu
Si estàs creant contingut de vídeo, aquí tens el meu consell:
Si generes ocasionalment: Queda't amb els serveis propietaris. El model de subscripció té sentit per a ús casual, i la UX és més polida.
Si generes freqüentment: Comença a explorar opcions locals. La inversió inicial en maquinari i aprenentatge rendeix ràpidament si estàs generant centenars de clips mensualment.
Si estàs construint productes: Considera ambdós. APIs al núvol per als teus usuaris, generació local per a desenvolupament i proves.
Si ets un artista: El codi obert és el teu pati de jocs. Sense termes de servei restringint el que crees. Sense crèdits limitant l'experimentació. Només tu i el model.
El futur és ambdós
No crec que el codi obert "guanyi" o el propietari "guanyi". Ens dirigim cap a un món on ambdós coexisteixen, servint necessitats diferents.
L'analogia a la qual torno sempre: l'streaming de música no va matar els discos de vinil. Va canviar qui compra vinil i per què. El vídeo amb IA de codi obert no matarà Runway o Sora. Canviarà qui els utilitza i per a quin propòsit.
El que importa és que els creadors tenen opcions. Opcions reals, viables i capaços. Finals de novembre de 2025 va ser quan aquestes opcions es van multiplicar.
La revolució del vídeo amb IA no tracta de quin model és el millor. Tracta d'accés, propietat i llibertat creativa. I en els tres fronts, acabem de fer un pas massiu endavant.
Descarrega un model. Genera alguna cosa. Mira què passa quan la fricció desapareix.
El futur de la creació de vídeo s'està construint en dormitoris i soterranis, no només en laboratoris de recerca. I sincerament? Així és exactament com hauria de ser.
Fonts
- Llançament de ByteDance Vidi2 (WinBuzzer)
- Article tècnic de Vidi2 (arXiv)
- Llançament de Tencent HunyuanVideo-1.5 (WinBuzzer)
- Classificacions del Video Arena de Runway Gen-4.5 (CNBC)
- Informe del mercat de generadors de vídeo amb IA (Fortune Business Insights)
- Estadístiques de creació de vídeo amb IA 2025 (Zebracat)
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Runway Gen-4.5 al capdavant: Com 100 enginyers han superat Google i OpenAI
Runway acaba de reclamar el primer lloc a Video Arena amb Gen-4.5, demostrant que un petit equip pot superar gegants del trilió de dòlars en generació de vídeo amb IA.

Sora 2: OpenAI declara el moment GPT-3.5 per a la generació de vídeo amb IA
El Sora 2 d'OpenAI representa un moment decisiu en la generació de vídeo amb IA, portant simulacions precises de física, àudio sincronitzat i un control creatiu sense precedents als creadors de vídeo. Explorem què fa que aquest llançament sigui revolucionari i com canvia el panorama per a la creació de contingut.