Open source AI-videomodeller er endelig ved at indhente forspringet

I årevis føltes open source AI-video som at møde op til et supersportsvognsløb på en cykel. Proprietære modeller fra OpenAI, Google og Runway dominerede hver benchmark, mens åbne alternativer kæmpede med basal sammenhæng. Men noget skiftede i slutningen af 2025, og gabet er endelig, virkelig ved at blive mindre.

De nye open source-udfordrere

Lad mig være direkte: Hvis du prøvede open source videogenerering for et år siden og gav op i frustration, er det tid til at prøve igen. Landskabet har forandret sig.

720p

Native opløsning

24fps

Billedfrekvens

14GB

Min VRAM

Wan 2.2: MoE-gennembruddet

Alibabas Wan 2.2 fortjener særlig opmærksomhed. Det er den første open source videomodel, der bruger en Mixture-of-Experts-arkitektur, den samme tilgang der gjorde GPT-4 så kraftfuld. Resultatet? Native 720p ved 24fps på forbruger RTX 4090-kort, med 1080p opnåeligt gennem AI-opskalering.

💡

Wan 2.2 blev trænet på 65% flere billeder og 83% flere videoer end sin forgænger. Kvalitetsspringet er synligt.

Modellen håndterer fysik overraskende godt og opretholder objektpermanens og tyngdekraftskonsistens, som tidligere åbne modeller fejlede med. Den er ikke perfekt, men den er tæt nok på til at betyde noget.

HunyuanVideo 1.5: Gør mere med mindre

Tencent valgte en anden tilgang med HunyuanVideo 1.5. I stedet for at skalere op, skalerede de ned, fra 13 milliarder til 8,3 milliarder parametre, mens de på en eller anden måde øgede både hastighed og kvalitet samtidig.

✓Styrker

Kører på 14GB VRAM med offloading. Native lydintegration. Fysiksimulering indbygget. Effektiv arkitektur.

✗Begrænsninger

Langsommere end cloud-alternativer. Kræver teknisk opsætning. Mindre poleret end kommercielle værktøjer.

Effektivitetsgevinsterne betyder noget, fordi de bringer seriøs videogenerering til bærbare computere og arbejdsstationer, ikke kun datacentre.

Open-Sora 2.0: Eksperimentet til 200.000 dollars

Her er et provokerende tal: Open-Sora 2.0 blev trænet for omkring 200.000 dollars. Sammenlign det med de hundredvis af millioner, der bruges på proprietære modeller. Alligevel matcher den kvaliteten af HunyuanVideo med 11 milliarder parametre og udfordrer endda Step-Videos 30 milliarder-parameter kolos.

Træningskoden er helt åben. Vægtene kan downloades. Arkitekturen er dokumenteret. Dette er ikke en forskningspreview, det er en produktionsklar model, du kan køre i dag.

Hvorfor gabet skrumper

Tre kræfter konvergerer:

Midt 2025

Arkitekturkonvergens

Åbne modeller adopterede diffusion transformer-arkitekturer og indhentede proprietære innovationer.

Slut 2025

Træningseffektivitet

Nye teknikker som MoE og sparse attention reducerede beregningskravene drastisk.

Start 2026

Community-momentum

ComfyUI-workflows, finjusteringsguides og optimeringsværktøjer modnes hurtigt.

Mønstret afspejler, hvad der skete, da LTX-2 bragte 4K til forbruger-GPU'er, men i større skala.

Den praktiske virkelighed

Lad mig være ærlig om, hvad "indhente" faktisk betyder:

Aspekt	Open source	Proprietær
Topkvalitet	85-90%	100%
Genereringshastighed	2-5 minutter	10-30 sekunder
Brugervenlighed	Teknisk opsætning	Et-klik web
Pris pr. video	Gratis (efter hardware)	0,75-15 kr
Tilpasningsmuligheder	Ubegrænsede	Begrænsede

Open source halter stadig efter på ren kvalitet og hastighed. Men for mange anvendelsestilfælde betyder det gab ikke længere noget.

💡

For mere kontekst om, hvordan disse modeller sammenligner med kommercielle muligheder, se vores detaljerede sammenligning af Sora 2, Runway og Veo 3.

Hvem bør interessere sig?

🎨

Uafhængige skabere

Generer ubegrænsede videoer uden abonnementsomkostninger. Træn på din egen stil.

🏢

Virksomhedsteams

Implementer on-premise til følsomt indhold. Ingen data forlader dine servere.

🔬

Forskere

Fuld adgang til vægte og arkitektur. Modificer, eksperimenter, publicer.

🎮

Spiludviklere

Generer mellemsekvenser og assets lokalt. Integrer i pipelines.

Seksmåneders prognosen

Baseret på nuværende tendenser forventer jeg:

✓Generering under 10 sekunder bliver standard inden Q2 2026
✓Realtidsgenererings-prototyper dukker op midt på året
○Kvalitetsparitet med proprietære modeller (stadig 12-18 måneder væk)
✓Mainstream ComfyUI-adoption accelererer

Diffusion transformer-arkitekturen, der driver disse modeller, fortsætter med at forbedre sig. Hver måned bringer nye optimeringer, nye træningsteknikker, nye effektivitetsgevinster.

Kom i gang

Hvis du vil prøve disse modeller selv:

Wan 2.2: Kræver RTX 4090 eller tilsvarende. Tilgængelig på GitHub med ComfyUI-noder.
HunyuanVideo 1.5: Kører på 14GB+ VRAM. Hugging Face-integration tilgængelig.
Open-Sora 2.0: Fuld trænings- og inferenskode på GitHub.

⚠️

Disse modeller kræver teknisk komfort med Python, CUDA og modelindlæsning. De er endnu ikke et-klik-løsninger.

Det større billede

Det, der begejstrer mig mest, er ikke hvor open source video er i dag, men hvor den er på vej hen. Hvert gennembrud inden for fysiksimulering og native lydgenerering flyder til sidst ind i åbne modeller.

Demokratiseringen er reel. Værktøjerne er tilgængelige. Gabet bliver mindre.

For skabere, der er blevet prissat ud af premium AI-videoabonnementer, for virksomheder, der har brug for on-premise-løsninger, for forskere, der skubber grænserne for det mulige, dette er øjeblikket at være opmærksom.

Cyklen er ved at blive en motorcykel. Og supersportsvognsløbet er blevet meget mere interessant.