Åpen kildekode AI-videomodeller tar endelig igjen forspranget

I årevis føltes åpen kildekode AI-video som å møte opp til et supersportsbilløp på en sykkel. Proprietære modeller fra OpenAI, Google og Runway dominerte hver benchmark, mens åpne alternativer slet med grunnleggende sammenheng. Men noe skiftet sent i 2025, og gapet blir endelig, virkelig mindre.

De nye utfordrerne fra åpen kildekode

La meg være direkte: Hvis du prøvde åpen kildekode videogenerering for et år siden og ga opp i frustrasjon, er det på tide å prøve igjen. Landskapet har forandret seg.

720p

Native oppløsning

24fps

Bildefrekvens

14GB

Min VRAM

Wan 2.2: MoE-gjennombruddet

Alibabas Wan 2.2 fortjener spesiell oppmerksomhet. Det er den første åpen kildekode videomodellen som bruker en Mixture-of-Experts-arkitektur, den samme tilnærmingen som gjorde GPT-4 så kraftfull. Resultatet? Native 720p ved 24fps på forbruker RTX 4090-kort, med 1080p oppnåelig gjennom AI-oppskalering.

💡

Wan 2.2 ble trent på 65% flere bilder og 83% flere videoer enn forgjengeren. Kvalitetsspranget er synlig.

Modellen håndterer fysikk overraskende bra og opprettholder objektpermanens og tyngdekraftskonsistens som tidligere åpne modeller slet med. Den er ikke perfekt, men den er nær nok til å bety noe.

HunyuanVideo 1.5: Gjør mer med mindre

Tencent valgte en annen tilnærming med HunyuanVideo 1.5. I stedet for å skalere opp, skalerte de ned, fra 13 milliarder til 8,3 milliarder parametre, mens de på en eller annen måte økte både hastighet og kvalitet samtidig.

✓Styrker

Kjører på 14GB VRAM med offloading. Native lydintegrasjon. Fysikksimulering innebygd. Effektiv arkitektur.

✗Begrensninger

Tregere enn skyalternativer. Krever teknisk oppsett. Mindre polert enn kommersielle verktøy.

Effektivitetsgevinstene betyr noe fordi de bringer seriøs videogenerering til bærbare datamaskiner og arbeidsstasjoner, ikke bare datasentre.

Open-Sora 2.0: Eksperimentet til 200 000 dollar

Her er et provoserende tall: Open-Sora 2.0 ble trent for omtrent 200 000 dollar. Sammenlign det med hundrevis av millioner som brukes på proprietære modeller. Likevel matcher den kvaliteten til HunyuanVideo med 11 milliarder parametre og utfordrer til og med Step-Videos 30 milliarder-parameter koloss.

Treningskoden er helt åpen. Vektene kan lastes ned. Arkitekturen er dokumentert. Dette er ikke en forskningsforhåndsvisning, det er en produksjonsklar modell du kan kjøre i dag.

Hvorfor gapet krymper

Tre krefter konvergerer:

Midt 2025

Arkitekturkonvergens

Åpne modeller adopterte diffusion transformer-arkitekturer og tok igjen proprietære innovasjoner.

Sent 2025

Treningseffektivitet

Nye teknikker som MoE og sparse attention reduserte beregningskravene dramatisk.

Tidlig 2026

Fellesskapsmomentum

ComfyUI-arbeidsflyter, finjusteringsguider og optimaliseringsverktøy modnet raskt.

Mønsteret speiler det som skjedde da LTX-2 brakte 4K til forbruker-GPU-er, men i større skala.

Den praktiske virkeligheten

La meg være ærlig om hva "ta igjen" faktisk betyr:

Aspekt	Åpen kildekode	Proprietær
Toppkvalitet	85-90%	100%
Genereringshastighet	2-5 minutter	10-30 sekunder
Brukervennlighet	Teknisk oppsett	Ett-klikks web
Kostnad per video	Gratis (etter maskinvare)	1-20 kr
Tilpasningsmuligheter	Ubegrenset	Begrenset

Åpen kildekode ligger fortsatt etter på ren kvalitet og hastighet. Men for mange brukstilfeller spiller det gapet ikke lenger noen rolle.

💡

For mer kontekst om hvordan disse modellene sammenligner med kommersielle alternativer, se vår detaljerte sammenligning av Sora 2, Runway og Veo 3.

Hvem bør bry seg?

🎨

Uavhengige skapere

Generer ubegrenset med videoer uten abonnementskostnader. Tren på din egen stil.

🏢

Bedriftsteam

Distribuer on-premise for sensitivt innhold. Ingen data forlater serverne dine.

🔬

Forskere

Full tilgang til vekter og arkitektur. Modifiser, eksperimenter, publiser.

🎮

Spillutviklere

Generer mellomsekvenser og assets lokalt. Integrer i pipelines.

Seksmånedersprognosen

Basert på nåværende trender forventer jeg:

✓Generering under 10 sekunder blir standard innen Q2 2026
✓Sanntidsgenererings-prototyper dukker opp midt på året
○Kvalitetsparitet med proprietære modeller (fortsatt 12-18 måneder unna)
✓Mainstream ComfyUI-adopsjon akselererer

Diffusion transformer-arkitekturen som driver disse modellene fortsetter å forbedres. Hver måned bringer nye optimaliseringer, nye treningsteknikker, nye effektivitetsgevinster.

Kom i gang

Hvis du vil prøve disse modellene selv:

Wan 2.2: Krever RTX 4090 eller tilsvarende. Tilgjengelig på GitHub med ComfyUI-noder.
HunyuanVideo 1.5: Kjører på 14GB+ VRAM. Hugging Face-integrasjon tilgjengelig.
Open-Sora 2.0: Full trenings- og inferenskode på GitHub.

⚠️

Disse modellene krever teknisk komfort med Python, CUDA og modellasting. De er ennå ikke ett-klikks-løsninger.

Det større bildet

Det som begeistrer meg mest er ikke hvor åpen kildekode video er i dag, men hvor den er på vei. Hvert gjennombrudd innen fysikksimulering og native lydgenerering flyter til slutt inn i åpne modeller.

Demokratiseringen er reell. Verktøyene er tilgjengelige. Gapet blir mindre.

For skapere som har blitt priset ut av premium AI-videoabonnementer, for bedrifter som trenger on-premise-løsninger, for forskere som utforsker grensene for hva som er mulig, dette er øyeblikket å være oppmerksom.

Sykkelen er i ferd med å bli en motorsykkel. Og supersportsbilløpet har blitt mye mer interessant.