Meta Pixel
HenryHenry
5 min read
843 orð

Opinn hugbúnaður fyrir gervigreindarmyndbönd er loksins að ná í

Wan 2.2, HunyuanVideo 1.5 og Open-Sora 2.0 eru að minnka bilið til eignarleyfisbundinna risa. Hér er hvað það þýðir fyrir skapandi fólk og fyrirtæki.

Opinn hugbúnaður fyrir gervigreindarmyndbönd er loksins að ná í

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Í mörg ár leið opinn hugbúnaður fyrir gervigreindarmyndbönd eins og að mæta í ofurbílakapphlaup á reiðhjóli. Eignarleyfisbundin líkön frá OpenAI, Google og Runway voru best í hverju viðmiði á meðan opnir valkostir áttu í erfiðleikum með grunnsamkvæmni. En eitthvað breyttist seint á árinu 2025 og bilið er loksins, raunverulega, að minnka.

Nýir opnir keppinautar

Ég vil vera hreinskilinn: ef þú prófaðir opna myndbandsgerð fyrir ári og gafst upp í gremju, þá er kominn tími til að prófa aftur. Landslagið hefur gjörbreyst.

720p
Upprunaleg upplausn
24fps
Rammatíðni
14GB
Lágmarks VRAM

Wan 2.2: MoE byltingin

Wan 2.2 frá Alibaba verðskuldar sérstaka athygli. Það er fyrsta opna myndbandalíkanið sem notar Mixture-of-Experts arkitektúr, sömu nálgun og gerði GPT-4 svo öflugt. Niðurstaðan? Upprunaleg 720p við 24fps sem keyrir á RTX 4090 neytendakortum, með 1080p mögulegt með gervigreindarbættri upplausn.

💡

Wan 2.2 var þjálfað á 65% fleiri myndum og 83% fleiri myndböndum en forveri þess. Gæðastökkið er sýnilegt.

Líkanið meðhöndlar eðlisfræði furðu vel og heldur hlutafyrirferð og þyngdarsamkvæmni sem fyrri opin líkön klúðruðu. Það er ekki fullkomið, en það er nógu nálægt til að skipta máli.

HunyuanVideo 1.5: Að gera meira með minna

Tencent tók aðra leið með HunyuanVideo 1.5. Í stað þess að stækka, minnkuðu þeir, úr 13 milljörðum í 8,3 milljarða stika, á sama tíma og þeir juku hraða og gæði samtímis.

Styrkleikar

Keyrir á 14GB VRAM með offloading. Innbyggð hljóðsamþætting. Eðlisfræðiherming innbyggð. Hagkvæm arkitektúr.

Takmarkanir

Hægari en skýjalausnir. Krefst tæknilegrar uppsetningar. Minna slípað en viðskiptatól.

Hagkvæmnisbæturnar skipta máli vegna þess að þær færa alvöru myndbandsgerð til fartölva og vinnustöðva, ekki aðeins gagnavera.

Open-Sora 2.0: 200.000 dollara tilraunin

Hér er ögrandi tala: Open-Sora 2.0 var þjálfað fyrir um 200.000 dollara. Berðu það saman við hundruð milljóna sem varið er í eignarleyfisbundin líkön. Samt jafnar það gæði 11 milljarða stika HunyuanVideo og skorar jafnvel á 30 milljarða stika Step-Video risann.

Þjálfunarkóðinn er algjörlega opinn. Vögtin er niðurhalanleg. Arkitektúrinn er skjalfestur. Þetta er ekki rannsóknarforskoðun, þetta er framleiðslutilbúið líkan sem þú getur keyrt í dag.

Hvers vegna bilið er að minnka

Þrír kraftar eru að sameinast:

Mitt ár 2025

Arkitektúrasamruni

Opin líkön tóku upp diffusion transformer arkitektúr og náðu eignarleyfisbundnum nýjungum.

Seint 2025

Þjálfunarhagkvæmni

Nýjar aðferðir eins og MoE og sparse attention minnkuðu reiknikröfur verulega.

Snemma 2026

Samfélagsstyrkur

ComfyUI verkflæði, fínstillingarleiðbeiningar og hagræðingartól þroskaðist hratt.

Mynstrið endurspeglar það sem gerðist með LTX-2 sem færði 4K til neytenda-GPU, en í stærra mæli.

Hagnýtt raunveruleiki

Ég vil vera hreinskilinn um hvað "að ná í" þýðir í raun:

ÞátturOpinn hugbúnaðurEignarleyfisbundinn
Hámarksgæði85-90%100%
Myndgerðarhraði2-5 mínútur10-30 sekúndur
Auðveld notkunTæknileg uppsetningEinn smellur á vef
Kostnaður á myndbandÓkeypis (eftir vélbúnað)$0.10-$2.00
SérsníðingÓtakmörkuðTakmörkuð

Opinn hugbúnaður er enn á eftir í hráum gæðum og hraða. En fyrir mörg notkunartilvik skiptir bilið ekki lengur máli.

💡

Fyrir frekara samhengi um hvernig þessi líkön bera saman við viðskiptavalkosti, sjá ítarlegan samanburð okkar á Sora 2, Runway og Veo 3.

Hverjir ættu að láta þetta varða sig?

🎨

Sjálfstæðir skaparar

Búðu til ótakmörkuð myndbönd án áskriftarkostnaðar. Þjálfaðu á eigin stíl.

🏢

Fyrirtækjateymi

Settu upp innanhúss fyrir viðkvæmt efni. Engin gögn fara frá þínum netþjónum.

🔬

Rannsakendur

Fullur aðgangur að vögtum og arkitektúr. Breyttu, tilraundu, birtu.

🎮

Leikjaþróunaraðilar

Búðu til klippimyndir og eignir staðbundið. Samþættu í verkflæði.

Sex mánaða spá

Byggt á núverandi þróun, býst ég við:

  • Undir-10-sekúndna myndgerð verður staðall um Q2 2026
  • Rauntíma myndgerðar frumgerðir koma fram um miðjan árið
  • Gæðajafnvægi við eignarleyfisbundin líkön (enn 12-18 mánuðir í burtu)
  • Almennt ComfyUI upptaka eykst hraðar

Diffusion transformer arkitektúrinn sem knýr þessi líkön heldur áfram að batna. Hver mánuður færir nýjar hagræðingar, nýjar þjálfunaraðferðir, nýja hagkvæmnisábata.

Að byrja

Ef þú vilt prófa þessi líkön sjálf/ur:

  1. Wan 2.2: Krefst RTX 4090 eða jafngilt. Fáanlegt á GitHub með ComfyUI hnútum.
  2. HunyuanVideo 1.5: Keyrir á 14GB+ VRAM. Hugging Face samþætting fáanleg.
  3. Open-Sora 2.0: Fullur þjálfunar- og ályktunarkóði á GitHub.
⚠️

Þessi líkön krefjast tæknilegrar kunnáttu með Python, CUDA og líkana-hleðslu. Þau eru ekki enn eins-smells lausnir.

Stærri myndin

Það sem vekur mesta spennu mína er ekki hvar opinn hugbúnaður fyrir myndbönd er í dag, heldur hvert hann stefnir. Hvert byltingarþrep í eðlisfræðihermun og innbyggðri hljóðframleiðslu rennur að lokum inn í opin líkön.

Lýðræðisvæðingin er raunveruleg. Tólin eru aðgengileg. Bilið er að minnka.

Fyrir skapandi fólk sem hefur verið útilokað frá úrvals gervigreindarmyndbandsáskriftum, fyrir fyrirtæki sem þurfa innanhússlausnir, fyrir rannsakendur sem ýta við mörkum þess sem er mögulegt, þá er þetta augnablikið til að gefa gaum.

Reiðhjólið er að verða mótorhjól. Og ofurbílakapphlaupið varð mun áhugaverðara.

Var þessi grein gagnleg?

Henry

Henry

Skapandi tæknimaður

Skapandi tæknimaður frá Lausanne sem kannar þar sem gervigreind hittir listir. Tilraunir með framleiðandi líkön á milli rafeindatónleikaþátta.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

Opinn hugbúnaður fyrir gervigreindarmyndbönd er loksins að ná í