Meta Pixel
HenryHenry
6 min read
1197 sõna

Avatud lähtekoodiga AI-video revolutsioon: Kas tarbija GPU-d saavad konkureerida tehnoloogiahiidudega?

ByteDance ja Tencent avaldasid just avatud lähtekoodiga videomudelid, mis töötavad tavalise tarbijariistvaral. See muudab kõike sõltumatute loojate jaoks.

Avatud lähtekoodiga AI-video revolutsioon: Kas tarbija GPU-d saavad konkureerida tehnoloogiahiidudega?
  1. aasta novembri lõpp võib jääda ajalukku nädalana, mil AI-video genereerimine jagunes kaheks. Samal ajal kui Runway tähistus Gen-4.5 esikohta Video Arenal, toimus taustal midagi suuremat. ByteDance ja Tencent avaldasid avatud lähtekoodiga videomudelid, mis töötavad riistvaral, mis teil võib juba olemas olla.

Nädal, mil kõik muutus

Ärgates kohtasin kaost oma Discord-serverites. Kõik rääkisid Runway suurest võidust, aga päris põnevus? Kaks suurt avatud lähtekoodiga väljalasket mõne päeva jooksul:

ByteDance Vidi2

  • 12 miljardit parameetrit
  • Täielikud redigeerimisfunktsioonid
  • Avatud kaalud Hugging Face'is

Tencent HunyuanVideo-1.5

  • 8,3 miljardit parameetrit
  • Töötab 14 GB VRAM-iga
  • Tarbija GPU sõbralik

See 14 GB number on oluline. RTX 4080-l on 16 GB. RTX 4070 Ti Super-il on 16 GB. Äkki läks "AI-video genereerimise lokaalne käitamine" seisust "vajad andmekeskust" seisu "vajad mänguarvutit."

Suur lõhe

💡

Näeme, kuidas AI-video genereerimine jaguneb kaheks eraldi ökosüsteemiks: omanduslikud pilveteenused ja avatud lähtekoodiga lokaalne genereerimine. Mõlemal on oma koht, kuid väga erinevatele loojatele.

Nii näeb maastik praegu välja:

LähenemisviisMudelidRiistvaraKulude mudel
Omandiline pilvRunway Gen-4.5, Sora 2, Veo 3Pilve GPU-dTellimus + krediidid
Avatud lähtekoodiga lokaalneHunyuanVideo, Vidi2, LTX-VideoTarbija GPU-dAinult elekter

Omanduslikud mudelid juhivad endiselt puhta kvaliteedi poolest. Gen-4.5 ei saavutanud esikohta juhuslikult. Kuid kvaliteet ei ole ainus oluline dimensioon.

Miks avatud lähtekood muudab mängu

Selgitan, mida lokaalne genereerimine tegelikult tähendab loojatele:

1.

Genereerimise kohta puuduvad kulud

Genereeri 1000 klippi, katsetades promptidega? Krediidisüsteem ei jälgi. Tellimustaseme piiranguid pole. Ainus kulu on elekter.

2.

Täielik privaatsus

Teie promptid ei lahku kunagi teie masinast. Kaubanduslike tööde puhul tundlike kontseptsioonide või klientide projektidega on see tohutult oluline.

3.

Piiramatu itereerimine

Parimad loomingulised tulemused tulevad itereerimisest. Kui iga genereerimine maksab raha, optimeerite vähemate katsete jaoks. Eemaldage see hõõrdumine ja loov uurimine muutub piiramatuks.

4.

Võrguühenduseta võimekus

Genereeri videot lennukis. Kauges kohas. Internetikatkestuse ajal. Lokaalsed mudelid ei vaja ühendust.

Riistvara reaalsuse kontroll

Oleme ausad selle kohta, mida "tarbijaristvara" tegelikult tähendab:

14 GB
Minimaalne VRAM
$500+
GPU hind
3-5x
Aeglasem kui pilv

HunyuanVideo-1.5 töötamine 14 GB kaardil on võimalik, kuid mitte mugav. Genereerimisajad venitavad pikemaks. Kvaliteet võib nõuda mitut läbimist. Kogemus ei ole nii poleeritud kui "genereeri" klõpsamine Runway-l.

Aga siin on point: GPU hind on ühekordsne ost. Kui genereerite rohkem kui paar sada videot aastas, hakkab matemaatika üllatavalt kiiresti soosima lokaalset genereerimist.

Mida avatud lähtekoodiga mudelid tegelikult saavad teha

Olen testinud HunyuanVideo-1.5 ja Vidi2 nende avaldamisest saati. Siin on minu aus hinnang:

Tugevused
  • Korralik liikumise järjepidevus
  • Hea prompti mõistmine
  • Korralik visuaalne kvaliteet
  • Veemärgid või piirangud puuduvad
  • Täpsustamine võimalik
Nõrkused
  • Füüsika ikka maas Gen-4.5-st
  • Natiivne heli genereerimine puudub
  • Pikemad genereerimisajad
  • Järsem õppimiskõver seadistamisel
  • Dokumentatsiooni kvaliteet varieerub

Kiireks prototüüpimiseks, sotsiaalmeedia sisule ja eksperimentaalsele tööle need mudelid sobivad. Absoluutselt kõrgeimaks kvaliteediks, kus iga kaader loeb, on omanduslikel mudelitel endiselt eelis.

Hiina avatud lähtekoodiga strateegia

💡

ByteDance'i ja Tencenti avatud lähtekoodiga mudelite avaldamine ei ole altruism. See on strateegia.

Mõlemad ettevõtted seisavad silmitsi piirangutega USA pilveteenuste ja kiipide ekspordi osas. Avatud lähtekoodiga mudelite avaldamisega:

  • Loovad nad kogukonda ja teadlikkust üleilmselt
  • Arendajad optimeerivad nende arhitektuure tasuta
  • Mudelid paranevad hajutatud pingutuse kaudu
  • API-lukustamine USA ettevõtetesse väheneb

See on pikk mäng. Ja sõltumatute loojate jaoks on see mäng, mis toob kasu kõigile peale tellimuse teenuste.

Kujunev hübriidne töövoog

Targad loojad ei vali poolt. Nad loovad töövoogusid, mis kasutavad mõlemat:

  • Prototüüp lokaalselt avatud lähtekoodiga mudelitega
  • Itereeri ilma kulurõhuta
  • Kasuta omanduslikke mudeleid lõplike kangelaskaadrile
  • Täpsusta avatud mudeleid konkreetsetele stiilidele

Mõtle sellele nagu fotograafia. Võid pildistada juhuslikult oma telefoniga, eksperimenteerida vabalt. Aga galerii näituse jaoks võtad välja keskmise formaadi kaamera. Sama loov aju, erinevad tööriistad erinevateks hetkedeks.

Alustamine lokaalse genereerimisega

Kui soovid seda ise proovida, siin on see, mida vajad:

Minimaalne seadistus:

  • NVIDIA GPU 14 GB+ VRAM-iga (RTX 4070 Ti Super, 4080, 4090 või 3090)
  • 32 GB süsteemi RAM
  • 100 GB+ vaba salvestusruumi
  • Linux või Windows WSL2-ga

Soovitatav seadistus:

  • RTX 4090 24 GB VRAM-iga
  • 64 GB süsteemi RAM
  • NVMe SSD mudelite salvestamiseks
  • Spetsiaalne genereerimismasin

Installiprotsess hõlmab ComfyUI töövoogusid, mudelite allalaadimisi ja mõningast terminali oskust. Mitte triviaalne, kuid tuhanded loojad on selle tööle saanud. Reddit'i ja Discordi kogukonnad on üllatavalt abivalmid.

Turu mõjud

AI-video genereerimise turu prognoositakse jõudvat 2,56 miljardi dollarini 2032. aastaks. See prognoos eeldas, et enamik tulusid tuleks tellimuse teenustest. Avatud lähtekoodiga mudelid muudavad selle prognoosi keerulisemaks.

$2,56 mlrd
2032 turu prognoos
19,5%
CAGR kasvumäär
63%
Ettevõtted kasutavad AI-videot

Kui genereerimine muutub kaubaks, mis töötab riistvaral, mis teil juba on, liigub väärtus. Ettevõtted konkureerivad:

  • Kasutusmugavus ja töövoo integratsioon
  • Spetsialiseeritud funktsioonid (natiivne heli, pikemad kestused)
  • Ettevõtte funktsioonid ja tugi
  • Täpsustatud mudelid konkreetsetele tööstusharudele

Genereerimise võimekus ise? See muutub põhiliseks.

Minu ennustus

  1. aasta keskpaigaks vastab avatud lähtekoodiga video genereerimine omanduslikule kvaliteedile enamiku kasutusjuhtude puhul. Lõhe sulgub kiiremini kui enamik ootab, sest:

  2. Avatud arendus kiirendab kõike. Tuhanded teadlased parandavad jagatud mudeleid samaaegselt.

  3. Riistvara muutub odavamaks. 14 GB miinimum täna saab järgmisel aastal eelarve riistvaraks.

  4. Kogukonna tööriistad küpsevad. Kasutajaliidesed, töövood ja dokumentatsioon paranevad kiiresti.

  5. Täpsustamine demokratiseerub. Kohandatud mudelid konkreetsetele stiilidele muutuvad tavaliseks.

⚠️

Omanduslikud teenused ei kao. Nad konkureerivad mugavuse, integratsiooni ja spetsialiseeritud võimekustega pigem kui toorelt genereerimise kvaliteediga.

Mida see teie jaoks tähendab

Kui loote video sisu, siin on minu nõuanne:

Kui genereerite aeg-ajalt: Jääge omanduslike teenuste juurde. Tellimuse mudel on mõistlik juhuslikuks kasutamiseks ja kasutajakogemus on sujuvam.

Kui genereerite sageli: Hakake uurima lokaalseid võimalusi. Esialgne investeering riistvarasse ja õppimisse tasub end kiiresti ära, kui genereerite sadu klippe kuus.

Kui ehitate tooteid: Kaaluge mõlemat. Pilve API-d teie kasutajatele, lokaalne genereerimine arendamiseks ja testimiseks.

Kui olete kunstnik: Avatud lähtekood on teie mänguväljak. Kasutustingimused ei piira seda, mida loote. Krediidid ei piira eksperimenteerimist. Lihtsalt teie ja mudel.

Tulevik on mõlemad

Ma ei usu, et avatud lähtekood "võidab" või omandilik "võidab." Liigume maailma poole, kus mõlemad eksisteerivad kõrvuti, teenides erinevaid vajadusi.

Analoogia, millele ma ikka tagasi tulen: muusika voogedastus ei tapnud vinüülplaate. See muutis, kes ostab vinüüli ja miks. Avatud lähtekoodiga AI-video ei tapa Runway'd ega Sorat. See muudab, kes neid kasutab ja mis eesmärgil.

Oluline on see, et loojatel on valikud. Päris, elujõulised, võimekad valikud. 2025. aasta novembri lõpp oli hetk, mil need valikud mitmekordistusid.

AI-video revolutsioon ei käi selle kohta, milline mudel on parim. See käib juurdepääsu, omandiõiguse ja loomingulise vabaduse kohta. Ja kõigil kolmel rindel astusime äsja massilise sammu edasi.

Laadige alla mudel. Genereeri midagi. Vaata, mis juhtub, kui hõõrdumine kaob.

Video loomise tulevik ehitatakse magamistubades ja keldreis, mitte ainult uurimislaborites. Ja ausalt? Nii see peaks olema.


Allikad

Kas see artikkel oli kasulik?

Henry

Henry

Loov tehnoloog

Loov tehnoloog Lausanne'ist, kes uurib tehisintellekti ja kunsti kohtumispunkti. Eksperimenteerib generatiivsete mudelitega elektroonilise muusika seansside vahel.

Seotud artiklid

Jätkake uurimist nende seotud postitustega

Kas see artikkel meeldis teile?

Avastage rohkem põnevaid teadmisi ja püsige kursis meie uusima sisuga.

Avatud lähtekoodiga AI-video revolutsioon: Kas tarbija GPU-d saavad konkureerida tehnoloogiahiidudega?