Meta Pixel
HenryHenry
7 min read
1274 vārdi

Atvērtā koda AI video revolūcija: Vai patērētāju GPU var konkurēt ar tehnoloģiju gigantiem?

ByteDance un Tencent tikko izlaida atvērtā koda video modeļus, kas darbojas uz parastā patērētāju aparatūras. Tas maina visu neatkarīgajiem veidotājiem.

Atvērtā koda AI video revolūcija: Vai patērētāju GPU var konkurēt ar tehnoloģiju gigantiem?
  1. gada novembra beigas varētu iet vēsturē kā nedēļa, kad AI video ģenerēšana sadalījās divās daļās. Kamēr Runway svinēja Gen-4.5 pirmo vietu Video Arena, fonā notika kaut kas lielāks. ByteDance un Tencent izlaida atvērtā koda video modeļus, kas darbojas uz aparatūras, kas jums jau varētu būt.

Nedēļa, kad viss mainījās

Es pamodos haosā savos Discord serveros. Visi runāja par Runway lielo uzvaru, bet īstais sajūsmas? Divi lieli atvērtā koda izlaidumi dažu dienu laikā:

ByteDance Vidi2

  • 12 miljardi parametru
  • Pilnas rediģēšanas iespējas
  • Atvērtie svari Hugging Face

Tencent HunyuanVideo-1.5

  • 8,3 miljardi parametru
  • Darbojas uz 14 GB VRAM
  • Patērētāju GPU draudzīgs

Šis 14 GB skaitlis ir svarīgs. RTX 4080 ir 16 GB. RTX 4070 Ti Super ir 16 GB. Pēkšņi "AI video ģenerēšanas palaišana lokāli" mainījās no "jums nepieciešams datu centrs" uz "jums nepieciešams spēļu dators."

Lielā plaisa

💡

Mēs redzam, kā AI video ģenerēšana sadaloties divos atšķirīgos ekosistēmās: īpašuma mākoņa pakalpojumos un atvērtā koda lokālajā ģenerēšanā. Abām ir sava vieta, bet ļoti atšķirīgiem veidotājiem.

Tā izskatās ainava pašlaik:

PieejaModeļiAparatūraIzmaksu modelis
Īpašuma mākonisRunway Gen-4.5, Sora 2, Veo 3Mākoņa GPUAbonements + kredīti
Atvērtais kods lokāliHunyuanVideo, Vidi2, LTX-VideoPatērētāju GPUTikai elektrība

Īpašuma modeļi joprojām vadību tīras kvalitātes ziņā. Gen-4.5 nesaņēma pirmo vietu nejaušības dēļ. Bet kvalitāte nav vienīgā dimensija, kas ir svarīga.

Kāpēc atvērtais kods maina spēli

Ļaujiet man paskaidrot, ko lokālā ģenerēšana faktiski nozīmē veidotājiem:

1.

Nav izmaksu par ģenerēšanu

Ģenerēt 1000 klipu, eksperimentējot ar uzvedinājumiem? Nav kredītu sistēmas, kas uzrauga. Nav abonementa līmeņa ierobežojumu. Jūsu vienīgās izmaksas ir elektrība.

2.

Pilnīga privātums

Jūsu uzvedinājumi nekad neatstāj jūsu mašīnu. Komerciālajiem darbiem ar jutīgiem konceptiem vai klientu projektiem tas ir milzīgi svarīgi.

3.

Neierobežota iterācija

Labākie radošie rezultāti nāk no iterācijas. Kad katra ģenerēšana maksā naudu, jūs optimizējat mazāk mēģinājumu. Noņemiet šo berzi, un radošā izpēte kļūst neierobežota.

4.

Bezsaistes iespējas

Ģenerēt video lidmašīnā. Attālā vietā. Interneta pārtraukuma laikā. Lokālie modeļi neiepieciešams savienojums.

Aparatūras realitātes pārbaude

Esam godīgi par to, ko "patērētāju aparatūra" faktiski nozīmē:

14 GB
Minimālais VRAM
$500+
GPU izmaksas
3-5x
Lēnāks nekā mākonis

HunyuanVideo-1.5 palaišana uz 14 GB kartes ir iespējama, bet nav ērta. Ģenerēšanas laiki izstiepjas ilgāk. Kvalitāte var prasīt vairākus ciklus. Pieredze nav tik izkoptā kā "ģenerēt" klikšķināšana uz Runway.

Bet te ir jēga: GPU izmaksas ir vienreizējs pirkums. Ja jūs ģenerējat vairāk nekā pāris simtus video gadā, matemātika sāk labvēlīgi lokālai ģenerēšanai pārsteidzoši ātri.

Ko atvērtā koda modeļi faktiski var darīt

Es esmu testējis HunyuanVideo-1.5 un Vidi2, kopš tie tika izlaisti. Šeit ir mans godīgs vērtējums:

Stiprās puses
  • Stabila kustības konsekvence
  • Laba uzvedinājuma izpratne
  • Cienījama vizuālā kvalitāte
  • Nav ūdenszīmes vai ierobežojumu
  • Precīza regulēšana iespējama
Vājās puses
  • Fizika joprojām aiz Gen-4.5
  • Nav natīvās audio ģenerēšanas
  • Ilgāki ģenerēšanas laiki
  • Stāvāka mācīšanās līkne iestatīšanai
  • Dokumentācija mainās kvalitātē

Ātriem prototipiem, sociālajam saturam un eksperimentālajiem darbiem šie modeļi piegādā. Absolūti augstākajai kvalitātei, kur katrs kadrs ir svarīgs, īpašuma modeļiem joprojām ir priekšrocības.

Ķīnas atvērtā koda stratēģija

💡

ByteDance un Tencent atvērtā koda modeļu izlaišana nav altruisms. Tā ir stratēģija.

Abi uzņēmumi saskaras ar ierobežojumiem ASV mākoņa pakalpojumos un mikroshēmu eksportā. Izlaižot atvērtā koda modeļus:

  • Viņi veido kopienu un apziņu globāli
  • Izstrādātāji optimizē viņu arhitektūras bez maksas
  • Modeļi uzlabojas caur sadalītiem centieniem
  • API bloķēšana ASV uzņēmumiem samazinās

Tas ir ilgs spēle. Un neatkarīgajiem veidotājiem tas ir spēle, kas dod labumu visiem, izņemot abonementa pakalpojumus.

Jaunā hibrīda darba plūsma

Viedie veidotāji neizvēlas pusi. Viņi veido darba plūsmas, kas izmanto abus:

  • Prototips lokāli ar atvērtā koda modeļiem
  • Iterēt bez izmaksu spiediena
  • Izmantot īpašuma modeļus galīgajiem varoņu kadriem
  • Precīzi regulēt atvērtos modeļus konkrētiem stiliem

Domājiet par to kā fotogrāfiju. Jūs varētu uzņemt neformāli ar savu telefonu, brīvi eksperimentēt. Bet galerijas izstādei jūs izņemat vidējā formāta kameru. Tie paši radošie smadzenes, dažādi rīki dažādiem brīžiem.

Uzsākot lokālo ģenerēšanu

Ja vēlaties to izmēģināt pats, šeit ir tas, kas jums nepieciešams:

Minimālā iestatīšana:

  • NVIDIA GPU ar 14 GB+ VRAM (RTX 4070 Ti Super, 4080, 4090 vai 3090)
  • 32 GB sistēmas RAM
  • 100 GB+ brīva glabāšanas vieta
  • Linux vai Windows ar WSL2

Ieteicamā iestatīšana:

  • RTX 4090 ar 24 GB VRAM
  • 64 GB sistēmas RAM
  • NVMe SSD modeļu glabāšanai
  • Īpaša ģenerēšanas mašīna

Instalēšanas process ietver ComfyUI darba plūsmas, modeļu lejupielādes un zināmas terminālā prasmes. Nav vienkārši, bet tūkstošiem veidotāju ir to izdevies palaist. Kopienas Reddit un Discord ir pārsteidzoši palīdzīgas.

Tirgus sekas

AI video ģenerēšanas tirgus tiek prognozēts sasniegt 2,56 miljardus dolāru līdz 2032. gadam. Šī prognoze pieņēma, ka lielākā daļa ieņēmumu nāktu no abonementa pakalpojumiem. Atvērtā koda modeļi sarežģī šo prognozi.

$2,56 mlrd
2032 tirgus prognoze
19,5%
CAGR izaugsmes temps
63%
Uzņēmumi izmanto AI video

Kad ģenerēšana kļūst par preci, kas darbojas uz aparatūras, kas jums jau pieder, vērtība mainās. Uzņēmumi konkurēs uz:

  • Lietošanas ērtības un darba plūsmas integrācija
  • Specializētās funkcijas (natīvais audio, ilgāki ilgumi)
  • Uzņēmuma funkcijas un atbalsts
  • Precīzi regulēti modeļi konkrētām nozarēm

Pati ģenerēšanas spēja? Tā kļūst par pamatstāvokli.

Mana prognoze

Līdz 2026. gada vidum atvērtā koda video ģenerēšana atbildīs īpašuma kvalitātei lielākajai daļai lietošanas gadījumu. Plaisa slēgsies ātrāk nekā daudzi sagaida, jo:

  1. Atvērtā izstrāde paātrina visu. Tūkstošiem pētnieku vienlaikus uzlabo koplietotos modeļus.
  2. Aparatūra kļūst lētāka. 14 GB minimums šodien kļūs par budžeta aparatūru nākamajā gadā.
  3. Kopienas rīki nobriest. Lietotāja saskarnes, darba plūsmas un dokumentācija uzlabojas ātri.
  4. Precīza regulēšana demokratizējas. Pielāgoti modeļi konkrētiem stiliem kļūst parasti.
⚠️

Īpašuma pakalpojumi neizzudīs. Viņi konkurēs uz ērtībām, integrāciju un specializētām spējām, nevis neapstrādātu ģenerēšanas kvalitāti.

Ko tas nozīmē jums

Ja veidojat video saturu, šeit ir mans padoms:

Ja ģenerējat dažreiz: Palieciet pie īpašuma pakalpojumiem. Abonementa modelis ir saprātīgs gadījuma lietošanai, un lietotāja pieredze ir glūdāka.

Ja ģenerējat bieži: Sāciet izpētīt lokālās iespējas. Sākotnējā ieguldījums aparatūrā un mācībās atmaksājas ātri, ja ģenerējat simtiem klipu mēnesī.

Ja veidojat produktus: Apsveriet abus. Mākoņa API jūsu lietotājiem, lokālā ģenerēšana izstrādei un testēšanai.

Ja esat mākslinieks: Atvērtais kods ir jūsu rotaļu laukums. Nav lietošanas noteikumu, kas ierobežo to, ko veidojat. Nav kredītu, kas ierobežo eksperimentēšanu. Tikai jūs un modelis.

Nākotne ir abi

Es nedomāju, ka atvērtais kods "uzvar" vai īpašums "uzvar." Mēs virzāmies uz pasauli, kur abi pastāv blakus, apkalpojot dažādas vajadzības.

Analoģija, pie kuras es turpinu atgriezties: mūzikas straumēšana nenogalināja vinila plašu. Tā mainīja, kas pērk vinilu un kāpēc. Atvērtā koda AI video nenogalinās Runway vai Sora. Tā mainīs, kas tos izmanto un kādam mērķim.

Svarīgākais ir tas, ka veidotājiem ir izvēles. Īstas, dzīvotspējīgas, spējīgas izvēles. 2025. gada novembra beigas bija brīdis, kad šīs izvēles tika vairākkārtējas.

AI video revolūcija nav par to, kurš modelis ir labākais. Tā ir par piekļuvi, īpašumtiesībām un radošo brīvību. Un visās trīs frontēs mēs tikko veicām milzīgu soli uz priekšu.

Lejupielādējiet modeli. Ģenerējiet kaut ko. Redziet, kas notiek, kad berze pazūd.

Video radīšanas nākotne tiek veidota guļamistabās un pagraboās, ne tikai pētniecības laboratorijās. Un godīgi? Tā tam vajadzētu būt.


Avoti

Vai šis raksts bija noderīgs?

Henry

Henry

Radošais Tehnoloģists

Radošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.

Saistītie raksti

Turpiniet izpēti ar šiem saistītajiem rakstiem

Vai jums patika šis raksts?

Atklājiet vairāk ieskatu un sekojiet līdzi mūsu jaunākajam saturam.

Atvērtā koda AI video revolūcija: Vai patērētāju GPU var konkurēt ar tehnoloģiju gigantiem?