Meta Pixel
HenryHenry
3 min read
558 คำ

ปฏิวัติวิดีโอ AI แบบโอเพนซอร์ส: GPU สำหรับผู้บริโภคจะแข่งกับยักษ์ใหญ่ด้านเทคโนโลยีได้หรือไม่?

ByteDance และ Tencent เพิ่งเปิดตัวโมเดลวิดีโอโอเพนซอร์สที่รันบนฮาร์ดแวร์สำหรับผู้บริโภค สิ่งนี้เปลี่ยนแปลงทุกอย่างสำหรับครีเอเตอร์อิสระ

ปฏิวัติวิดีโอ AI แบบโอเพนซอร์ส: GPU สำหรับผู้บริโภคจะแข่งกับยักษ์ใหญ่ด้านเทคโนโลยีได้หรือไม่?

ปลายเดือนพฤศจิกายน 2025 อาจจะเป็นสัปดาห์ที่การสร้างวิดีโอ AI แบ่งออกเป็นสองทาง ขณะที่ Runway เฉลิมฉลองที่ Gen-4.5 ขึ้นอันดับ 1 บน Video Arena มีบางสิ่งที่ใหญ่กว่าเกิดขึ้นในเบื้องหลัง ByteDance และ Tencent เปิดตัวโมเดลวิดีโอโอเพนซอร์สที่รันบนฮาร์ดแวร์ที่คุณอาจมีอยู่แล้ว

สัปดาห์ที่ทุกอย่างเปลี่ยนไป

ผมตื่นขึ้นมาพบกับความโกลาหลในเซิร์ฟเวอร์ Discord ทุกคนพูดถึงชนะใหญ่ของ Runway แต่ความตื่นเต้นที่แท้จริงคืออะไร? การเปิดตัวโอเพนซอร์สสองรายการสำคัญภายในไม่กี่วัน:

ByteDance Vidi2

  • 12 พันล้านพารามิเตอร์
  • ความสามารถในการแก้ไขครบครัน
  • เปิดเวทน้ำหนักบน Hugging Face

Tencent HunyuanVideo-1.5

  • 8.3 พันล้านพารามิเตอร์
  • รันบน 14GB VRAM
  • เป็นมิตรกับ GPU สำหรับผู้บริโภค

ตัวเลข 14GB นั้นสำคัญมาก RTX 4080 มี 16GB RTX 4070 Ti Super มี 16GB ทันใดนั้น "การรันการสร้างวิดีโอ AI ในเครื่อง" เปลี่ยนจาก "คุณต้องการดาต้าเซ็นเตอร์" เป็น "คุณต้องการพีซีเกมมิ่ง"

การแบ่งแยกที่ยิ่งใหญ่

💡

เรากำลังเห็นการสร้างวิดีโอ AI แบ่งออกเป็นสองระบบนิเวศที่แตกต่างกัน: บริการคลาวด์แบบกรรมสิทธิ์และการสร้างในเครื่องแบบโอเพนซอร์ส ทั้งสองมีที่ยืน แต่สำหรับครีเอเตอร์ที่แตกต่างกันมาก

นี่คือสภาพของภูมิทัศน์ในตอนนี้:

แนวทางโมเดลฮาร์ดแวร์โมเดลต้นทุน
Proprietary CloudRunway Gen-4.5, Sora 2, Veo 3GPU บนคลาวด์การสมัครสมาชิก + เครดิต
Open Source LocalHunyuanVideo, Vidi2, LTX-VideoGPU สำหรับผู้บริโภคค่าไฟฟ้าเท่านั้น

โมเดลแบบกรรมสิทธิ์ยังคงนำในด้านคุณภาพล้วนๆ Gen-4.5 ไม่ได้ขึ้นอันดับ 1 โดยบังเอิญ แต่คุณภาพไม่ใช่มิติเดียวที่สำคัญ

ทำไมโอเพนซอร์สถึงเปลี่ยนเกม

ให้ผมอธิบายว่าการสร้างในเครื่องหมายความว่าอย่างไรสำหรับครีเอเตอร์:

1.

ไม่มีต้นทุนต่อการสร้าง

สร้างคลิป 1,000 คลิปทดลองกับพรอมต์? ไม่มีระบบเครดิตคอยดู ไม่มีขอบเขตระดับการสมัครสมาชิก ต้นทุนเดียวของคุณคือค่าไฟฟ้า

2.

ความเป็นส่วนตัวอย่างสมบูรณ์

พรอมต์ของคุณไม่เคยออกจากเครื่องของคุณ สำหรับงานเชิงพาณิชย์ที่มีแนวคิดละเอียดอ่อนหรือโปรเจกต์ลูกค้า สิ่งนี้สำคัญมาก

3.

การทำซ้ำไม่จำกัด

ผลลัพธ์สร้างสรรค์ที่ดีที่สุดมาจากการทำซ้ำ เมื่อแต่ละการสร้างมีค่าใช้จ่าย คุณเพิ่มประสิทธิภาพสำหรับความพยายามน้อยลง ลบความเสียดทานนั้น และการสำรวจเชิงสร้างสรรค์กลายเป็นไม่มีขีดจำกัด

4.

ความสามารถออฟไลน์

สร้างวิดีโอบนเครื่องบิน ในสถานที่ห่างไกล ระหว่างอินเทอร์เน็ตขัดข้อง โมเดลในเครื่องไม่ต้องการการเชื่อมต่อ

การตรวจสอบความเป็นจริงของฮาร์ดแวร์

มาพูดตรงๆ เกี่ยวกับ "ฮาร์ดแวร์สำหรับผู้บริโภค" หมายความว่าอย่างไรจริงๆ:

14GB
VRAM ขั้นต่ำ
$500+
ต้นทุน GPU
3-5x
ช้ากว่าคลาวด์

การรัน HunyuanVideo-1.5 บนการ์ด 14GB เป็นไปได้แต่ไม่สะดวก เวลาในการสร้างยืดยาวขึ้น คุณภาพอาจต้องการหลายครั้ง ประสบการณ์ไม่เรียบเนียนเท่ากับการคลิก "สร้าง" บน Runway

แต่นี่คือสิ่งที่สำคัญ: ต้นทุน GPU นั้นเป็นการซื้อครั้งเดียว ถ้าคุณสร้างมากกว่าสองสามร้อยวิดีโอต่อปี การคำนวณเริ่มสนับสนุนการสร้างในเครื่องอย่างรวดเร็วน่าประหลาด

โมเดลโอเพนซอร์สสามารถทำอะไรได้จริงๆ

ผมได้ทดสอบ HunyuanVideo-1.5 และ Vidi2 ตั้งแต่เปิดตัว นี่คือการประเมินที่ตรงไปตรงมาของผม:

จุดแข็ง
  • ความสอดคล้องของการเคลื่อนไหวที่แข็งแกร่ง
  • ความเข้าใจพรอมต์ที่ดี
  • คุณภาพภาพที่น่าเชื่อถือ
  • ไม่มีลายน้ำหรือข้อจำกัด
  • สามารถปรับแต่งได้
จุดอ่อน
  • ฟิสิกส์ยังอยู่หลัง Gen-4.5
  • ไม่มีการสร้างเสียงดั้งเดิม
  • เวลาในการสร้างนานขึ้น
  • เส้นโค้งการเรียนรู้การตั้งค่าที่สูงชัน
  • คุณภาพเอกสารแตกต่างกัน

สำหรับการสร้างต้นแบบอย่างรวดเร็ว เนื้อหาโซเชียล และงานทดลอง โมเดลเหล่านี้ส่งมอบได้ สำหรับคุณภาพสูงสุดที่ทุกเฟรมสำคัญ โมเดลแบบกรรมสิทธิ์ยังมีความได้เปรียบ

กลยุทธ์โอเพนซอร์สของจีน

💡

ByteDance และ Tencent ปล่อยโมเดลโอเพนซอร์สไม่ใช่เพราะเห็นแก่ผู้อื่น มันคือกลยุทธ์

ทั้งสองบริษัทเผชิญกับข้อจำกัดเกี่ยวกับบริการคลาวด์สหรัฐฯ และการส่งออกชิป โดยการปล่อยโมเดลโอเพนซอร์ส:

  • พวกเขาสร้างชุมชนและแบ่งปันความคิดทั่วโลก
  • นักพัฒนาเพิ่มประสิทธิภาพสถาปัตยกรรมของพวกเขาฟรี
  • โมเดลปรับปรุงผ่านความพยายามที่กระจาย
  • การล็อคอิน API กับบริษัทสหรัฐฯ ลดลง

มันเป็นเกมที่ยาวนาน และสำหรับครีเอเตอร์อิสระ มันเป็นเกมที่ให้ประโยชน์กับทุกคนยกเว้นบริการสมัครสมาชิก

เวิร์กโฟลว์ไhybrid ที่กำลังเกิดขึ้น

ครีเอเตอร์ที่ฉลาดไม่ได้เลือกข้าง พวกเขากำลังสร้างเวิร์กโฟลว์ที่ใช้ทั้งสอง:

  • สร้างต้นแบบในเครื่องด้วยโมเดลโอเพนซอร์ส
  • ทำซ้ำโดยไม่มีแรงกดดันด้านต้นทุน
  • ใช้โมเดลแบบกรรมสิทธิ์สำหรับช็อตฮีโร่ขั้นสุดท้าย
  • ปรับแต่งโมเดลเปิดสำหรับสไตล์เฉพาะ

ลองนึกถึงมันเหมือนการถ่ายภาพ คุณอาจถ่ายแบบสบายๆ ด้วยโทรศัพท์ของคุณ ทดลองอย่างอิสระ แต่สำหรับการแสดงในแกลเลอรี่ คุณนำกล้องรูปแบบกลางออกมา สมองสร้างสรรค์เดียวกัน เครื่องมือที่แตกต่างกันสำหรับช่วงเวลาที่แตกต่างกัน

เริ่มต้นกับการสร้างในเครื่อง

ถ้าคุณต้องการลองด้วยตัวเอง นี่คือสิ่งที่คุณต้องการ:

การตั้งค่าขั้นต่ำ:

  • NVIDIA GPU ที่มี 14GB+ VRAM (RTX 4070 Ti Super, 4080, 4090, หรือ 3090)
  • 32GB RAM ของระบบ
  • 100GB+ พื้นที่จัดเก็บว่าง
  • Linux หรือ Windows ที่มี WSL2

การตั้งค่าที่แนะนำ:

  • RTX 4090 ที่มี 24GB VRAM
  • 64GB RAM ของระบบ
  • NVMe SSD สำหรับจัดเก็บโมเดล
  • เครื่องสร้างโดยเฉพาะ

กระบวนการติดตั้งเกี่ยวข้องกับเวิร์กโฟลว์ ComfyUI การดาวน์โหลดโมเดล และความสะดวกสบายของเทอร์มินัลบ้าง ไม่เล็กน้อย แต่ครีเอเตอร์หลายพันคนได้รับการรันแล้ว ชุมชนบน Reddit และ Discord ช่วยเหลือได้อย่างน่าประหลาด

ผลกระทบต่อตลาด

ตลาดการสร้างวิดีโอ AI คาดว่าจะไปถึง 2.56 พันล้านดอลลาร์ภายในปี 2032 การคาดการณ์นั้นสมมติว่ารายได้ส่วนใหญ่จะมาจากบริการสมัครสมาชิก โมเดลโอเพนซอร์สทำให้การคาดการณ์นั้นซับซ้อนขึ้น

$2.56B
การคาดการณ์ตลาด 2032
19.5%
อัตราการเติบโต CAGR
63%
ธุรกิจที่ใช้วิดีโอ AI

เมื่อการสร้างกลายเป็นสินค้าที่รันบนฮาร์ดแวร์ที่คุณมีอยู่แล้ว มูลค่าเปลี่ยนไป บริษัทจะแข่งขันใน:

  • ความง่ายในการใช้และการบูรณาการเวิร์กโฟลว์
  • คุณสมบัติเฉพาะ (เสียงดั้งเดิม ระยะเวลานานขึ้น)
  • คุณสมบัติองค์กรและการสนับสนุน
  • โมเดลที่ปรับแต่งสำหรับอุตสาหกรรมเฉพาะ

ความสามารถในการสร้างล้วนๆ เอง? นั่นกลายเป็นเดิมพันบนโต๊ะ

การคาดการณ์ของผม

ภายในกลางปี 2026 การสร้างวิดีโอโอเพนซอร์สจะตรงกับคุณภาพแบบกรรมสิทธิ์สำหรับกรณีการใช้งานส่วนใหญ่ ช่องว่างจะปิดเร็วกว่าที่คนส่วนใหญ่คาดหวังเพราะ:

  1. การพัฒนาแบบเปิดเร่งทุกอย่าง นักวิจัยหลายพันคนปรับปรุงโมเดลที่แบ่งปันพร้อมกัน
  2. ฮาร์ดแวร์ถูกลง 14GB ขั้นต่ำในวันนี้จะเป็นฮาร์ดแวร์งบประมาณในปีหน้า
  3. เครื่องมือชุมชนเป็นผู้ใหญ่ UI เวิร์กโฟลว์ และเอกสารปรับปรุงอย่างรวดเร็ว
  4. การปรับแต่งทำให้เป็นประชาธิปไตย โมเดลที่กำหนดเองสำหรับสไตล์เฉพาะกลายเป็นเรื่องธรรมดา
⚠️

บริการแบบกรรมสิทธิ์จะไม่หายไป พวกเขาจะแข่งขันด้านความสะดวก การบูรณาการ และความสามารถเฉพาะแทนคุณภาพการสร้างดิบ

สิ่งนี้หมายความว่าอย่างไรสำหรับคุณ

ถ้าคุณกำลังสร้างเนื้อหาวิดีโอ นี่คือคำแนะนำของผม:

ถ้าคุณสร้างเป็นครั้งคราว: ยึดติดกับบริการแบบกรรมสิทธิ์ โมเดลการสมัครสมาชิกสมเหตุสมผลสำหรับการใช้งานแบบสบายๆ และ UX ราบรื่นกว่า

ถ้าคุณสร้างบ่อยๆ: เริ่มสำรวจตัวเลือกในเครื่อง การลงทุนล่วงหน้าในฮาร์ดแวร์และการเรียนรู้คุ้มค่าอย่างรวดเร็วถ้าคุณสร้างคลิปหลายร้อยต่อเดือน

ถ้าคุณกำลังสร้างผลิตภัณฑ์: พิจารณาทั้งสอง Cloud API สำหรับผู้ใช้ของคุณ การสร้างในเครื่องสำหรับการพัฒนาและการทดสอบ

ถ้าคุณเป็นศิลปิน: โอเพนซอร์สคือสนามเด็กเล่นของคุณ ไม่มีข้อกำหนดการให้บริการที่จำกัดสิ่งที่คุณสร้าง ไม่มีเครดิตที่จำกัดการทดลอง แค่คุณและโมเดล

อนาคตคือทั้งสอง

ผมไม่คิดว่าโอเพนซอร์ส "ชนะ" หรือแบบกรรมสิทธิ์ "ชนะ" เรากำลังมุ่งหน้าสู่โลกที่ทั้งสองอยู่ร่วมกัน รับใช้ความต้องการที่แตกต่างกัน

การเปรียบเทียบที่ผมกลับมาอยู่เสมอ: การสตรีมเพลงไม่ได้ฆ่าแผ่นเสียงไวนิล มันเปลี่ยนผู้ที่ซื้อไวนิลและทำไม วิดีโอ AI แบบโอเพนซอร์สจะไม่ฆ่า Runway หรือ Sora มันจะเปลี่ยนผู้ที่ใช้พวกเขาและเพื่อวัตถุประสงค์อะไร

สิ่งที่สำคัญคือครีเอเตอร์มีตัวเลือก ตัวเลือกที่แท้จริง เป็นไปได้ มีความสามารถ ปลายเดือนพฤศจิกายน 2025 คือเมื่อตัวเลือกเหล่านั้นคูณขึ้น

ปฏิวัติวิดีโอ AI ไม่ได้เกี่ยวกับว่าโมเดลไหนดีที่สุด มันเกี่ยวกับการเข้าถึง ความเป็นเจ้าของ และเสรีภาพในการสร้างสรรค์ และในทั้งสามด้าน เราเพิ่งก้าวไปข้างหน้าอย่างมหาศาล

ดาวน์โหลดโมเดล สร้างบางอย่าง ดูว่าเกิดอะไรขึ้นเมื่อความเสียดทานหายไป

อนาคตของการสร้างวิดีโอกำลังถูกสร้างในห้องนอนและห้องใต้ดิน ไม่ใช่แค่ห้องวิจัย และตามความจริงแล้ว? นั่นคือวิธีที่มันควรจะเป็น


แหล่งที่มา

บทความนี้มีประโยชน์หรือไม่?

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

Kandinsky 5.0: คำตอบแบบโอเพนซอร์สจากรัสเซียสำหรับการสร้างวิดีโอด้วย AI
Kandinsky 5.0โอเพนซอร์ส

Kandinsky 5.0: คำตอบแบบโอเพนซอร์สจากรัสเซียสำหรับการสร้างวิดีโอด้วย AI

Kandinsky 5.0 นำเสนอการสร้างวิดีโอ 10 วินาทีบน GPU ระดับผู้บริโภคด้วยใบอนุญาต Apache 2.0 เราจะสำรวจว่า NABLA attention และ flow matching ทำให้สิ่งนี้เป็นไปได้อย่างไร

Read
Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์
AI VideoPika Labs

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์

Pika Labs เปิดตัวเวอร์ชัน 2.5 ที่รวมการสร้างที่เร็วขึ้น ฟิสิกส์ที่ได้รับการปรับปรุง และเครื่องมือสร้างสรรค์อย่าง Pikaframes และ Pikaffects เพื่อทำให้วิดีโอ AI เข้าถึงได้สำหรับทุกคน

Read
Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ
AI VideoAdobe

Adobe และ Runway ร่วมมือกัน: ความร่วมมือ Gen-4.5 หมายความว่าอย่างไรสำหรับนักสร้างวิดีโอ

Adobe เพิ่งทำให้ Gen-4.5 ของ Runway กลายเป็นหัวใจหลักของวิดีโอ AI ใน Firefly พันธมิตรเชิงกลยุทธ์นี้กำลังเปลี่ยนแปลงเวิร์กโฟลว์สร้างสรรค์สำหรับมืออาชีพ สตูดิโอ และแบรนด์ทั่วโลก

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

ปฏิวัติวิดีโอ AI แบบโอเพนซอร์ส: GPU สำหรับผู้บริโภคจะแข่งกับยักษ์ใหญ่ด้านเทคโนโลยีได้หรือไม่?