Meta Pixel
DamienDamien
3 min read
573 คำ

ByteDance Vidi2: AI ที่เข้าใจวิดีโอเหมือนนักตัดต่อมืออาชีพ

ByteDance เพิ่งเปิดโค้ดต้นฉบับของ Vidi2 โมเดลที่มีพารามิเตอร์ 12 พันล้านตัว ที่สามารถเข้าใจเนื้อหาวิดีโอได้ดีพอที่จะตัดต่อวิดีโอหลายชั่วโมงให้กลายเป็นคลิปที่สมบูรณ์แบบโดยอัตโนมัติ ปัจจุบันใช้งานอยู่ใน TikTok Smart Split

ByteDance Vidi2: AI ที่เข้าใจวิดีโอเหมือนนักตัดต่อมืออาชีพ

ในขณะที่ทุกคนให้ความสนใจกับการสร้างวิดีโอด้วย AI ByteDance ได้แก้ปัญหาที่แตกต่างออกไปอย่างเงียบๆ นั่นคือการทำให้ AI เข้าใจวิดีโอเหมือนนักตัดต่อที่มีประสบการณ์ Vidi2 สามารถดูวิดีโอดิบหลายชั่วโมงและคัดเลือกเฉพาะสิ่งที่สำคัญออกมาได้อย่างแม่นยำ

ปัญหาที่ไม่ค่อยมีใครพูดถึง

ในปัจจุบันเรามีเครื่องมือสร้างวิดีโอด้วย AI ที่น่าทึ่งมาก Runway Gen-4.5 อยู่อันดับต้นๆ ในด้านคุณภาพ Kling O1 สามารถสร้างเสียงที่ซิงค์กันได้ แต่นี่คือความจริงที่ซ่อนเร้นของการผลิตวิดีโอ เวลาส่วนใหญ่ใช้ไปกับการตัดต่อ ไม่ใช่การสร้างสรรค์

ช่างภาพงานแต่งงานบันทึกวิดีโอ 8 ชั่วโมงเพื่อทำไฮไลท์ 5 นาที ผู้สร้างคอนเทนต์บันทึก 45 นาทีเพื่อทำ TikTok 60 วินาที องค์กรมีวิดีโอฝึกอบรม 200 ชั่วโมงฝังอยู่ใน SharePoint

💡

การสร้างวิดีโอได้รับความสนใจ แต่การเข้าใจวิดีโอต่างหากที่ทำงานจริงๆ

Vidi2 แก้ไขช่องว่างนี้ ไม่ใช่เครื่องมือสร้างวิดีโออีกตัว แต่เป็น AI ที่ดูวิดีโอ เข้าใจว่าเกิดอะไรขึ้น และช่วยให้คุณทำงานกับเนื้อหานั้นในระดับที่ใหญ่ขึ้นได้

สิ่งที่ Vidi2 ทำได้จริงๆ

ByteDance อธิบาย Vidi2 ว่าเป็น "โมเดลมัลติโมดอลขนาดใหญ่สำหรับการเข้าใจและสร้างวิดีโอ" โมเดลที่มีพารามิเตอร์ 12 พันล้านตัวนี้มีความเชี่ยวชาญใน:

🔍

การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา

ค้นหาวัตถุใดก็ได้ในวิดีโอและติดตามมันผ่านช่วงเวลา ไม่ใช่แค่ "มีแมวที่ 0:32" แต่เป็น "แมวเข้ามาที่ 0:32 เคลื่อนไปที่โซฟาที่ 0:45 และออกจากเฟรมที่ 1:12"

✂️

การตัดต่ออัจฉริยะ

วิเคราะห์ฟุตเทจและแนะนำจุดตัดตามเนื้อหา ค้นหาช่วงเวลาที่ดีที่สุด ระบุขอบเขตของฉาก เข้าใจจังหวะ

📝

การวิเคราะห์เนื้อหา

อธิบายสิ่งที่เกิดขึ้นในวิดีโอด้วยรายละเอียดเพียงพอที่จะมีประโยชน์ ไม่ใช่แค่ "สองคนกำลังพูดคุย" แต่เป็น "ส่วนสัมภาษณ์ แขกกำลังอธิบายฟีเจอร์ของผลิตภัณฑ์ มีการมีส่วนร่วมสูงที่ 3:45"

🎯

การติดตามวัตถุ

ติดตามวัตถุเป็น "ท่อ" ต่อเนื่องผ่านวิดีโอ แม้เมื่อมันออกจากเฟรมและกลับเข้ามาอีกครั้ง สิ่งนี้ทำให้สามารถเลือกอย่างแม่นยำสำหรับเอฟเฟกต์ การลบ หรือการเน้น

นวัตกรรมทางเทคนิค: การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา

AI วิดีโอในอดีตทำงานในสองมิติ: พื้นที่ (มีอะไรในเฟรมนี้) หรือเวลา (เกิดขึ้นเมื่อไหร่) Vidi2 รวมทั้งสองเป็นสิ่งที่ ByteDance เรียกว่า "การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา" (STG)

แนวทางแบบดั้งเดิม:

  • เชิงพื้นที่: "รถอยู่ที่พิกัดพิกเซล (450, 320)"
  • เชิงเวลา: "รถปรากฏที่ตำแหน่งเวลา 0:15"
  • ผลลัพธ์: ข้อมูลที่ไม่เชื่อมโยงกันซึ่งต้องมีการเชื่อมโยงด้วยตนเอง

Vidi2 STG:

  • รวมกัน: "รถสีแดงอยู่ที่ (450, 320) ที่ 0:15 เคลื่อนไปที่ (890, 340) ที่ 0:18 ออกทางขวาที่ 0:22"
  • ผลลัพธ์: เส้นทางวัตถุที่สมบูรณ์ผ่านพื้นที่และเวลา

นี่สำคัญเพราะงานตัดต่อจริงต้องการทั้งสองมิติ "ลบไมค์บูม" ต้องรู้ว่ามันปรากฏที่ไหน (เชิงพื้นที่) และนานแค่ไหน (เชิงเวลา) Vidi2 จัดการสิ่งนี้เป็นคำสั่งเดียว

การทดสอบประสิทธิภาพ: เหนือกว่ายักษ์ใหญ่

12B
พารามิเตอร์
#1
การเข้าใจวิดีโอ
เปิด
โค้ดต้นฉบับ

นี่คือจุดที่น่าสนใจ บนเกณฑ์มาตรฐาน VUE-STG ของ ByteDance สำหรับการระบุตำแหน่งในมิติเชิงพื้นที่และเวลา Vidi2 มีประสิทธิภาพเหนือกว่าทั้ง Gemini 2.0 Flash และ GPT-4o แม้จะมีพารามิเตอร์น้อยกว่าทั้งสองตัว

💡

ข้อควรระวัง: เกณฑ์มาตรฐานเหล่านี้สร้างโดย ByteDance การตรวจสอบอิสระบนเกณฑ์มาตรฐานของบุคคลที่สามจะทำให้ข้อเรียกร้องเหล่านี้แข็งแกร่งขึ้น อย่างไรก็ตาม แนวทางสถาปัตยกรรมเฉพาะทางนั้นสมเหตุสมผล

ผลการทดสอบแสดงให้เห็นว่าการเข้าใจวิดีโอได้ประโยชน์จากการออกแบบเฉพาะทางมากกว่าขนาดที่ใหญ่กว่า โมเดลที่สร้างขึ้นสำหรับวิดีโอตั้งแต่เริ่มต้นสามารถมีประสิทธิภาพเหนือกว่าโมเดลอเนกประสงค์ที่ใหญ่กว่าซึ่งถือว่าวิดีโอเป็นส่วนขยายของการเข้าใจภาพ

ใช้งานจริงแล้ว: TikTok Smart Split

นี่ไม่ใช่แค่ทฤษฎี Vidi2 ขับเคลื่อนฟีเจอร์ "Smart Split" ของ TikTok ซึ่ง:

  • แยกไฮไลท์จากวิดีโอยาวโดยอัตโนมัติ
  • สร้างคำบรรยายที่ซิงค์กับการพูด
  • ปรับโครงสร้างเค้าโครงสำหรับอัตราส่วนภาพต่างๆ
  • ระบุจุดตัดที่เหมาะสมที่สุดตามเนื้อหา

ผู้สร้างคอนเทนต์หลายล้านคนใช้ Smart Split ทุกวัน โมเดลได้รับการพิสูจน์ในระดับใหญ่ ไม่ใช่แค่ทฤษฎี

โค้ดต้นฉบับเปิด: รันได้ด้วยตัวเอง

ByteDance ปล่อย Vidi2 บน GitHub ภายใต้ใบอนุญาต CC BY-NC 4.0 ซึ่งหมายความว่าใช้ฟรีสำหรับการวิจัย การศึกษา และโปรเจกต์ส่วนตัว แต่การใช้งานเชิงพาณิชย์ต้องมีใบอนุญาตแยกต่างหาก ความหมาย:

สำหรับนักพัฒนา:

  • สร้างไปป์ไลน์วิเคราะห์วิดีโอที่กำหนดเอง
  • บูรณาการความเข้าใจเข้ากับเครื่องมือที่มีอยู่
  • ปรับแต่งสำหรับโดเมนเฉพาะ
  • ไม่มีค่าใช้จ่าย API ในระดับใหญ่

สำหรับองค์กร:

  • ประมวลผลฟุตเทจที่ละเอียดอ่อนในเครื่อง
  • สร้างเวิร์กโฟลว์การตัดต่อที่เป็นกรรมสิทธิ์
  • หลีกเลี่ยงการถูกล็อคกับผู้ขาย
  • ปรับแต่งสำหรับประเภทเนื้อหาภายใน

การเปิดตัวโอเพ่นซอร์สนี้เป็นไปตามรูปแบบที่เราเห็นกับ LTX Video และห้องปฏิบัติการ AI ของจีนอื่นๆ: ปล่อยโมเดลที่ทรงพลังแบบเปิด ในขณะที่คู่แข่งตะวันตกเก็บของพวกเขาไว้เป็นกรรมสิทธิ์

การประยุกต์ใช้จริง

ขอแสดงให้เห็นเวิร์กโฟลว์จริงบางอย่างที่ Vidi2 ทำให้เป็นไปได้:

การนำเนื้อหากลับมาใช้ใหม่

อินพุต: การบันทึกพอดแคสต์ 2 ชั่วโมง เอาต์พุต: คลิปสั้น 10 คลิปของช่วงเวลาที่ดีที่สุด แต่ละคลิปมีจุดตัดเปิด/ปิดที่เหมาะสม

โมเดลระบุช่วงเวลาที่น่าสนใจ ค้นหาจุดตัดตามธรรมชาติ และแยกคลิปที่ใช้ได้เป็นเนื้อหาแบบสแตนด์อโลน

การจัดการวิดีโอฝึกอบรม

อินพุต: วิดีโอฝึกอบรมขององค์กร 500 ชั่วโมง คำถาม: "ค้นหาทุกส่วนที่อธิบายเวิร์กโฟลว์ CRM ใหม่"

แทนที่จะต้องค้นหาด้วยตนเองหรือพึ่งพาเมตาดาต้าที่ไม่น่าเชื่อถือ Vidi2 จะดูและเข้าใจเนื้อหาจริงๆ

ไฮไลท์กีฬา

อินพุต: การบันทึกการแข่งขันเต็ม เอาต์พุต: วิดีโอไฮไลท์พร้อมช่วงเวลาทำประตู สถานการณ์ใกล้เคียง และการเฉลิมฉลอง

โมเดลเข้าใจบริบททางกีฬาดีพอที่จะระบุช่วงเวลาที่มีความหมาย ไม่ใช่แค่การเคลื่อนไหว

การตรวจสอบการเฝ้าระวัง

อินพุต: ฟุตเทจความปลอดภัย 24 ชั่วโมง คำถาม: "ค้นหาทุกกรณีของผู้คนที่เข้ามาทางประตูด้านข้างหลัง 18:00 น."

การระบุตำแหน่งในมิติเชิงพื้นที่และเวลาหมายถึงคำตอบที่แม่นยำพร้อมตำแหน่งเวลาและตำแหน่งที่แน่นอน

การเปรียบเทียบกับโมเดลสร้างวิดีโอ

การเข้าใจวิดีโอ (Vidi2)
  • ทำงานกับฟุตเทจที่มีอยู่
  • ประหยัดเวลาการตัดต่อ ไม่ใช่เวลาการสร้าง
  • ขยายไปยังคลังวิดีโอขนาดใหญ่
  • ไม่ต้องมีการสร้างพรอมต์อย่างสร้างสรรค์
  • เป็นประโยชน์กับองค์กรได้ทันที
การสร้างวิดีโอ (Runway, Sora)
  • สร้างเนื้อหาใหม่จากศูนย์
  • เครื่องมือสำหรับการแสดงออกอย่างสร้างสรรค์
  • การประยุกต์ใช้ทางการตลาดและโฆษณา
  • คุณภาพเพิ่มขึ้นอย่างรวดเร็ว
  • น่าตื่นเต้นแต่เป็นกรณีใช้งานที่แตกต่างกัน

เหล่านี้ไม่ใช่เทคโนโลยีที่แข่งขันกัน พวกเขาแก้ปัญหาที่แตกต่างกัน เวิร์กโฟลว์วิดีโอ AI ที่สมบูรณ์ต้องการทั้งสอง: การสร้างสำหรับสร้างเนื้อหาใหม่ การเข้าใจสำหรับทำงานกับเนื้อหาที่มีอยู่

ภาพใหญ่

⚠️

การเข้าใจวิดีโอคือจุดที่ AI เปลี่ยนจาก "เดโมที่น่าประทับใจ" เป็น "เครื่องมือประจำวัน" การสร้างได้รับความสนใจ การเข้าใจทำงานจริง

พิจารณาว่าสิ่งนี้ทำให้เกิดอะไรขึ้น:

  • ทุกองค์กร มีเนื้อหาวิดีโอที่ติดอยู่ในคลังข้อมูล
  • ทุกผู้สร้างคอนเทนต์ ใช้เวลาตัดต่อมากกว่าการถ่ายทำ
  • ทุกแพลตฟอร์ม ต้องการการกลั่นกรองเนื้อหาและการค้นพบที่ดีกว่า
  • ทุกนักวิจัย มีฟุตเทจที่พวกเขาไม่สามารถวิเคราะห์ได้อย่างมีประสิทธิภาพ

Vidi2 แก้ไขทั้งหมดนี้ การเปิดตัวโอเพ่นซอร์สหมายความว่าความสามารถเหล่านี้สามารถเข้าถึงได้โดยทุกคนที่มีพลังการคำนวณเพียงพอ

การเริ่มต้น

โมเดลพร้อมใช้งานบน GitHub พร้อมเอกสารและเดโม ข้อกำหนด:

  • GPU NVIDIA ที่มี VRAM อย่างน้อย 24GB สำหรับโมเดลเต็ม
  • เวอร์ชันควอนไทซ์พร้อมใช้งานสำหรับ GPU ขนาดเล็กกว่า
  • Python 3.10+ พร้อม PyTorch 2.0+

เริ่มต้นอย่างรวดเร็ว:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

เอกสารส่วนใหญ่เป็นภาษาอังกฤษแม้ว่า ByteDance จะเป็นบริษัทจีน ซึ่งสะท้อนถึงกลุ่มเป้าหมายทั่วโลก

ความหมายต่ออุตสาหกรรม

ภูมิทัศน์วิดีโอ AI ตอนนี้มีสองแนวทางที่แตกต่างกัน:

แนวทางผู้นำโฟกัสคุณค่า
การสร้างRunway, Sora, Veo, Klingสร้างวิดีโอใหม่การแสดงออกอย่างสร้างสรรค์
การเข้าใจVidi2, (อื่นๆกำลังเกิดขึ้น)วิเคราะห์วิดีโอที่มีอยู่ผลิตภาพ

ทั้งสองจะเติบโต ทั้งสองจะบูรณาการ สแต็กวิดีโอ AI ที่สมบูรณ์ของปี 2026 จะสร้าง ตัดต่อ และเข้าใจได้อย่างราบรื่น

ตอนนี้ Vidi2 เป็นตัวเลือกโอเพ่นซอร์สที่มีความสามารถมากที่สุดสำหรับการเข้าใจวิดีโอ หากคุณมีฟุตเทจที่จะวิเคราะห์ การตัดต่อที่จะทำให้เป็นอัตโนมัติ หรือเนื้อหาที่จะจัดระเบียบ นี่คือโมเดลที่ควรสำรวจ

ความคิดเห็นของผม

ผมใช้เวลาหลายปีในการสร้างไปป์ไลน์การประมวลผลวิดีโอ ก่อนและหลังกับโมเดลเช่น Vidi2 แตกต่างกันอย่างชัดเจน งานที่ต้องการสแต็กคอมพิวเตอร์วิชันที่กำหนดเอง การใส่คำอธิบายด้วยตนเอง และฮิวริสติกที่เปราะบาง ตอนนี้สามารถแก้ไขได้ด้วยพรอมต์

💡

เครื่องมือ AI ที่ดีที่สุดไม่ได้แทนที่การตัดสินใจของมนุษย์ แต่จะเอางานที่น่าเบื่อออกไปซึ่งป้องกันไม่ให้มนุษย์ใช้การตัดสินใจในระดับใหญ่

Vidi2 ไม่ได้แทนที่นักตัดต่อ แต่ให้ความสามารถกับนักตัดต่อที่ก่อนหน้านี้เป็นไปไม่ได้ในระดับใหญ่ และด้วยการเข้าถึงแบบเปิด (สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์) ความสามารถเหล่านี้สามารถเข้าถึงได้โดยทุกคนที่เต็มใจที่จะติดตั้งโครงสร้างพื้นฐาน

อนาคตของวิดีโอไม่ใช่แค่การสร้าง แต่คือการเข้าใจ และอนาคตนั้นเป็นโอเพ่นซอร์สแล้วในตอนนี้


แหล่งข้อมูล

บทความนี้มีประโยชน์หรือไม่?

Damien

Damien

นักพัฒนา AI

นักพัฒนา AI จากลียงที่ชอบเปลี่ยนแนวคิด ML ที่ซับซ้อนให้เป็นสูตรง่ายๆ เมื่อไม่ได้แก้ไขบั๊กโมเดล คุณจะพบเขาปั่นจักรยานผ่านหุบเขาโรน

บทความที่เกี่ยวข้อง

สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

ByteDance Seedance 1.5 Pro: โมเดลที่สร้างเสียงและวิดีโอพร้อมกัน
ByteDanceSeedance

ByteDance Seedance 1.5 Pro: โมเดลที่สร้างเสียงและวิดีโอพร้อมกัน

ByteDance เปิดตัว Seedance 1.5 Pro พร้อมการสร้างภาพและเสียงแบบเนทีฟ การควบคุมกล้องระดับภาพยนตร์ และการซิงค์ริมฝีปากหลายภาษา ใช้งานฟรีใน CapCut

Read
YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
YouTubeVeo 3

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน

Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Read
Kling 2.6: Voice Cloning และ Motion Control นิยามใหม่ของการสร้างวิดีโอ AI
KlingAI Video

Kling 2.6: Voice Cloning และ Motion Control นิยามใหม่ของการสร้างวิดีโอ AI

การอัปเดตล่าสุดของ Kuaishou นำเสนอการสร้างภาพและเสียงพร้อมกัน การฝึกเสียงแบบกำหนดเอง และการจับการเคลื่อนไหวที่แม่นยำ ซึ่งอาจเปลี่ยนแปลงวิธีที่ครีเอเตอร์ทำงานกับวิดีโอ AI

Read

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

ByteDance Vidi2: AI ที่เข้าใจวิดีโอเหมือนนักตัดต่อมืออาชีพ