ByteDance Vidi2: AI ที่เข้าใจวิดีโอเหมือนนักตัดต่อมืออาชีพ
ByteDance เพิ่งเปิดโค้ดต้นฉบับของ Vidi2 โมเดลที่มีพารามิเตอร์ 12 พันล้านตัว ที่สามารถเข้าใจเนื้อหาวิดีโอได้ดีพอที่จะตัดต่อวิดีโอหลายชั่วโมงให้กลายเป็นคลิปที่สมบูรณ์แบบโดยอัตโนมัติ ปัจจุบันใช้งานอยู่ใน TikTok Smart Split

ในขณะที่ทุกคนให้ความสนใจกับการสร้างวิดีโอด้วย AI ByteDance ได้แก้ปัญหาที่แตกต่างออกไปอย่างเงียบๆ นั่นคือการทำให้ AI เข้าใจวิดีโอเหมือนนักตัดต่อที่มีประสบการณ์ Vidi2 สามารถดูวิดีโอดิบหลายชั่วโมงและคัดเลือกเฉพาะสิ่งที่สำคัญออกมาได้อย่างแม่นยำ
ปัญหาที่ไม่ค่อยมีใครพูดถึง
ในปัจจุบันเรามีเครื่องมือสร้างวิดีโอด้วย AI ที่น่าทึ่งมาก Runway Gen-4.5 อยู่อันดับต้นๆ ในด้านคุณภาพ Kling O1 สามารถสร้างเสียงที่ซิงค์กันได้ แต่นี่คือความจริงที่ซ่อนเร้นของการผลิตวิดีโอ เวลาส่วนใหญ่ใช้ไปกับการตัดต่อ ไม่ใช่การสร้างสรรค์
ช่างภาพงานแต่งงานบันทึกวิดีโอ 8 ชั่วโมงเพื่อทำไฮไลท์ 5 นาที ผู้สร้างคอนเทนต์บันทึก 45 นาทีเพื่อทำ TikTok 60 วินาที องค์กรมีวิดีโอฝึกอบรม 200 ชั่วโมงฝังอยู่ใน SharePoint
การสร้างวิดีโอได้รับความสนใจ แต่การเข้าใจวิดีโอต่างหากที่ทำงานจริงๆ
Vidi2 แก้ไขช่องว่างนี้ ไม่ใช่เครื่องมือสร้างวิดีโออีกตัว แต่เป็น AI ที่ดูวิดีโอ เข้าใจว่าเกิดอะไรขึ้น และช่วยให้คุณทำงานกับเนื้อหานั้นในระดับที่ใหญ่ขึ้นได้
สิ่งที่ Vidi2 ทำได้จริงๆ
ByteDance อธิบาย Vidi2 ว่าเป็น "โมเดลมัลติโมดอลขนาดใหญ่สำหรับการเข้าใจและสร้างวิดีโอ" โมเดลที่มีพารามิเตอร์ 12 พันล้านตัวนี้มีความเชี่ยวชาญใน:
การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา
ค้นหาวัตถุใดก็ได้ในวิดีโอและติดตามมันผ่านช่วงเวลา ไม่ใช่แค่ "มีแมวที่ 0:32" แต่เป็น "แมวเข้ามาที่ 0:32 เคลื่อนไปที่โซฟาที่ 0:45 และออกจากเฟรมที่ 1:12"
การตัดต่ออัจฉริยะ
วิเคราะห์ฟุตเทจและแนะนำจุดตัดตามเนื้อหา ค้นหาช่วงเวลาที่ดีที่สุด ระบุขอบเขตของฉาก เข้าใจจังหวะ
การวิเคราะห์เนื้อหา
อธิบายสิ่งที่เกิดขึ้นในวิดีโอด้วยรายละเอียดเพียงพอที่จะมีประโยชน์ ไม่ใช่แค่ "สองคนกำลังพูดคุย" แต่เป็น "ส่วนสัมภาษณ์ แขกกำลังอธิบายฟีเจอร์ของผลิตภัณฑ์ มีการมีส่วนร่วมสูงที่ 3:45"
การติดตามวัตถุ
ติดตามวัตถุเป็น "ท่อ" ต่อเนื่องผ่านวิดีโอ แม้เมื่อมันออกจากเฟรมและกลับเข้ามาอีกครั้ง สิ่งนี้ทำให้สามารถเลือกอย่างแม่นยำสำหรับเอฟเฟกต์ การลบ หรือการเน้น
นวัตกรรมทางเทคนิค: การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา
AI วิดีโอในอดีตทำงานในสองมิติ: พื้นที่ (มีอะไรในเฟรมนี้) หรือเวลา (เกิดขึ้นเมื่อไหร่) Vidi2 รวมทั้งสองเป็นสิ่งที่ ByteDance เรียกว่า "การระบุตำแหน่งในมิติเชิงพื้นที่และเวลา" (STG)
แนวทางแบบดั้งเดิม:
- เชิงพื้นที่: "รถอยู่ที่พิกัดพิกเซล (450, 320)"
- เชิงเวลา: "รถปรากฏที่ตำแหน่งเวลา 0:15"
- ผลลัพธ์: ข้อมูลที่ไม่เชื่อมโยงกันซึ่งต้องมีการเชื่อมโยงด้วยตนเอง
Vidi2 STG:
- รวมกัน: "รถสีแดงอยู่ที่ (450, 320) ที่ 0:15 เคลื่อนไปที่ (890, 340) ที่ 0:18 ออกทางขวาที่ 0:22"
- ผลลัพธ์: เส้นทางวัตถุที่สมบูรณ์ผ่านพื้นที่และเวลา
นี่สำคัญเพราะงานตัดต่อจริงต้องการทั้งสองมิติ "ลบไมค์บูม" ต้องรู้ว่ามันปรากฏที่ไหน (เชิงพื้นที่) และนานแค่ไหน (เชิงเวลา) Vidi2 จัดการสิ่งนี้เป็นคำสั่งเดียว
การทดสอบประสิทธิภาพ: เหนือกว่ายักษ์ใหญ่
นี่คือจุดที่น่าสนใจ บนเกณฑ์มาตรฐาน VUE-STG ของ ByteDance สำหรับการระบุตำแหน่งในมิติเชิงพื้นที่และเวลา Vidi2 มีประสิทธิภาพเหนือกว่าทั้ง Gemini 2.0 Flash และ GPT-4o แม้จะมีพารามิเตอร์น้อยกว่าทั้งสองตัว
ข้อควรระวัง: เกณฑ์มาตรฐานเหล่านี้สร้างโดย ByteDance การตรวจสอบอิสระบนเกณฑ์มาตรฐานของบุคคลที่สามจะทำให้ข้อเรียกร้องเหล่านี้แข็งแกร่งขึ้น อย่างไรก็ตาม แนวทางสถาปัตยกรรมเฉพาะทางนั้นสมเหตุสมผล
ผลการทดสอบแสดงให้เห็นว่าการเข้าใจวิดีโอได้ประโยชน์จากการออกแบบเฉพาะทางมากกว่าขนาดที่ใหญ่กว่า โมเดลที่สร้างขึ้นสำหรับวิดีโอตั้งแต่เริ่มต้นสามารถมีประสิทธิภาพเหนือกว่าโมเดลอเนกประสงค์ที่ใหญ่กว่าซึ่งถือว่าวิดีโอเป็นส่วนขยายของการเข้าใจภาพ
ใช้งานจริงแล้ว: TikTok Smart Split
นี่ไม่ใช่แค่ทฤษฎี Vidi2 ขับเคลื่อนฟีเจอร์ "Smart Split" ของ TikTok ซึ่ง:
- ✓แยกไฮไลท์จากวิดีโอยาวโดยอัตโนมัติ
- ✓สร้างคำบรรยายที่ซิงค์กับการพูด
- ✓ปรับโครงสร้างเค้าโครงสำหรับอัตราส่วนภาพต่างๆ
- ✓ระบุจุดตัดที่เหมาะสมที่สุดตามเนื้อหา
ผู้สร้างคอนเทนต์หลายล้านคนใช้ Smart Split ทุกวัน โมเดลได้รับการพิสูจน์ในระดับใหญ่ ไม่ใช่แค่ทฤษฎี
โค้ดต้นฉบับเปิด: รันได้ด้วยตัวเอง
ByteDance ปล่อย Vidi2 บน GitHub ภายใต้ใบอนุญาต CC BY-NC 4.0 ซึ่งหมายความว่าใช้ฟรีสำหรับการวิจัย การศึกษา และโปรเจกต์ส่วนตัว แต่การใช้งานเชิงพาณิชย์ต้องมีใบอนุญาตแยกต่างหาก ความหมาย:
สำหรับนักพัฒนา:
- สร้างไปป์ไลน์วิเคราะห์วิดีโอที่กำหนดเอง
- บูรณาการความเข้าใจเข้ากับเครื่องมือที่มีอยู่
- ปรับแต่งสำหรับโดเมนเฉพาะ
- ไม่มีค่าใช้จ่าย API ในระดับใหญ่
สำหรับองค์กร:
- ประมวลผลฟุตเทจที่ละเอียดอ่อนในเครื่อง
- สร้างเวิร์กโฟลว์การตัดต่อที่เป็นกรรมสิทธิ์
- หลีกเลี่ยงการถูกล็อคกับผู้ขาย
- ปรับแต่งสำหรับประเภทเนื้อหาภายใน
การเปิดตัวโอเพ่นซอร์สนี้เป็นไปตามรูปแบบที่เราเห็นกับ LTX Video และห้องปฏิบัติการ AI ของจีนอื่นๆ: ปล่อยโมเดลที่ทรงพลังแบบเปิด ในขณะที่คู่แข่งตะวันตกเก็บของพวกเขาไว้เป็นกรรมสิทธิ์
การประยุกต์ใช้จริง
ขอแสดงให้เห็นเวิร์กโฟลว์จริงบางอย่างที่ Vidi2 ทำให้เป็นไปได้:
การนำเนื้อหากลับมาใช้ใหม่
อินพุต: การบันทึกพอดแคสต์ 2 ชั่วโมง เอาต์พุต: คลิปสั้น 10 คลิปของช่วงเวลาที่ดีที่สุด แต่ละคลิปมีจุดตัดเปิด/ปิดที่เหมาะสม
โมเดลระบุช่วงเวลาที่น่าสนใจ ค้นหาจุดตัดตามธรรมชาติ และแยกคลิปที่ใช้ได้เป็นเนื้อหาแบบสแตนด์อโลน
การจัดการวิดีโอฝึกอบรม
อินพุต: วิดีโอฝึกอบรมขององค์กร 500 ชั่วโมง คำถาม: "ค้นหาทุกส่วนที่อธิบายเวิร์กโฟลว์ CRM ใหม่"
แทนที่จะต้องค้นหาด้วยตนเองหรือพึ่งพาเมตาดาต้าที่ไม่น่าเชื่อถือ Vidi2 จะดูและเข้าใจเนื้อหาจริงๆ
ไฮไลท์กีฬา
อินพุต: การบันทึกการแข่งขันเต็ม เอาต์พุต: วิดีโอไฮไลท์พร้อมช่วงเวลาทำประตู สถานการณ์ใกล้เคียง และการเฉลิมฉลอง
โมเดลเข้าใจบริบททางกีฬาดีพอที่จะระบุช่วงเวลาที่มีความหมาย ไม่ใช่แค่การเคลื่อนไหว
การตรวจสอบการเฝ้าระวัง
อินพุต: ฟุตเทจความปลอดภัย 24 ชั่วโมง คำถาม: "ค้นหาทุกกรณีของผู้คนที่เข้ามาทางประตูด้านข้างหลัง 18:00 น."
การระบุตำแหน่งในมิติเชิงพื้นที่และเวลาหมายถึงคำตอบที่แม่นยำพร้อมตำแหน่งเวลาและตำแหน่งที่แน่นอน
การเปรียบเทียบกับโมเดลสร้างวิดีโอ
- ทำงานกับฟุตเทจที่มีอยู่
- ประหยัดเวลาการตัดต่อ ไม่ใช่เวลาการสร้าง
- ขยายไปยังคลังวิดีโอขนาดใหญ่
- ไม่ต้องมีการสร้างพรอมต์อย่างสร้างสรรค์
- เป็นประโยชน์กับองค์กรได้ทันที
- สร้างเนื้อหาใหม่จากศูนย์
- เครื่องมือสำหรับการแสดงออกอย่างสร้างสรรค์
- การประยุกต์ใช้ทางการตลาดและโฆษณา
- คุณภาพเพิ่มขึ้นอย่างรวดเร็ว
- น่าตื่นเต้นแต่เป็นกรณีใช้งานที่แตกต่างกัน
เหล่านี้ไม่ใช่เทคโนโลยีที่แข่งขันกัน พวกเขาแก้ปัญหาที่แตกต่างกัน เวิร์กโฟลว์วิดีโอ AI ที่สมบูรณ์ต้องการทั้งสอง: การสร้างสำหรับสร้างเนื้อหาใหม่ การเข้าใจสำหรับทำงานกับเนื้อหาที่มีอยู่
ภาพใหญ่
การเข้าใจวิดีโอคือจุดที่ AI เปลี่ยนจาก "เดโมที่น่าประทับใจ" เป็น "เครื่องมือประจำวัน" การสร้างได้รับความสนใจ การเข้าใจทำงานจริง
พิจารณาว่าสิ่งนี้ทำให้เกิดอะไรขึ้น:
- ทุกองค์กร มีเนื้อหาวิดีโอที่ติดอยู่ในคลังข้อมูล
- ทุกผู้สร้างคอนเทนต์ ใช้เวลาตัดต่อมากกว่าการถ่ายทำ
- ทุกแพลตฟอร์ม ต้องการการกลั่นกรองเนื้อหาและการค้นพบที่ดีกว่า
- ทุกนักวิจัย มีฟุตเทจที่พวกเขาไม่สามารถวิเคราะห์ได้อย่างมีประสิทธิภาพ
Vidi2 แก้ไขทั้งหมดนี้ การเปิดตัวโอเพ่นซอร์สหมายความว่าความสามารถเหล่านี้สามารถเข้าถึงได้โดยทุกคนที่มีพลังการคำนวณเพียงพอ
การเริ่มต้น
โมเดลพร้อมใช้งานบน GitHub พร้อมเอกสารและเดโม ข้อกำหนด:
- GPU NVIDIA ที่มี VRAM อย่างน้อย 24GB สำหรับโมเดลเต็ม
- เวอร์ชันควอนไทซ์พร้อมใช้งานสำหรับ GPU ขนาดเล็กกว่า
- Python 3.10+ พร้อม PyTorch 2.0+
เริ่มต้นอย่างรวดเร็ว:
git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"เอกสารส่วนใหญ่เป็นภาษาอังกฤษแม้ว่า ByteDance จะเป็นบริษัทจีน ซึ่งสะท้อนถึงกลุ่มเป้าหมายทั่วโลก
ความหมายต่ออุตสาหกรรม
ภูมิทัศน์วิดีโอ AI ตอนนี้มีสองแนวทางที่แตกต่างกัน:
| แนวทาง | ผู้นำ | โฟกัส | คุณค่า |
|---|---|---|---|
| การสร้าง | Runway, Sora, Veo, Kling | สร้างวิดีโอใหม่ | การแสดงออกอย่างสร้างสรรค์ |
| การเข้าใจ | Vidi2, (อื่นๆกำลังเกิดขึ้น) | วิเคราะห์วิดีโอที่มีอยู่ | ผลิตภาพ |
ทั้งสองจะเติบโต ทั้งสองจะบูรณาการ สแต็กวิดีโอ AI ที่สมบูรณ์ของปี 2026 จะสร้าง ตัดต่อ และเข้าใจได้อย่างราบรื่น
ตอนนี้ Vidi2 เป็นตัวเลือกโอเพ่นซอร์สที่มีความสามารถมากที่สุดสำหรับการเข้าใจวิดีโอ หากคุณมีฟุตเทจที่จะวิเคราะห์ การตัดต่อที่จะทำให้เป็นอัตโนมัติ หรือเนื้อหาที่จะจัดระเบียบ นี่คือโมเดลที่ควรสำรวจ
ความคิดเห็นของผม
ผมใช้เวลาหลายปีในการสร้างไปป์ไลน์การประมวลผลวิดีโอ ก่อนและหลังกับโมเดลเช่น Vidi2 แตกต่างกันอย่างชัดเจน งานที่ต้องการสแต็กคอมพิวเตอร์วิชันที่กำหนดเอง การใส่คำอธิบายด้วยตนเอง และฮิวริสติกที่เปราะบาง ตอนนี้สามารถแก้ไขได้ด้วยพรอมต์
เครื่องมือ AI ที่ดีที่สุดไม่ได้แทนที่การตัดสินใจของมนุษย์ แต่จะเอางานที่น่าเบื่อออกไปซึ่งป้องกันไม่ให้มนุษย์ใช้การตัดสินใจในระดับใหญ่
Vidi2 ไม่ได้แทนที่นักตัดต่อ แต่ให้ความสามารถกับนักตัดต่อที่ก่อนหน้านี้เป็นไปไม่ได้ในระดับใหญ่ และด้วยการเข้าถึงแบบเปิด (สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์) ความสามารถเหล่านี้สามารถเข้าถึงได้โดยทุกคนที่เต็มใจที่จะติดตั้งโครงสร้างพื้นฐาน
อนาคตของวิดีโอไม่ใช่แค่การสร้าง แต่คือการเข้าใจ และอนาคตนั้นเป็นโอเพ่นซอร์สแล้วในตอนนี้
แหล่งข้อมูล
บทความนี้มีประโยชน์หรือไม่?

Damien
นักพัฒนา AIนักพัฒนา AI จากลียงที่ชอบเปลี่ยนแนวคิด ML ที่ซับซ้อนให้เป็นสูตรง่ายๆ เมื่อไม่ได้แก้ไขบั๊กโมเดล คุณจะพบเขาปั่นจักรยานผ่านหุบเขาโรน
บทความที่เกี่ยวข้อง
สำรวจเนื้อหาต่อกับบทความที่เกี่ยวข้องเหล่านี้

ByteDance Seedance 1.5 Pro: โมเดลที่สร้างเสียงและวิดีโอพร้อมกัน
ByteDance เปิดตัว Seedance 1.5 Pro พร้อมการสร้างภาพและเสียงแบบเนทีฟ การควบคุมกล้องระดับภาพยนตร์ และการซิงค์ริมฝีปากหลายภาษา ใช้งานฟรีใน CapCut

YouTube นำ Veo 3 Fast มาสู่ Shorts: สร้างวิดีโอ AI ฟรีสำหรับผู้ใช้ 2.5 พันล้านคน
Google ผสาน Veo 3 Fast เข้ากับ YouTube Shorts โดยตรง มอบการสร้างวิดีโอจากข้อความพร้อมเสียงให้ครีเอเตอร์ทั่วโลกใช้ฟรี นี่คือความหมายสำหรับแพลตฟอร์มและการเข้าถึงวิดีโอ AI

Kling 2.6: Voice Cloning และ Motion Control นิยามใหม่ของการสร้างวิดีโอ AI
การอัปเดตล่าสุดของ Kuaishou นำเสนอการสร้างภาพและเสียงพร้อมกัน การฝึกเสียงแบบกำหนดเอง และการจับการเคลื่อนไหวที่แม่นยำ ซึ่งอาจเปลี่ยนแปลงวิธีที่ครีเอเตอร์ทำงานกับวิดีโอ AI