CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion
ในขณะที่ Sora 2 สร้างวิดีโอได้สูงสุดเพียง 25 วินาที CraftStory ได้นำเสนอระบบที่สามารถสร้างวิดีโอความยาว 5 นาทีที่มีความต่อเนื่องสมบูรณ์ ความลับคืออะไร การใช้ diffusion engine หลายตัวทำงานแบบขนานพร้อมข้อจำกัดแบบสองทิศทาง

ปัญหาที่ใหญ่ที่สุดของ AI Video คืออะไร ความยาวของวิดีโอ Sora 2 สร้างวิดีโอได้สูงสุด 25 วินาที Runway และ Pika อยู่ที่ประมาณ 10 วินาที แต่ CraftStory เพิ่งเข้ามาและกล่าวว่า "รอดูก่อน": วิดีโอที่มีความต่อเนื่องความยาว 5 นาทีเต็ม เทคนิคที่อยู่เบื้องหลังนี้ชาญฉลาดอย่างแท้จริง
ปัญหาเรื่องความยาวที่ไม่มีใครแก้ไขได้
สิ่งที่เป็นข้อจำกัดของโมเดล AI Video ในปัจจุบัน: พวกเขาเป็นนักวิ่งระยะสั้น ไม่ใช่นักวิ่งมาราธอน สร้างวิดีโอสวยงามได้แปดวินาที จากนั้นพยายามขยายความยาว คุณจะได้รับภาพที่เหมือนเกมโทรศัพท์เสีย ข้อผิดพลาดสะสมขึ้น ตัวละครเคลื่อนที่ไปเรื่อยๆ ทุกอย่างพังทลายลง
วิธีการแบบดั้งเดิมทำงานดังนี้: สร้างส่วนหนึ่ง ใช้เฟรมสุดท้ายสองสามเฟรมเป็นบริบทสำหรับส่วนถัดไป เย็บมันเข้าด้วยกัน ปัญหาคืออะไร ข้อผิดพลาดสะสมขึ้นเรื่อยๆ ท่าทางมือที่แปลกเล็กน้อยในส่วนที่หนึ่งกลายเป็นก้อนแปลกๆ ภายในส่วนที่ห้า
CraftStory ก่อตั้งโดยทีมที่อยู่เบื้องหลัง OpenCV ไลบรารี computer vision ที่ทำงานในระบบ vision เกือบทุกระบบที่คุณเคยใช้ CEO ของพวกเขา Victor Erukhimov เป็นผู้ร่วมก่อตั้ง Itseez สตาร์ทอัพด้าน computer vision ที่ Intel ซื้อกิจการในปี 2016
Bidirectional Diffusion: นวัตกรรมทางสถาปัตยกรรม
แนวทางแก้ไขของ CraftStory พลิกแนวทางแบบดั้งเดิมกลับหัว แทนที่จะสร้างแบบต่อเนื่องและหวังว่าจะได้ผลดีที่สุด พวกเขาใช้ diffusion engine ขนาดเล็กหลายตัวทำงานพร้อมกันตลอดทั้งไทม์ไลน์ของวิดีโอ
ข้อจำกัดแบบสองทิศทาง
ข้อค้นพบที่สำคัญ: "ส่วนหลังของวิดีโอสามารถมีอิทธิพลต่อส่วนต้นของวิดีโอได้เช่นกัน" Erukhimov อธิบาย "และนี่เป็นสิ่งสำคัญมาก เพราะถ้าคุณทำทีละอัน ข้อผิดพลาดที่ปรากฏในส่วนแรกจะแพร่กระจายไปยังส่วนที่สอง แล้วมันก็สะสมขึ้นเรื่อยๆ"
ลองนึกถึงเหมือนการเขียนนิยายเทียบกับการร่างโครงเรื่อง การสร้างแบบต่อเนื่องเหมือนการเขียนหน้าหนึ่ง จากนั้นหน้าสอง จากนั้นหน้าสาม โดยไม่สามารถย้อนกลับไปได้ วิธีการของ CraftStory เหมือนการมีโครงเรื่องที่บทที่สิบสามารถให้ข้อมูลเกี่ยวกับสิ่งที่ต้องเกิดขึ้นในบทที่สองได้
แบบต่อเนื่องดั้งเดิม
- สร้างส่วน A
- ใช้ตอนท้ายของ A เพื่อเริ่มต้น B
- ใช้ตอนท้ายของ B เพื่อเริ่มต้น C
- หวังว่าจะไม่มีอะไรสะสมขึ้น
- ไขว้นิ้วที่จุดเชื่อมต่อ
แบบสองทิศทางขนาน
- ประมวลผลทุกส่วนพร้อมกัน
- แต่ละส่วนจำกัดส่วนที่อยู่ข้างเคียง
- ส่วนต้นๆ ได้รับอิทธิพลจากส่วนหลังๆ
- ข้อผิดพลาดแก้ไขตัวเองตลอดไทม์ไลน์
- ความต่อเนื่องตามธรรมชาติ ไม่ต้องเย็บต่อ
Model 2.0 ทำงานจริงอย่างไร
ในปัจจุบัน CraftStory Model 2.0 เป็นระบบวิดีโอต่อวิดีโอ คุณให้รูปภาพหนึ่งและวิดีโอขับเคลื่อนหนึ่ง และมันจะสร้างผลลัพธ์ที่บุคคลในรูปภาพของคุณแสดงการเคลื่อนไหวจากวิดีโอขับเคลื่อน
- ✓อัปโหลดรูปภาพอ้างอิง (วัตถุของคุณ)
- ✓ให้วิดีโอขับเคลื่อน (เทมเพลตการเคลื่อนไหว)
- ✓โมเดลสังเคราะห์การแสดง
- ○ข้อความต่อวิดีโอจะมาในการอัปเดตในอนาคต
ระบบซิงค์ริมฝีปากโดดเด่นมาก ป้อนสคริปต์หรือเสียง และมันจะสร้างการเคลื่อนไหวปากที่ตรงกัน อัลกอริทึมการจัดท่าทางแยกต่างหากซิงโครไนซ์ภาษากายกับจังหวะการพูดและโทนอารมณ์ ผลลัพธ์คืออะไร วิดีโอที่บุคคลดูเหมือนกำลังพูดคำเหล่านั้นจริงๆ ไม่ใช่แค่กระดกขากรรไกร
CraftStory ฝึกอบรมด้วยฟุตเทจอัตราเฟรมสูงที่เป็นกรรมสิทธิ์ที่ถ่ายทำเฉพาะสำหรับโมเดล คลิป YouTube 30fps มาตรฐานมีความเบลอของการเคลื่อนไหวมากเกินไปสำหรับรายละเอียดละเอียดเช่นนิ้วมือ พวกเขาจ้างสตูดิโอเพื่อบันทึกนักแสดงที่อัตราเฟรมสูงกว่าสำหรับข้อมูลการฝึกอบรมที่สะอาดกว่า
ผลลัพธ์: สิ่งที่คุณได้รับจริงๆ
- วิดีโอต่อเนื่องได้ถึง 5 นาที
- ความละเอียด 480p และ 720p แบบเนทีฟ
- 720p ขยายได้ถึง 1080p
- รูปแบบแนวนอนและแนวตั้ง
- การเคลื่อนไหวริมฝีปากที่ซิงค์
- การจัดท่าทางที่เป็นธรรมชาติ
- เฉพาะวิดีโอต่อวิดีโอ (ยังไม่มีข้อความต่อวิดีโอ)
- ต้องการวิดีโอขับเคลื่อนเป็นอินพุต
- ใช้เวลา ~15 นาทีสำหรับ 30 วินาทีที่ความละเอียดต่ำ
- กล้องนิ่งในปัจจุบัน (กล้องเคลื่อนที่กำลังมา)
การสร้างใช้เวลาประมาณ 15 นาทีสำหรับคลิป 30 วินาทีความละเอียดต่ำ นี่ช้ากว่าการสร้างแบบใกล้ทันทีที่โมเดลบางตัวเสนอ แต่การแลกเปลี่ยนคือผลลัพธ์รูปแบบยาวที่มีความต่อเนื่องแทนที่จะเป็นชิ้นส่วนสวยงามที่ไม่เชื่อมต่อกัน
ทำไมสิ่งนี้จึงสำคัญสำหรับผู้สร้างสรรค์
ข้อจำกัด 5 นาทีไม่ใช่เรื่องสุ่มสี่สุ่มห้า นี่คือเกณฑ์ที่ AI video กลายเป็นประโยชน์สำหรับเนื้อหาที่แท้จริง
คลิปโซเชียล
ดีสำหรับ TikTok snippets และโฆษณา แต่การเล่าเรื่องที่จำกัด
วิดีโออธิบายสั้น
เพียงพอสำหรับการสาธิตผลิตภัณฑ์อย่างรวดเร็วหรือภาพประกอบแนวคิด
เนื้อหาจริง
บทช่วยสอน YouTube, วิดีโอการฝึกอบรม, การนำเสนอ, เนื้อหาเชิงเล่าเรื่อง
รูปแบบยาว
ตอนเต็ม, สารคดี, หลักสูตรการศึกษา
เนื้อหาวิดีโอธุรกิจส่วนใหญ่อยู่ในช่วง 2-5 นาที การสาธิตผลิตภัณฑ์ โมดูลการฝึกอบรม วิดีโออธิบาย การสื่อสารภายใน นี่คือจุดที่ CraftStory กลายเป็นสิ่งที่เกี่ยวข้องสำหรับกรณีการใช้งานระดับมืออาชีพ
กรณีการใช้งานที่เปิดขึ้น:
- บทช่วยสอนผลิตภัณฑ์ด้วยผู้นำเสนอที่สม่ำเสมอตลอดทั้งหมด
- วิดีโอการฝึกอบรมที่ไม่ต้องกำหนดเวลาพรสวรรค์
- ข้อความวิดีโอส่วนบุคคลในระดับขนาดใหญ่
- เนื้อหาการศึกษาพร้อมผู้สอนเสมือนจริง
- การสื่อสารองค์กรด้วยโฆษกที่สร้างขึ้น
ภูมิทัศน์การแข่งขัน
CraftStory ระดมทุนได้ 2 ล้านดอลลาร์ในรอบ seed ที่นำโดย Andrew Filev ผู้ก่อตั้ง Wrike และ Zencoder นี่เป็นจำนวนเงินเจียมเนื้อเจียมตัวเมื่อเทียบกับพันล้านดอลลาร์ที่ไหลเข้า OpenAI และ Google แต่ก็เพียงพอที่จะพิสูจน์เทคโนโลยี
ความเชื่อมโยงกับ OpenCV
ประวัติของทีมผู้ก่อตั้งมีความสำคัญที่นี่ OpenCV ขับเคลื่อนระบบ computer vision ในหลายอุตสาหกรรม บุคคลเหล่านี้เข้าใจพื้นฐานของการประมวลผลภาพในระดับที่สตาร์ทอัพ AI video ส่วนใหญ่ไม่มี
ความสามารถข้อความต่อวิดีโออยู่ระหว่างการพัฒนา เมื่อเปิดตัว ข้อเสนอคุณค่าจะชัดเจนขึ้น: อธิบายวิดีโอ 5 นาทีในข้อความ รับผลลัพธ์ที่มีความต่อเนื่องโดยไม่มีการลดคุณภาพแบบเฟรมต่อเฟรมที่รบกวนเครื่องมืออื่นๆ
อะไรต่อไป
คุณสมบัติในแผนงาน▼
CraftStory ได้ประกาศความสามารถที่กำลังจะมาถึงหลายอย่าง:
- ข้อความต่อวิดีโอ: สร้างจากพรอมต์โดยไม่ต้องมีวิดีโอขับเคลื่อน
- กล้องเคลื่อนที่: การแพน, ซูม และช็อตติดตาม
- เดินและพูด: วัตถุที่เคลื่อนที่ผ่านพื้นที่ขณะพูด
วิธีการ bidirectional diffusion ไม่ใช่แค่เทคนิคของ CraftStory เท่านั้น นี่เป็นรูปแบบที่ทีมอื่นๆ น่าจะนำมาใช้ เมื่อคุณแก้ปัญหา "ข้อผิดพลาดสะสมไปข้างหน้า" การสร้างที่ยาวขึ้นกลายเป็นความท้าทายทางวิศวกรรมมากกว่าอุปสรรคพื้นฐาน
Model 2.0 มุ่งเน้นไปที่วิดีโอที่มีมนุษย์เป็นศูนย์กลางในปัจจุบัน สำหรับฉากที่ไม่มีคน คุณจะยังต้องการเครื่องมือที่ปรับให้เหมาะสมสำหรับการสร้างสภาพแวดล้อมหรือการสร้างแบบนามธรรม นี่เป็นเครื่องมือเฉพาะทาง ไม่ใช่ทั่วไป
ภาพรวมที่ใหญ่กว่า
เรากำลังเห็น AI video ผ่านช่วงวัยรุ่นที่อึดอัด โมเดลสามารถสร้างคลิป 10 วินาทีที่น่าทึ่ง แต่ขอให้พวกเขารักษาความต่อเนื่องตลอดหลายนาทีและพวกเขาก็พังทลาย วิธีการแบบสองทิศทางของ CraftStory เป็นหนึ่งในคำตอบสำหรับปัญหานั้น
คำถามที่แท้จริง: ใช้เวลานานแค่ไหนจนกว่าเทคนิคนี้จะถูกนำมาใช้โดยผู้เล่นที่ใหญ่กว่า OpenAI, Google และ Runway ทุกคนมีทรัพยากรในการนำสถาปัตยกรรมที่คล้ายกันมาใช้ ข้อได้เปรียบของ CraftStory คือการเป็นรายแรกที่เข้าสู่ตลาดด้วยการสร้างรูปแบบยาวที่ใช้งานได้
สำหรับตอนนี้ หากคุณต้องการเนื้อหาวิดีโอ AI หลายนาทีที่สม่ำเสมอกับวัตถุมนุษย์ CraftStory เพิ่งกลายเป็นเกมเดียวในเมือง อุปสรรคความยาวยังไม่แตก แต่มีคนเพิ่งทำให้เกิดรอยแตกร้ายแรงในนั้น
ลองใช้ดู
CraftStory Model 2.0 พร้อมให้บริการแล้ว โครงสร้างราคายังไม่ได้รับการเปิดเผยต่อสาธารณะ ดังนั้นคุณจะต้องตรวจสอบเว็บไซต์ของพวกเขาสำหรับข้อเสนอในปัจจุบัน ข้อความต่อวิดีโอกำลังจะมา ซึ่งจะทำให้แพลตฟอร์มสามารถเข้าถึงได้สำหรับผู้ใช้ที่ไม่มีเนื้อหาวิดีโอขับเคลื่อนที่มีอยู่

Henry
นักเทคโนโลยีสร้างสรรค์นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์