HenryHenry
3 min read
448 คำ

CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion

ในขณะที่ Sora 2 สร้างวิดีโอได้สูงสุดเพียง 25 วินาที CraftStory ได้นำเสนอระบบที่สามารถสร้างวิดีโอความยาว 5 นาทีที่มีความต่อเนื่องสมบูรณ์ ความลับคืออะไร การใช้ diffusion engine หลายตัวทำงานแบบขนานพร้อมข้อจำกัดแบบสองทิศทาง

CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion

ปัญหาที่ใหญ่ที่สุดของ AI Video คืออะไร ความยาวของวิดีโอ Sora 2 สร้างวิดีโอได้สูงสุด 25 วินาที Runway และ Pika อยู่ที่ประมาณ 10 วินาที แต่ CraftStory เพิ่งเข้ามาและกล่าวว่า "รอดูก่อน": วิดีโอที่มีความต่อเนื่องความยาว 5 นาทีเต็ม เทคนิคที่อยู่เบื้องหลังนี้ชาญฉลาดอย่างแท้จริง

ปัญหาเรื่องความยาวที่ไม่มีใครแก้ไขได้

สิ่งที่เป็นข้อจำกัดของโมเดล AI Video ในปัจจุบัน: พวกเขาเป็นนักวิ่งระยะสั้น ไม่ใช่นักวิ่งมาราธอน สร้างวิดีโอสวยงามได้แปดวินาที จากนั้นพยายามขยายความยาว คุณจะได้รับภาพที่เหมือนเกมโทรศัพท์เสีย ข้อผิดพลาดสะสมขึ้น ตัวละครเคลื่อนที่ไปเรื่อยๆ ทุกอย่างพังทลายลง

25s
Sora 2 สูงสุด
10s
โมเดลทั่วไป
5min
CraftStory

วิธีการแบบดั้งเดิมทำงานดังนี้: สร้างส่วนหนึ่ง ใช้เฟรมสุดท้ายสองสามเฟรมเป็นบริบทสำหรับส่วนถัดไป เย็บมันเข้าด้วยกัน ปัญหาคืออะไร ข้อผิดพลาดสะสมขึ้นเรื่อยๆ ท่าทางมือที่แปลกเล็กน้อยในส่วนที่หนึ่งกลายเป็นก้อนแปลกๆ ภายในส่วนที่ห้า

💡

CraftStory ก่อตั้งโดยทีมที่อยู่เบื้องหลัง OpenCV ไลบรารี computer vision ที่ทำงานในระบบ vision เกือบทุกระบบที่คุณเคยใช้ CEO ของพวกเขา Victor Erukhimov เป็นผู้ร่วมก่อตั้ง Itseez สตาร์ทอัพด้าน computer vision ที่ Intel ซื้อกิจการในปี 2016

Bidirectional Diffusion: นวัตกรรมทางสถาปัตยกรรม

แนวทางแก้ไขของ CraftStory พลิกแนวทางแบบดั้งเดิมกลับหัว แทนที่จะสร้างแบบต่อเนื่องและหวังว่าจะได้ผลดีที่สุด พวกเขาใช้ diffusion engine ขนาดเล็กหลายตัวทำงานพร้อมกันตลอดทั้งไทม์ไลน์ของวิดีโอ

🔄

ข้อจำกัดแบบสองทิศทาง

ข้อค้นพบที่สำคัญ: "ส่วนหลังของวิดีโอสามารถมีอิทธิพลต่อส่วนต้นของวิดีโอได้เช่นกัน" Erukhimov อธิบาย "และนี่เป็นสิ่งสำคัญมาก เพราะถ้าคุณทำทีละอัน ข้อผิดพลาดที่ปรากฏในส่วนแรกจะแพร่กระจายไปยังส่วนที่สอง แล้วมันก็สะสมขึ้นเรื่อยๆ"

ลองนึกถึงเหมือนการเขียนนิยายเทียบกับการร่างโครงเรื่อง การสร้างแบบต่อเนื่องเหมือนการเขียนหน้าหนึ่ง จากนั้นหน้าสอง จากนั้นหน้าสาม โดยไม่สามารถย้อนกลับไปได้ วิธีการของ CraftStory เหมือนการมีโครงเรื่องที่บทที่สิบสามารถให้ข้อมูลเกี่ยวกับสิ่งที่ต้องเกิดขึ้นในบทที่สองได้

แบบต่อเนื่องดั้งเดิม

  • สร้างส่วน A
  • ใช้ตอนท้ายของ A เพื่อเริ่มต้น B
  • ใช้ตอนท้ายของ B เพื่อเริ่มต้น C
  • หวังว่าจะไม่มีอะไรสะสมขึ้น
  • ไขว้นิ้วที่จุดเชื่อมต่อ

แบบสองทิศทางขนาน

  • ประมวลผลทุกส่วนพร้อมกัน
  • แต่ละส่วนจำกัดส่วนที่อยู่ข้างเคียง
  • ส่วนต้นๆ ได้รับอิทธิพลจากส่วนหลังๆ
  • ข้อผิดพลาดแก้ไขตัวเองตลอดไทม์ไลน์
  • ความต่อเนื่องตามธรรมชาติ ไม่ต้องเย็บต่อ

Model 2.0 ทำงานจริงอย่างไร

ในปัจจุบัน CraftStory Model 2.0 เป็นระบบวิดีโอต่อวิดีโอ คุณให้รูปภาพหนึ่งและวิดีโอขับเคลื่อนหนึ่ง และมันจะสร้างผลลัพธ์ที่บุคคลในรูปภาพของคุณแสดงการเคลื่อนไหวจากวิดีโอขับเคลื่อน

  • อัปโหลดรูปภาพอ้างอิง (วัตถุของคุณ)
  • ให้วิดีโอขับเคลื่อน (เทมเพลตการเคลื่อนไหว)
  • โมเดลสังเคราะห์การแสดง
  • ข้อความต่อวิดีโอจะมาในการอัปเดตในอนาคต

ระบบซิงค์ริมฝีปากโดดเด่นมาก ป้อนสคริปต์หรือเสียง และมันจะสร้างการเคลื่อนไหวปากที่ตรงกัน อัลกอริทึมการจัดท่าทางแยกต่างหากซิงโครไนซ์ภาษากายกับจังหวะการพูดและโทนอารมณ์ ผลลัพธ์คืออะไร วิดีโอที่บุคคลดูเหมือนกำลังพูดคำเหล่านั้นจริงๆ ไม่ใช่แค่กระดกขากรรไกร

💡

CraftStory ฝึกอบรมด้วยฟุตเทจอัตราเฟรมสูงที่เป็นกรรมสิทธิ์ที่ถ่ายทำเฉพาะสำหรับโมเดล คลิป YouTube 30fps มาตรฐานมีความเบลอของการเคลื่อนไหวมากเกินไปสำหรับรายละเอียดละเอียดเช่นนิ้วมือ พวกเขาจ้างสตูดิโอเพื่อบันทึกนักแสดงที่อัตราเฟรมสูงกว่าสำหรับข้อมูลการฝึกอบรมที่สะอาดกว่า

ผลลัพธ์: สิ่งที่คุณได้รับจริงๆ

ความสามารถ
  • วิดีโอต่อเนื่องได้ถึง 5 นาที
  • ความละเอียด 480p และ 720p แบบเนทีฟ
  • 720p ขยายได้ถึง 1080p
  • รูปแบบแนวนอนและแนวตั้ง
  • การเคลื่อนไหวริมฝีปากที่ซิงค์
  • การจัดท่าทางที่เป็นธรรมชาติ
ข้อจำกัด
  • เฉพาะวิดีโอต่อวิดีโอ (ยังไม่มีข้อความต่อวิดีโอ)
  • ต้องการวิดีโอขับเคลื่อนเป็นอินพุต
  • ใช้เวลา ~15 นาทีสำหรับ 30 วินาทีที่ความละเอียดต่ำ
  • กล้องนิ่งในปัจจุบัน (กล้องเคลื่อนที่กำลังมา)

การสร้างใช้เวลาประมาณ 15 นาทีสำหรับคลิป 30 วินาทีความละเอียดต่ำ นี่ช้ากว่าการสร้างแบบใกล้ทันทีที่โมเดลบางตัวเสนอ แต่การแลกเปลี่ยนคือผลลัพธ์รูปแบบยาวที่มีความต่อเนื่องแทนที่จะเป็นชิ้นส่วนสวยงามที่ไม่เชื่อมต่อกัน

ทำไมสิ่งนี้จึงสำคัญสำหรับผู้สร้างสรรค์

ข้อจำกัด 5 นาทีไม่ใช่เรื่องสุ่มสี่สุ่มห้า นี่คือเกณฑ์ที่ AI video กลายเป็นประโยชน์สำหรับเนื้อหาที่แท้จริง

10 วินาที

คลิปโซเชียล

ดีสำหรับ TikTok snippets และโฆษณา แต่การเล่าเรื่องที่จำกัด

30 วินาที

วิดีโออธิบายสั้น

เพียงพอสำหรับการสาธิตผลิตภัณฑ์อย่างรวดเร็วหรือภาพประกอบแนวคิด

2-5 นาที

เนื้อหาจริง

บทช่วยสอน YouTube, วิดีโอการฝึกอบรม, การนำเสนอ, เนื้อหาเชิงเล่าเรื่อง

อนาคต

รูปแบบยาว

ตอนเต็ม, สารคดี, หลักสูตรการศึกษา

เนื้อหาวิดีโอธุรกิจส่วนใหญ่อยู่ในช่วง 2-5 นาที การสาธิตผลิตภัณฑ์ โมดูลการฝึกอบรม วิดีโออธิบาย การสื่อสารภายใน นี่คือจุดที่ CraftStory กลายเป็นสิ่งที่เกี่ยวข้องสำหรับกรณีการใช้งานระดับมืออาชีพ

กรณีการใช้งานที่เปิดขึ้น:

  • บทช่วยสอนผลิตภัณฑ์ด้วยผู้นำเสนอที่สม่ำเสมอตลอดทั้งหมด
  • วิดีโอการฝึกอบรมที่ไม่ต้องกำหนดเวลาพรสวรรค์
  • ข้อความวิดีโอส่วนบุคคลในระดับขนาดใหญ่
  • เนื้อหาการศึกษาพร้อมผู้สอนเสมือนจริง
  • การสื่อสารองค์กรด้วยโฆษกที่สร้างขึ้น

ภูมิทัศน์การแข่งขัน

CraftStory ระดมทุนได้ 2 ล้านดอลลาร์ในรอบ seed ที่นำโดย Andrew Filev ผู้ก่อตั้ง Wrike และ Zencoder นี่เป็นจำนวนเงินเจียมเนื้อเจียมตัวเมื่อเทียบกับพันล้านดอลลาร์ที่ไหลเข้า OpenAI และ Google แต่ก็เพียงพอที่จะพิสูจน์เทคโนโลยี

🎯

ความเชื่อมโยงกับ OpenCV

ประวัติของทีมผู้ก่อตั้งมีความสำคัญที่นี่ OpenCV ขับเคลื่อนระบบ computer vision ในหลายอุตสาหกรรม บุคคลเหล่านี้เข้าใจพื้นฐานของการประมวลผลภาพในระดับที่สตาร์ทอัพ AI video ส่วนใหญ่ไม่มี

ความสามารถข้อความต่อวิดีโออยู่ระหว่างการพัฒนา เมื่อเปิดตัว ข้อเสนอคุณค่าจะชัดเจนขึ้น: อธิบายวิดีโอ 5 นาทีในข้อความ รับผลลัพธ์ที่มีความต่อเนื่องโดยไม่มีการลดคุณภาพแบบเฟรมต่อเฟรมที่รบกวนเครื่องมืออื่นๆ

อะไรต่อไป

คุณสมบัติในแผนงาน

CraftStory ได้ประกาศความสามารถที่กำลังจะมาถึงหลายอย่าง:

  • ข้อความต่อวิดีโอ: สร้างจากพรอมต์โดยไม่ต้องมีวิดีโอขับเคลื่อน
  • กล้องเคลื่อนที่: การแพน, ซูม และช็อตติดตาม
  • เดินและพูด: วัตถุที่เคลื่อนที่ผ่านพื้นที่ขณะพูด

วิธีการ bidirectional diffusion ไม่ใช่แค่เทคนิคของ CraftStory เท่านั้น นี่เป็นรูปแบบที่ทีมอื่นๆ น่าจะนำมาใช้ เมื่อคุณแก้ปัญหา "ข้อผิดพลาดสะสมไปข้างหน้า" การสร้างที่ยาวขึ้นกลายเป็นความท้าทายทางวิศวกรรมมากกว่าอุปสรรคพื้นฐาน

⚠️

Model 2.0 มุ่งเน้นไปที่วิดีโอที่มีมนุษย์เป็นศูนย์กลางในปัจจุบัน สำหรับฉากที่ไม่มีคน คุณจะยังต้องการเครื่องมือที่ปรับให้เหมาะสมสำหรับการสร้างสภาพแวดล้อมหรือการสร้างแบบนามธรรม นี่เป็นเครื่องมือเฉพาะทาง ไม่ใช่ทั่วไป

ภาพรวมที่ใหญ่กว่า

เรากำลังเห็น AI video ผ่านช่วงวัยรุ่นที่อึดอัด โมเดลสามารถสร้างคลิป 10 วินาทีที่น่าทึ่ง แต่ขอให้พวกเขารักษาความต่อเนื่องตลอดหลายนาทีและพวกเขาก็พังทลาย วิธีการแบบสองทิศทางของ CraftStory เป็นหนึ่งในคำตอบสำหรับปัญหานั้น

คำถามที่แท้จริง: ใช้เวลานานแค่ไหนจนกว่าเทคนิคนี้จะถูกนำมาใช้โดยผู้เล่นที่ใหญ่กว่า OpenAI, Google และ Runway ทุกคนมีทรัพยากรในการนำสถาปัตยกรรมที่คล้ายกันมาใช้ ข้อได้เปรียบของ CraftStory คือการเป็นรายแรกที่เข้าสู่ตลาดด้วยการสร้างรูปแบบยาวที่ใช้งานได้

สำหรับตอนนี้ หากคุณต้องการเนื้อหาวิดีโอ AI หลายนาทีที่สม่ำเสมอกับวัตถุมนุษย์ CraftStory เพิ่งกลายเป็นเกมเดียวในเมือง อุปสรรคความยาวยังไม่แตก แต่มีคนเพิ่งทำให้เกิดรอยแตกร้ายแรงในนั้น

🚀

ลองใช้ดู

CraftStory Model 2.0 พร้อมให้บริการแล้ว โครงสร้างราคายังไม่ได้รับการเปิดเผยต่อสาธารณะ ดังนั้นคุณจะต้องตรวจสอบเว็บไซต์ของพวกเขาสำหรับข้อเสนอในปัจจุบัน ข้อความต่อวิดีโอกำลังจะมา ซึ่งจะทำให้แพลตฟอร์มสามารถเข้าถึงได้สำหรับผู้ใช้ที่ไม่มีเนื้อหาวิดีโอขับเคลื่อนที่มีอยู่

Henry

Henry

นักเทคโนโลยีสร้างสรรค์

นักเทคโนโลยีสร้างสรรค์จากโลซานน์ที่สำรวจจุดบรรจบระหว่าง AI กับศิลปะ ทดลองกับโมเดลเชิงสร้างสรรค์ระหว่างเซสชั่นดนตรีอิเล็กทรอนิกส์

ชอบบทความนี้ไหม?

ค้นพบข้อมูลเชิงลึกเพิ่มเติมและติดตามเนื้อหาล่าสุดจากเรา

CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion