CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion

ปัญหาที่ใหญ่ที่สุดของ AI Video คืออะไร ความยาวของวิดีโอ Sora 2 สร้างวิดีโอได้สูงสุด 25 วินาที Runway และ Pika อยู่ที่ประมาณ 10 วินาที แต่ CraftStory เพิ่งเข้ามาและกล่าวว่า "รอดูก่อน": วิดีโอที่มีความต่อเนื่องความยาว 5 นาทีเต็ม เทคนิคที่อยู่เบื้องหลังนี้ชาญฉลาดอย่างแท้จริง

ปัญหาเรื่องความยาวที่ไม่มีใครแก้ไขได้

สิ่งที่เป็นข้อจำกัดของโมเดล AI Video ในปัจจุบัน: พวกเขาเป็นนักวิ่งระยะสั้น ไม่ใช่นักวิ่งมาราธอน สร้างวิดีโอสวยงามได้แปดวินาที จากนั้นพยายามขยายความยาว คุณจะได้รับภาพที่เหมือนเกมโทรศัพท์เสีย ข้อผิดพลาดสะสมขึ้น ตัวละครเคลื่อนที่ไปเรื่อยๆ ทุกอย่างพังทลายลง

25s

Sora 2 สูงสุด

10s

โมเดลทั่วไป

5min

CraftStory

วิธีการแบบดั้งเดิมทำงานดังนี้: สร้างส่วนหนึ่ง ใช้เฟรมสุดท้ายสองสามเฟรมเป็นบริบทสำหรับส่วนถัดไป เย็บมันเข้าด้วยกัน ปัญหาคืออะไร ข้อผิดพลาดสะสมขึ้นเรื่อยๆ ท่าทางมือที่แปลกเล็กน้อยในส่วนที่หนึ่งกลายเป็นก้อนแปลกๆ ภายในส่วนที่ห้า

💡

CraftStory ก่อตั้งโดยทีมที่อยู่เบื้องหลัง OpenCV ไลบรารี computer vision ที่ทำงานในระบบ vision เกือบทุกระบบที่คุณเคยใช้ CEO ของพวกเขา Victor Erukhimov เป็นผู้ร่วมก่อตั้ง Itseez สตาร์ทอัพด้าน computer vision ที่ Intel ซื้อกิจการในปี 2016

Bidirectional Diffusion: นวัตกรรมทางสถาปัตยกรรม

แนวทางแก้ไขของ CraftStory พลิกแนวทางแบบดั้งเดิมกลับหัว แทนที่จะสร้างแบบต่อเนื่องและหวังว่าจะได้ผลดีที่สุด พวกเขาใช้ diffusion engine ขนาดเล็กหลายตัวทำงานพร้อมกันตลอดทั้งไทม์ไลน์ของวิดีโอ

🔄

ข้อจำกัดแบบสองทิศทาง

ข้อค้นพบที่สำคัญ: "ส่วนหลังของวิดีโอสามารถมีอิทธิพลต่อส่วนต้นของวิดีโอได้เช่นกัน" Erukhimov อธิบาย "และนี่เป็นสิ่งสำคัญมาก เพราะถ้าคุณทำทีละอัน ข้อผิดพลาดที่ปรากฏในส่วนแรกจะแพร่กระจายไปยังส่วนที่สอง แล้วมันก็สะสมขึ้นเรื่อยๆ"

ลองนึกถึงเหมือนการเขียนนิยายเทียบกับการร่างโครงเรื่อง การสร้างแบบต่อเนื่องเหมือนการเขียนหน้าหนึ่ง จากนั้นหน้าสอง จากนั้นหน้าสาม โดยไม่สามารถย้อนกลับไปได้ วิธีการของ CraftStory เหมือนการมีโครงเรื่องที่บทที่สิบสามารถให้ข้อมูลเกี่ยวกับสิ่งที่ต้องเกิดขึ้นในบทที่สองได้

แบบต่อเนื่องดั้งเดิม

สร้างส่วน A
ใช้ตอนท้ายของ A เพื่อเริ่มต้น B
ใช้ตอนท้ายของ B เพื่อเริ่มต้น C
หวังว่าจะไม่มีอะไรสะสมขึ้น
ไขว้นิ้วที่จุดเชื่อมต่อ

แบบสองทิศทางขนาน

ประมวลผลทุกส่วนพร้อมกัน
แต่ละส่วนจำกัดส่วนที่อยู่ข้างเคียง
ส่วนต้นๆ ได้รับอิทธิพลจากส่วนหลังๆ
ข้อผิดพลาดแก้ไขตัวเองตลอดไทม์ไลน์
ความต่อเนื่องตามธรรมชาติ ไม่ต้องเย็บต่อ

Model 2.0 ทำงานจริงอย่างไร

ในปัจจุบัน CraftStory Model 2.0 เป็นระบบวิดีโอต่อวิดีโอ คุณให้รูปภาพหนึ่งและวิดีโอขับเคลื่อนหนึ่ง และมันจะสร้างผลลัพธ์ที่บุคคลในรูปภาพของคุณแสดงการเคลื่อนไหวจากวิดีโอขับเคลื่อน

✓อัปโหลดรูปภาพอ้างอิง (วัตถุของคุณ)
✓ให้วิดีโอขับเคลื่อน (เทมเพลตการเคลื่อนไหว)
✓โมเดลสังเคราะห์การแสดง
○ข้อความต่อวิดีโอจะมาในการอัปเดตในอนาคต

ระบบซิงค์ริมฝีปากโดดเด่นมาก ป้อนสคริปต์หรือเสียง และมันจะสร้างการเคลื่อนไหวปากที่ตรงกัน อัลกอริทึมการจัดท่าทางแยกต่างหากซิงโครไนซ์ภาษากายกับจังหวะการพูดและโทนอารมณ์ ผลลัพธ์คืออะไร วิดีโอที่บุคคลดูเหมือนกำลังพูดคำเหล่านั้นจริงๆ ไม่ใช่แค่กระดกขากรรไกร

💡

CraftStory ฝึกอบรมด้วยฟุตเทจอัตราเฟรมสูงที่เป็นกรรมสิทธิ์ที่ถ่ายทำเฉพาะสำหรับโมเดล คลิป YouTube 30fps มาตรฐานมีความเบลอของการเคลื่อนไหวมากเกินไปสำหรับรายละเอียดละเอียดเช่นนิ้วมือ พวกเขาจ้างสตูดิโอเพื่อบันทึกนักแสดงที่อัตราเฟรมสูงกว่าสำหรับข้อมูลการฝึกอบรมที่สะอาดกว่า

ผลลัพธ์: สิ่งที่คุณได้รับจริงๆ

✓ความสามารถ

วิดีโอต่อเนื่องได้ถึง 5 นาที
ความละเอียด 480p และ 720p แบบเนทีฟ
720p ขยายได้ถึง 1080p
รูปแบบแนวนอนและแนวตั้ง
การเคลื่อนไหวริมฝีปากที่ซิงค์
การจัดท่าทางที่เป็นธรรมชาติ

✗ข้อจำกัด

เฉพาะวิดีโอต่อวิดีโอ (ยังไม่มีข้อความต่อวิดีโอ)
ต้องการวิดีโอขับเคลื่อนเป็นอินพุต
ใช้เวลา ~15 นาทีสำหรับ 30 วินาทีที่ความละเอียดต่ำ
กล้องนิ่งในปัจจุบัน (กล้องเคลื่อนที่กำลังมา)

การสร้างใช้เวลาประมาณ 15 นาทีสำหรับคลิป 30 วินาทีความละเอียดต่ำ นี่ช้ากว่าการสร้างแบบใกล้ทันทีที่โมเดลบางตัวเสนอ แต่การแลกเปลี่ยนคือผลลัพธ์รูปแบบยาวที่มีความต่อเนื่องแทนที่จะเป็นชิ้นส่วนสวยงามที่ไม่เชื่อมต่อกัน

ทำไมสิ่งนี้จึงสำคัญสำหรับผู้สร้างสรรค์

ข้อจำกัด 5 นาทีไม่ใช่เรื่องสุ่มสี่สุ่มห้า นี่คือเกณฑ์ที่ AI video กลายเป็นประโยชน์สำหรับเนื้อหาที่แท้จริง

10 วินาที

คลิปโซเชียล

ดีสำหรับ TikTok snippets และโฆษณา แต่การเล่าเรื่องที่จำกัด

30 วินาที

วิดีโออธิบายสั้น

เพียงพอสำหรับการสาธิตผลิตภัณฑ์อย่างรวดเร็วหรือภาพประกอบแนวคิด

2-5 นาที

เนื้อหาจริง

บทช่วยสอน YouTube, วิดีโอการฝึกอบรม, การนำเสนอ, เนื้อหาเชิงเล่าเรื่อง

อนาคต

รูปแบบยาว

ตอนเต็ม, สารคดี, หลักสูตรการศึกษา

เนื้อหาวิดีโอธุรกิจส่วนใหญ่อยู่ในช่วง 2-5 นาที การสาธิตผลิตภัณฑ์ โมดูลการฝึกอบรม วิดีโออธิบาย การสื่อสารภายใน นี่คือจุดที่ CraftStory กลายเป็นสิ่งที่เกี่ยวข้องสำหรับกรณีการใช้งานระดับมืออาชีพ

กรณีการใช้งานที่เปิดขึ้น:

บทช่วยสอนผลิตภัณฑ์ด้วยผู้นำเสนอที่สม่ำเสมอตลอดทั้งหมด
วิดีโอการฝึกอบรมที่ไม่ต้องกำหนดเวลาพรสวรรค์
ข้อความวิดีโอส่วนบุคคลในระดับขนาดใหญ่
เนื้อหาการศึกษาพร้อมผู้สอนเสมือนจริง
การสื่อสารองค์กรด้วยโฆษกที่สร้างขึ้น

ภูมิทัศน์การแข่งขัน

CraftStory ระดมทุนได้ 2 ล้านดอลลาร์ในรอบ seed ที่นำโดย Andrew Filev ผู้ก่อตั้ง Wrike และ Zencoder นี่เป็นจำนวนเงินเจียมเนื้อเจียมตัวเมื่อเทียบกับพันล้านดอลลาร์ที่ไหลเข้า OpenAI และ Google แต่ก็เพียงพอที่จะพิสูจน์เทคโนโลยี

🎯

ความเชื่อมโยงกับ OpenCV

ประวัติของทีมผู้ก่อตั้งมีความสำคัญที่นี่ OpenCV ขับเคลื่อนระบบ computer vision ในหลายอุตสาหกรรม บุคคลเหล่านี้เข้าใจพื้นฐานของการประมวลผลภาพในระดับที่สตาร์ทอัพ AI video ส่วนใหญ่ไม่มี

ความสามารถข้อความต่อวิดีโออยู่ระหว่างการพัฒนา เมื่อเปิดตัว ข้อเสนอคุณค่าจะชัดเจนขึ้น: อธิบายวิดีโอ 5 นาทีในข้อความ รับผลลัพธ์ที่มีความต่อเนื่องโดยไม่มีการลดคุณภาพแบบเฟรมต่อเฟรมที่รบกวนเครื่องมืออื่นๆ

อะไรต่อไป

คุณสมบัติในแผนงาน▼

CraftStory ได้ประกาศความสามารถที่กำลังจะมาถึงหลายอย่าง:

ข้อความต่อวิดีโอ: สร้างจากพรอมต์โดยไม่ต้องมีวิดีโอขับเคลื่อน
กล้องเคลื่อนที่: การแพน, ซูม และช็อตติดตาม
เดินและพูด: วัตถุที่เคลื่อนที่ผ่านพื้นที่ขณะพูด

วิธีการ bidirectional diffusion ไม่ใช่แค่เทคนิคของ CraftStory เท่านั้น นี่เป็นรูปแบบที่ทีมอื่นๆ น่าจะนำมาใช้ เมื่อคุณแก้ปัญหา "ข้อผิดพลาดสะสมไปข้างหน้า" การสร้างที่ยาวขึ้นกลายเป็นความท้าทายทางวิศวกรรมมากกว่าอุปสรรคพื้นฐาน

⚠️

Model 2.0 มุ่งเน้นไปที่วิดีโอที่มีมนุษย์เป็นศูนย์กลางในปัจจุบัน สำหรับฉากที่ไม่มีคน คุณจะยังต้องการเครื่องมือที่ปรับให้เหมาะสมสำหรับการสร้างสภาพแวดล้อมหรือการสร้างแบบนามธรรม นี่เป็นเครื่องมือเฉพาะทาง ไม่ใช่ทั่วไป

ภาพรวมที่ใหญ่กว่า

เรากำลังเห็น AI video ผ่านช่วงวัยรุ่นที่อึดอัด โมเดลสามารถสร้างคลิป 10 วินาทีที่น่าทึ่ง แต่ขอให้พวกเขารักษาความต่อเนื่องตลอดหลายนาทีและพวกเขาก็พังทลาย วิธีการแบบสองทิศทางของ CraftStory เป็นหนึ่งในคำตอบสำหรับปัญหานั้น

คำถามที่แท้จริง: ใช้เวลานานแค่ไหนจนกว่าเทคนิคนี้จะถูกนำมาใช้โดยผู้เล่นที่ใหญ่กว่า OpenAI, Google และ Runway ทุกคนมีทรัพยากรในการนำสถาปัตยกรรมที่คล้ายกันมาใช้ ข้อได้เปรียบของ CraftStory คือการเป็นรายแรกที่เข้าสู่ตลาดด้วยการสร้างรูปแบบยาวที่ใช้งานได้

สำหรับตอนนี้ หากคุณต้องการเนื้อหาวิดีโอ AI หลายนาทีที่สม่ำเสมอกับวัตถุมนุษย์ CraftStory เพิ่งกลายเป็นเกมเดียวในเมือง อุปสรรคความยาวยังไม่แตก แต่มีคนเพิ่งทำให้เกิดรอยแตกร้ายแรงในนั้น

🚀

ลองใช้ดู

CraftStory Model 2.0 พร้อมให้บริการแล้ว โครงสร้างราคายังไม่ได้รับการเปิดเผยต่อสาธารณะ ดังนั้นคุณจะต้องตรวจสอบเว็บไซต์ของพวกเขาสำหรับข้อเสนอในปัจจุบัน ข้อความต่อวิดีโอกำลังจะมา ซึ่งจะทำให้แพลตฟอร์มสามารถเข้าถึงได้สำหรับผู้ใช้ที่ไม่มีเนื้อหาวิดีโอขับเคลื่อนที่มีอยู่

CraftStory Model 2.0: การสร้างวิดีโอ AI ความยาว 5 นาทีด้วยเทคนิค Bidirectional Diffusion

ปัญหาเรื่องความยาวที่ไม่มีใครแก้ไขได้

Bidirectional Diffusion: นวัตกรรมทางสถาปัตยกรรม

ข้อจำกัดแบบสองทิศทาง

Model 2.0 ทำงานจริงอย่างไร

ผลลัพธ์: สิ่งที่คุณได้รับจริงๆ

ทำไมสิ่งนี้จึงสำคัญสำหรับผู้สร้างสรรค์

คลิปโซเชียล

วิดีโออธิบายสั้น

เนื้อหาจริง

รูปแบบยาว

ภูมิทัศน์การแข่งขัน

ความเชื่อมโยงกับ OpenCV

อะไรต่อไป

ภาพรวมที่ใหญ่กว่า

ลองใช้ดู

Henry

Like what you read?

บทความที่เกี่ยวข้อง

Pika 2.5: ทำให้วิดีโอ AI เข้าถึงได้ง่ายผ่านความเร็ว ราคา และเครื่องมือสร้างสรรค์

Runway Gen-4.5 ขึ้นอันดับ 1: ทีม 100 คนสามารถแซงหน้า Google และ OpenAI ได้อย่างไร

AI Video Storytelling Platforms: How Serialized Content Is Changing Everything in 2026

ชอบบทความนี้ไหม?