CraftStory Model 2.0: Khuếch tán hai chiều mở khóa video AI 5 phút như thế nào
Trong khi Sora 2 chỉ tối đa 25 giây, CraftStory vừa ra mắt hệ thống tạo video 5 phút mạch lạc. Bí mật: Chạy nhiều công cụ khuếch tán song song với ràng buộc hai chiều.

Vấn đề lớn nhất trong phòng video AI? Thời lượng. Sora 2 giới hạn ở 25 giây. Runway và Pika dao động quanh 10 giây. CraftStory vừa bước vào và cho ra video 5 phút mạch lạc. Kỹ thuật đằng sau nó thực sự thông minh.
Vấn đề thời lượng không ai giải quyết được
Điều về các mô hình video AI hiện tại: chúng là vận động viên chạy nước rút, không phải chạy marathon. Tạo ra tám giây cảnh quay tuyệt đẹp, sau đó cố gắng mở rộng, và bạn sẽ nhận được thứ tương đương trực quan của trò chơi truyền tin nhầm. Lỗi tích lũy. Nhân vật trôi dạt. Mọi thứ tan rã.
Cách tiếp cận truyền thống hoạt động như sau: tạo một đoạn, sử dụng vài khung hình cuối làm ngữ cảnh cho đoạn tiếp theo, ghép chúng lại với nhau. Vấn đề? Lỗi tích lũy. Tư thế tay hơi lạ ở đoạn một trở thành một đốm kỳ lạ đến đoạn năm.
CraftStory được thành lập bởi nhóm đứng sau OpenCV, thư viện thị giác máy tính chạy trong hầu hết mọi hệ thống thị giác bạn từng sử dụng. CEO Victor Erukhimov đồng sáng lập Itseez, một startup thị giác máy tính mà Intel mua lại vào năm 2016.
Khuếch tán hai chiều: Đổi mới kiến trúc
Giải pháp của CraftStory lật ngược cách tiếp cận điển hình. Thay vì tạo tuần tự và hy vọng điều tốt nhất, họ chạy nhiều công cụ khuếch tán nhỏ hơn đồng thời trên toàn bộ dòng thời gian video.
Ràng buộc hai chiều
Hiểu biết quan trọng: "Phần sau của video cũng có thể ảnh hưởng đến phần trước của video," Erukhimov giải thích. "Và điều này khá quan trọng, bởi vì nếu bạn làm từng cái một, thì lỗi xuất hiện ở phần đầu tiên sẽ lan sang phần thứ hai, và sau đó nó tích lũy."
Hãy nghĩ về nó như viết tiểu thuyết so với phác thảo nó. Tạo tuần tự giống như viết trang một, sau đó trang hai, sau đó trang ba, không có khả năng quay lại. Cách tiếp cận của CraftStory giống như có một dàn ý mà chương mười có thể thông báo những gì cần xảy ra ở chương hai.
Tuần tự truyền thống
- Tạo phân đoạn A
- Sử dụng cuối A để bắt đầu B
- Sử dụng cuối B để bắt đầu C
- Hy vọng không có gì tích lũy
- Bắt chéo ngón tay tại điểm nối
Song song hai chiều
- Xử lý tất cả phân đoạn đồng thời
- Mỗi phân đoạn ràng buộc hàng xóm của nó
- Phân đoạn sớm bị ảnh hưởng bởi phân đoạn sau
- Lỗi tự sửa qua dòng thời gian
- Tính mạch lạc tự nhiên, không ghép nối
Model 2.0 thực sự hoạt động như thế nào
Hiện tại, CraftStory Model 2.0 là hệ thống video-to-video. Bạn cung cấp một hình ảnh và một video điều khiển, và nó tạo ra đầu ra mà người trong hình ảnh của bạn thực hiện các chuyển động từ video điều khiển.
- ✓Tải lên hình ảnh tham chiếu (chủ thể của bạn)
- ✓Cung cấp video điều khiển (mẫu chuyển động)
- ✓Mô hình tổng hợp hiệu suất
- ○Text-to-video sắp có trong bản cập nhật tương lai
Hệ thống đồng bộ môi nổi bật. Cung cấp cho nó một kịch bản hoặc bản âm thanh, và nó tạo ra các chuyển động miệng phù hợp. Thuật toán căn chỉnh cử chỉ riêng biệt đồng bộ hóa ngôn ngữ cơ thể với nhịp điệu lời nói và tông cảm xúc. Kết quả? Video mà người đó thực sự trông như đang nói những từ đó, không chỉ đập hàm.
CraftStory được đào tạo trên cảnh quay tốc độ khung hình cao độc quyền được quay đặc biệt cho mô hình. Clip YouTube 30fps tiêu chuẩn có quá nhiều mờ chuyển động cho các chi tiết tinh tế như ngón tay. Họ thuê studio để chụp diễn viên ở tốc độ khung hình cao hơn cho dữ liệu đào tạo sạch hơn.
Đầu ra: Bạn thực sự nhận được gì
- Lên đến 5 phút video liên tục
- Độ phân giải gốc 480p và 720p
- 720p có thể nâng cấp lên 1080p
- Định dạng ngang và dọc
- Chuyển động môi đồng bộ
- Căn chỉnh cử chỉ tự nhiên
- Chỉ video-to-video (chưa có text-to-video)
- Yêu cầu đầu vào video điều khiển
- Khoảng 15 phút cho 30 giây ở độ phân giải thấp
- Hiện tại camera tĩnh (camera di động sắp có)
Tạo mất khoảng 15 phút cho clip 30 giây độ phân giải thấp. Điều đó chậm hơn so với tạo gần như ngay lập tức mà một số mô hình cung cấp, nhưng sự đánh đổi là đầu ra dạng dài mạch lạc thay vì các mảnh đẹp không kết nối.
Tại sao điều này quan trọng đối với người sáng tạo
Rào cản 5 phút không phải là tùy ý. Đó là ngưỡng mà video AI trở nên hữu ích cho nội dung thực tế.
Clip xã hội
Tốt cho đoạn TikTok và quảng cáo, nhưng kể chuyện hạn chế
Giải thích ngắn
Đủ cho demo sản phẩm nhanh hoặc minh họa khái niệm
Nội dung thực
Hướng dẫn YouTube, video đào tạo, bài thuyết trình, nội dung kể chuyện
Dạng dài
Tập đầy đủ, phim tài liệu, khóa học giáo dục
Hầu hết nội dung video kinh doanh nằm trong phạm vi 2-5 phút. Demo sản phẩm. Module đào tạo. Video giải thích. Truyền thông nội bộ. Đây là nơi CraftStory trở nên phù hợp cho các trường hợp sử dụng chuyên nghiệp.
Các trường hợp sử dụng mở ra:
- Hướng dẫn sản phẩm với người dẫn chương trình nhất quán xuyên suốt
- Video đào tạo không yêu cầu lên lịch tài năng
- Tin nhắn video được cá nhân hóa ở quy mô
- Nội dung giáo dục với giảng viên ảo
- Truyền thông doanh nghiệp với người phát ngôn được tạo ra
Bối cảnh cạnh tranh
CraftStory đã huy động được 2 triệu đô la vốn hạt giống do Andrew Filev, người sáng lập Wrike và Zencoder, dẫn đầu. Điều đó khiêm tốn so với hàng tỷ đô la chảy vào OpenAI và Google, nhưng nó đủ để chứng minh công nghệ.
Kết nối OpenCV
Nguồn gốc của đội ngũ sáng lập quan trọng ở đây. OpenCV cung cấp năng lượng cho các hệ thống thị giác máy tính trên các ngành. Những người này hiểu các nguyên tắc cơ bản về xử lý hình ảnh ở mức mà hầu hết các startup video AI không có.
Khả năng text-to-video đang được phát triển. Một khi điều đó ra mắt, đề xuất giá trị trở nên rõ ràng hơn: mô tả video 5 phút bằng văn bản, nhận đầu ra mạch lạc mà không bị suy giảm chất lượng từng khung hình làm phiền các công cụ khác.
Tiếp theo là gì
Tính năng lộ trình▼
CraftStory đã công bố một số khả năng sắp tới:
- Text-to-video: Tạo từ lời nhắc mà không cần video điều khiển
- Camera di động: Pan, zoom và theo dõi cảnh quay
- Đi và nói: Chủ thể di chuyển trong không gian khi nói
Cách tiếp cận khuếch tán hai chiều không chỉ là một thủ thuật của CraftStory. Đó là một mô hình mà các nhóm khác có thể sẽ áp dụng. Một khi bạn giải quyết vấn đề "lỗi tích lũy về phía trước", tạo dài hơn trở thành thách thức kỹ thuật hơn là rào cản cơ bản.
Model 2.0 hiện đang tập trung vào video lấy con người làm trung tâm. Đối với cảnh không có người, bạn vẫn sẽ muốn các công cụ được tối ưu hóa cho tạo môi trường hoặc trừu tượng. Đây là công cụ chuyên biệt, không phải công cụ đa năng.
Bức tranh toàn cảnh
Chúng ta đang xem video AI trải qua giai đoạn tuổi teen khó xử của nó. Các mô hình có thể tạo ra các clip 10 giây tuyệt đẹp, nhưng yêu cầu chúng duy trì tính mạch lạc trong nhiều phút và chúng tan rã. Cách tiếp cận hai chiều của CraftStory là một câu trả lời cho vấn đề đó.
Câu hỏi thực sự: mất bao lâu cho đến khi kỹ thuật này được các công ty lớn hơn áp dụng? OpenAI, Google và Runway đều có nguồn lực để triển khai các kiến trúc tương tự. Lợi thế của CraftStory là đầu tiên ra thị trường với tạo dạng dài hoạt động.
Hiện tại, nếu bạn cần nội dung video AI nhiều phút nhất quán với chủ thể con người, CraftStory vừa trở thành trò chơi duy nhất trong thị trấn. Rào cản thời lượng chưa bị phá vỡ, nhưng ai đó vừa tạo ra một vết nứt nghiêm trọng trong đó.
Dùng thử
CraftStory Model 2.0 hiện đã có sẵn. Cấu trúc giá chưa được nêu chi tiết công khai, vì vậy bạn sẽ cần kiểm tra trang web của họ để biết các ưu đãi hiện tại. Text-to-video sắp có, điều này sẽ làm cho nền tảng có thể truy cập được đối với người dùng không có nội dung video điều khiển hiện có.

Henry
Chuyên gia Công nghệ Sáng tạoChuyên gia công nghệ sáng tạo đến từ Lausanne, khám phá nơi AI gặp gỡ nghệ thuật. Thử nghiệm với các mô hình sinh tạo giữa những buổi làm nhạc điện tử.