CraftStory Model 2.0: Khuếch tán hai chiều mở khóa video AI 5 phút như thế nào

Vấn đề lớn nhất trong phòng video AI? Thời lượng. Sora 2 giới hạn ở 25 giây. Runway và Pika dao động quanh 10 giây. CraftStory vừa bước vào và cho ra video 5 phút mạch lạc. Kỹ thuật đằng sau nó thực sự thông minh.

Vấn đề thời lượng không ai giải quyết được

Điều về các mô hình video AI hiện tại: chúng là vận động viên chạy nước rút, không phải chạy marathon. Tạo ra tám giây cảnh quay tuyệt đẹp, sau đó cố gắng mở rộng, và bạn sẽ nhận được thứ tương đương trực quan của trò chơi truyền tin nhầm. Lỗi tích lũy. Nhân vật trôi dạt. Mọi thứ tan rã.

25s

Sora 2 Tối đa

10s

Mô hình thông thường

5ph

CraftStory

Cách tiếp cận truyền thống hoạt động như sau: tạo một đoạn, sử dụng vài khung hình cuối làm ngữ cảnh cho đoạn tiếp theo, ghép chúng lại với nhau. Vấn đề? Lỗi tích lũy. Tư thế tay hơi lạ ở đoạn một trở thành một đốm kỳ lạ đến đoạn năm.

💡

CraftStory được thành lập bởi nhóm đứng sau OpenCV, thư viện thị giác máy tính chạy trong hầu hết mọi hệ thống thị giác bạn từng sử dụng. CEO Victor Erukhimov đồng sáng lập Itseez, một startup thị giác máy tính mà Intel mua lại vào năm 2016.

Khuếch tán hai chiều: Đổi mới kiến trúc

Giải pháp của CraftStory lật ngược cách tiếp cận điển hình. Thay vì tạo tuần tự và hy vọng điều tốt nhất, họ chạy nhiều công cụ khuếch tán nhỏ hơn đồng thời trên toàn bộ dòng thời gian video.

🔄

Ràng buộc hai chiều

Hiểu biết quan trọng: "Phần sau của video cũng có thể ảnh hưởng đến phần trước của video," Erukhimov giải thích. "Và điều này khá quan trọng, bởi vì nếu bạn làm từng cái một, thì lỗi xuất hiện ở phần đầu tiên sẽ lan sang phần thứ hai, và sau đó nó tích lũy."

Hãy nghĩ về nó như viết tiểu thuyết so với phác thảo nó. Tạo tuần tự giống như viết trang một, sau đó trang hai, sau đó trang ba, không có khả năng quay lại. Cách tiếp cận của CraftStory giống như có một dàn ý mà chương mười có thể thông báo những gì cần xảy ra ở chương hai.

Tuần tự truyền thống

Tạo phân đoạn A
Sử dụng cuối A để bắt đầu B
Sử dụng cuối B để bắt đầu C
Hy vọng không có gì tích lũy
Bắt chéo ngón tay tại điểm nối

Song song hai chiều

Xử lý tất cả phân đoạn đồng thời
Mỗi phân đoạn ràng buộc hàng xóm của nó
Phân đoạn sớm bị ảnh hưởng bởi phân đoạn sau
Lỗi tự sửa qua dòng thời gian
Tính mạch lạc tự nhiên, không ghép nối

Model 2.0 thực sự hoạt động như thế nào

Hiện tại, CraftStory Model 2.0 là hệ thống video-to-video. Bạn cung cấp một hình ảnh và một video điều khiển, và nó tạo ra đầu ra mà người trong hình ảnh của bạn thực hiện các chuyển động từ video điều khiển.

✓Tải lên hình ảnh tham chiếu (chủ thể của bạn)
✓Cung cấp video điều khiển (mẫu chuyển động)
✓Mô hình tổng hợp hiệu suất
○Text-to-video sắp có trong bản cập nhật tương lai

Hệ thống đồng bộ môi nổi bật. Cung cấp cho nó một kịch bản hoặc bản âm thanh, và nó tạo ra các chuyển động miệng phù hợp. Thuật toán căn chỉnh cử chỉ riêng biệt đồng bộ hóa ngôn ngữ cơ thể với nhịp điệu lời nói và tông cảm xúc. Kết quả? Video mà người đó thực sự trông như đang nói những từ đó, không chỉ đập hàm.

💡

CraftStory được đào tạo trên cảnh quay tốc độ khung hình cao độc quyền được quay đặc biệt cho mô hình. Clip YouTube 30fps tiêu chuẩn có quá nhiều mờ chuyển động cho các chi tiết tinh tế như ngón tay. Họ thuê studio để chụp diễn viên ở tốc độ khung hình cao hơn cho dữ liệu đào tạo sạch hơn.

Đầu ra: Bạn thực sự nhận được gì

✓Khả năng

Lên đến 5 phút video liên tục
Độ phân giải gốc 480p và 720p
720p có thể nâng cấp lên 1080p
Định dạng ngang và dọc
Chuyển động môi đồng bộ
Căn chỉnh cử chỉ tự nhiên

✗Hạn chế

Chỉ video-to-video (chưa có text-to-video)
Yêu cầu đầu vào video điều khiển
Khoảng 15 phút cho 30 giây ở độ phân giải thấp
Hiện tại camera tĩnh (camera di động sắp có)

Tạo mất khoảng 15 phút cho clip 30 giây độ phân giải thấp. Điều đó chậm hơn so với tạo gần như ngay lập tức mà một số mô hình cung cấp, nhưng sự đánh đổi là đầu ra dạng dài mạch lạc thay vì các mảnh đẹp không kết nối.

Tại sao điều này quan trọng đối với người sáng tạo

Rào cản 5 phút không phải là tùy ý. Đó là ngưỡng mà video AI trở nên hữu ích cho nội dung thực tế.

10 giây

Clip xã hội

Tốt cho đoạn TikTok và quảng cáo, nhưng kể chuyện hạn chế

30 giây

Giải thích ngắn

Đủ cho demo sản phẩm nhanh hoặc minh họa khái niệm

2-5 phút

Nội dung thực

Hướng dẫn YouTube, video đào tạo, bài thuyết trình, nội dung kể chuyện

Tương lai

Dạng dài

Tập đầy đủ, phim tài liệu, khóa học giáo dục

Hầu hết nội dung video kinh doanh nằm trong phạm vi 2-5 phút. Demo sản phẩm. Module đào tạo. Video giải thích. Truyền thông nội bộ. Đây là nơi CraftStory trở nên phù hợp cho các trường hợp sử dụng chuyên nghiệp.

Các trường hợp sử dụng mở ra:

Hướng dẫn sản phẩm với người dẫn chương trình nhất quán xuyên suốt
Video đào tạo không yêu cầu lên lịch tài năng
Tin nhắn video được cá nhân hóa ở quy mô
Nội dung giáo dục với giảng viên ảo
Truyền thông doanh nghiệp với người phát ngôn được tạo ra

Bối cảnh cạnh tranh

CraftStory đã huy động được 2 triệu đô la vốn hạt giống do Andrew Filev, người sáng lập Wrike và Zencoder, dẫn đầu. Điều đó khiêm tốn so với hàng tỷ đô la chảy vào OpenAI và Google, nhưng nó đủ để chứng minh công nghệ.

🎯

Kết nối OpenCV

Nguồn gốc của đội ngũ sáng lập quan trọng ở đây. OpenCV cung cấp năng lượng cho các hệ thống thị giác máy tính trên các ngành. Những người này hiểu các nguyên tắc cơ bản về xử lý hình ảnh ở mức mà hầu hết các startup video AI không có.

Khả năng text-to-video đang được phát triển. Một khi điều đó ra mắt, đề xuất giá trị trở nên rõ ràng hơn: mô tả video 5 phút bằng văn bản, nhận đầu ra mạch lạc mà không bị suy giảm chất lượng từng khung hình làm phiền các công cụ khác.

Tiếp theo là gì

Tính năng lộ trình▼

CraftStory đã công bố một số khả năng sắp tới:

Text-to-video: Tạo từ lời nhắc mà không cần video điều khiển
Camera di động: Pan, zoom và theo dõi cảnh quay
Đi và nói: Chủ thể di chuyển trong không gian khi nói

Cách tiếp cận khuếch tán hai chiều không chỉ là một thủ thuật của CraftStory. Đó là một mô hình mà các nhóm khác có thể sẽ áp dụng. Một khi bạn giải quyết vấn đề "lỗi tích lũy về phía trước", tạo dài hơn trở thành thách thức kỹ thuật hơn là rào cản cơ bản.

⚠️

Model 2.0 hiện đang tập trung vào video lấy con người làm trung tâm. Đối với cảnh không có người, bạn vẫn sẽ muốn các công cụ được tối ưu hóa cho tạo môi trường hoặc trừu tượng. Đây là công cụ chuyên biệt, không phải công cụ đa năng.

Bức tranh toàn cảnh

Chúng ta đang xem video AI trải qua giai đoạn tuổi teen khó xử của nó. Các mô hình có thể tạo ra các clip 10 giây tuyệt đẹp, nhưng yêu cầu chúng duy trì tính mạch lạc trong nhiều phút và chúng tan rã. Cách tiếp cận hai chiều của CraftStory là một câu trả lời cho vấn đề đó.

Câu hỏi thực sự: mất bao lâu cho đến khi kỹ thuật này được các công ty lớn hơn áp dụng? OpenAI, Google và Runway đều có nguồn lực để triển khai các kiến trúc tương tự. Lợi thế của CraftStory là đầu tiên ra thị trường với tạo dạng dài hoạt động.

Hiện tại, nếu bạn cần nội dung video AI nhiều phút nhất quán với chủ thể con người, CraftStory vừa trở thành trò chơi duy nhất trong thị trấn. Rào cản thời lượng chưa bị phá vỡ, nhưng ai đó vừa tạo ra một vết nứt nghiêm trọng trong đó.

🚀

Dùng thử

CraftStory Model 2.0 hiện đã có sẵn. Cấu trúc giá chưa được nêu chi tiết công khai, vì vậy bạn sẽ cần kiểm tra trang web của họ để biết các ưu đãi hiện tại. Text-to-video sắp có, điều này sẽ làm cho nền tảng có thể truy cập được đối với người dùng không có nội dung video điều khiển hiện có.

CraftStory Model 2.0: Khuếch tán hai chiều mở khóa video AI 5 phút như thế nào

Vấn đề thời lượng không ai giải quyết được

Khuếch tán hai chiều: Đổi mới kiến trúc

Ràng buộc hai chiều

Model 2.0 thực sự hoạt động như thế nào

Đầu ra: Bạn thực sự nhận được gì

Tại sao điều này quan trọng đối với người sáng tạo

Clip xã hội

Giải thích ngắn

Nội dung thực

Dạng dài

Bối cảnh cạnh tranh

Kết nối OpenCV

Tiếp theo là gì

Bức tranh toàn cảnh

Dùng thử

Henry

Like what you read?

Bài viết liên quan

Pika 2.5: Đại chúng hóa Video AI thông qua Tốc độ, Giá cả và Công cụ Sáng tạo

Runway Gen-4.5 đạt vị trí số 1: 100 kỹ sư vượt qua Google và OpenAI

Adobe và Runway hợp lực: Quan hệ đối tác Gen-4.5 có ý nghĩa gì với người sáng tạo video

Bạn có thích bài viết này không?