CraftStory: Bagaimana Video AI 5 Minit Menjadi Mungkin
Penyelidik membongkar CraftStory, sistem yang menjana video AI koheren sepanjang 5 minit menggunakan difusi dwiarah. Kami mendalami cara ia berfungsi dan apa maksudnya untuk pencipta.

Kebanyakan video AI bertahan kurang dari satu minit. CraftStory menunjukkan bahawa 5 minit adalah mungkin dengan teknik seni bina yang betul. Ini adalah kertas penyelidikan, bukan produk, tetapi ia menunjukkan ke mana bidang ini menuju.
Masalah dengan Video Panjang
Menjana video AI yang lebih panjang bukan hanya tentang menambah lebih banyak bingkai. Tiga masalah asas muncul:
-
Penumpukan Ralat: Setiap bingkai yang dijana sedikit menyimpang dari ideal. Lebih banyak bingkai = lebih banyak sisihan terkumpul. Menjelang minit 5, hanyutan menjadi jelas.
-
Letupan Memori: GPU mempunyai memori terhad. Memegang 7,200 bingkai dalam memori sekaligus adalah tidak praktikal pada perkakasan semasa.
-
Keruntuhan Koheren: Watak berubah penampilan. Adegan beranjak secara tidak konsisten. Pencahayaan berubah-ubah. Semakin panjang video, semakin sukar mengekalkan koheren visual.
Penyelesaian CraftStory: Difusi Dwiarah
Wawasan teras CraftStory: jana segmen pendek secara selari, tetapi kekang setiap segmen oleh kedua-dua apa yang datang sebelum DAN selepasnya.
Penjanaan tradisional berfungsi kiri ke kanan. Jana bingkai 1, gunakan untuk menjana bingkai 2, dan seterusnya. Ralat hanya boleh terkumpul dalam satu arah.
CraftStory berfungsi secara berbeza:
# Pendekatan konseptual CraftStory
class BidirectionalVideoGenerator:
def __init__(self, segment_length=300): # Segmen 12.5 saat
self.segment_length = segment_length
def generate_long_video(self, prompt, total_frames=7200):
# Fasa 1: Jana bingkai kunci yang jarang
keyframes = self.generate_keyframes(
prompt,
num_keyframes=total_frames // self.segment_length
)
# Fasa 2: Jana segmen antara bingkai kunci (selari)
segments = []
for i in range(len(keyframes) - 1):
segment = self.generate_segment(
prompt,
left_keyframe=keyframes[i],
right_keyframe=keyframes[i + 1],
num_frames=self.segment_length
)
segments.append(segment)
# Fasa 3: Gabung dengan peralihan yang lancar
return self.blend_segments(segments, keyframes)Kekangan Ke Hadapan Setiap segmen mesti mengalir secara semula jadi dari sempadan kirinya (bingkai sebelumnya).
Kekangan Ke Belakang Setiap segmen mesti mencapai sempadan kanannya (bingkai seterusnya) dengan lancar.
Penjanaan Bingkai Kunci
Langkah pertama menjana bingkai kunci yang jarang, fikirkannya sebagai sauh yang menentukan struktur keseluruhan video:
Bingkai Kunci Sauh
Jana 1 bingkai kunci setiap 10-15 saat video sasaran. Bingkai kunci ini mewujudkan elemen visual utama, watak, tetapan, pencahayaan, pada titik tertentu dalam naratif.
Bingkai kunci berfungsi sebagai "titik semak" yang segmen mesti hormati. Mereka menghalang hanyutan dengan berkala menentukan semula kebenaran visual.
Pengisian Segmen Selari
Dengan bingkai kunci ditubuhkan, segmen antara mereka boleh dijana secara selari:
def generate_segment(self, prompt, left_kf, right_kf, num_frames):
# Mulakan dengan hingar
noise = torch.randn(num_frames, channels, height, width)
# Penyahhingaran iteratif dengan kekangan dwiarah
for t in reversed(range(num_steps)):
# Ramalan hingar standard
noise_pred = self.model(noise, t, prompt)
# Gunakan kekangan dwiarah
noise_pred = self.apply_constraints(
noise_pred,
left_boundary=left_kf,
right_boundary=right_kf,
constraint_strength=self.get_strength(t)
)
# Langkah penyahhingaran
noise = self.scheduler.step(noise_pred, t, noise)
return noiseKekuatan kekangan berkurangan melalui penyahhingaran. Langkah awal sangat dikekang untuk mewujudkan struktur. Langkah kemudian lebih bebas untuk menambah butiran.
Penggabungan Sempadan
Tempat segmen bercantum adalah kritikal. Penggabungan yang buruk mencipta "lompatan" yang boleh dilihat. CraftStory menggunakan pencampuran berwajaran:
Potong terus dari satu segmen ke seterusnya. Mencipta transisi yang jelas dan mengejutkan walaupun bingkai secara visual serupa.
Pencampuran berwajaran merentasi rantau bertindih. Bingkai berpudar antara satu sama lain merentasi 10-20 bingkai, mencipta transisi lancar yang tidak dapat dilihat.
Keputusan dan Batasan
Hasil penyelidikan menunjukkan:
| Metrik | Video Pendek (10s) | CraftStory (5min) |
|---|---|---|
| Koheren Visual | Tinggi | Sederhana-Tinggi |
| Konsistensi Watak | Cemerlang | Baik |
| Kestabilan Latar | Cemerlang | Baik |
| Aliran Gerakan | Semula jadi | Sedikit bergelut |
- ✓Mengekalkan identiti watak merentasi 5 minit
- ✓Konsistensi adegan tanpa hanyutan besar
- ✓Peralihan lancar di sempadan segmen
- ○Gerakan kompleks merentasi sempadan
- ○Aksi pantas di titik gabungan
- ○Sedia pengeluaran (masih penyelidikan)
Implikasi untuk Pencipta
Walaupun CraftStory adalah penyelidikan, ia menunjukkan beberapa perkara:
5 Minit Boleh Dilaksanakan
Halangan teknikal untuk video bentuk panjang sedang diatasi. Bukan persoalan "jika" tetapi "bila" ia mencapai pengeluaran.
Struktur Segmen Penting
Memahami bagaimana memecahkan naratif kepada segmen menjadi kemahiran pencipta. Di mana sempadan semula jadi anda?
Bersabar
Penyelidikan ke pengeluaran biasanya mengambil 12-24 bulan. Jangkakan keupayaan serupa dalam alat pengguna menjelang akhir 2026.
Bagaimana Ini Berkaitan dengan Alat Semasa
Jika anda menggunakan alat pemanjangan video hari ini, anda sudah mengalami versi cabaran yang sama:
- Mengekalkan konsistensi apabila memanjangkan
- Peralihan lancar antara asal dan dijana
- Mengelakkan hanyutan merentasi sambungan
CraftStory menyediakan asas teori untuk mengapa teknik tertentu berfungsi dan bagaimana memperbaikinya.
Keadaan Seni Semasa
Di mana kita berdiri sekarang:
| Platform | Tempoh Maks | Kualiti Koheren |
|---|---|---|
| Sora 2 | 60s | Cemerlang |
| Runway Gen-4.5 | 60s | Cemerlang |
| Veo 3 | 60s | Cemerlang |
| Kling 2.6 | 30s | Sangat Baik |
| CraftStory (Penyelidikan) | 5min | Baik |
Perhatikan jurang, penyelidikan mencapai 5 minit tetapi produk berhenti pada 60 saat. Jurang itu akan ditutup, tetapi mengambil masa untuk teknik penyelidikan menjadi cukup teguh untuk berjuta-juta pengguna.
Apa yang Perlu Diperhatikan
Apabila menilai tuntutan video bentuk panjang masa depan, cari:
-
Koheren merentasi minit, bukan saat. Demo 60 saat mudah. Demo 5 minit yang koheren adalah sukar.
-
Aksi kompleks di sempadan. Adakah watak boleh berjalan, menari, atau berkelahi merentasi sempadan segmen dengan lancar?
-
Konsistensi watak dalam jarak dekat. Wajah adalah ujian paling sukar. Adakah mereka stabil merentasi berbilang minit?
-
Kestabilan persekitaran. Adakah bilik yang sama kelihatan sama dari awal hingga akhir?
Kesimpulan
CraftStory menunjukkan bahawa video AI 5 minit adalah secara teknikal boleh dilaksanakan dengan teknik seni bina yang betul. Difusi dwiarah dengan penjanaan bingkai kunci dan pengisian segmen selari menyelesaikan masalah asas penumpukan ralat dan keruntuhan koheren.
Bagi pencipta, pengambilan praktikal adalah jelas: video bentuk panjang akan datang. Mulakan berfikir tentang bagaimana anda akan menggunakannya. Kisah apa yang memerlukan lebih dari 60 saat? Produk apa yang memerlukan demonstrasi yang lebih panjang? Naratif apa yang sepatutnya ada ruang untuk bernafas?
Had 10 saat adalah sejarah. Had 60 saat sedang jatuh. Had seterusnya adalah imaginasi anda.
Adakah artikel ini membantu?

Alexis
Jurutera AIJurutera AI dari Lausanne yang menggabungkan kedalaman penyelidikan dengan inovasi praktikal. Membahagikan masa antara seni bina model dan puncak alpine.
Artikel Berkaitan
Teruskan penerokaan dengan siaran berkaitan ini

Difusi Selari: Memecahkan Penghalang 5-Minit untuk Video AI
Penjanaan video AI terhad kepada saat. Difusi selari mendorong ke arah minit. Kami menelusuri seni bina di sebalik video bentuk panjang dan mengapa ini penting untuk pencipta.

Pika 2.5: Mendemokratikkan Video AI Melalui Kelajuan, Harga, dan Alat Kreatif
Pika Labs mengeluarkan versi 2.5, menggabungkan penjanaan lebih pantas, fizik yang dipertingkatkan, dan alat kreatif seperti Pikaframes dan Pikaffects untuk menjadikan video AI boleh diakses oleh semua orang.

Sora 2 lwn Runway Gen-4.5 lwn Veo 3: Perbandingan Lengkap 2025
Perbandingan menyeluruh tiga penjana video AI terkemuka pada Disember 2025. Kita mendalami kualiti, harga, keupayaan, dan model mana yang sesuai untuk kes penggunaan anda.