Meta Pixel
AlexisAlexis
6 min read
1030 perkataan

CraftStory: Bagaimana Video AI 5 Minit Menjadi Mungkin

Penyelidik membongkar CraftStory, sistem yang menjana video AI koheren sepanjang 5 minit menggunakan difusi dwiarah. Kami mendalami cara ia berfungsi dan apa maksudnya untuk pencipta.

CraftStory: Bagaimana Video AI 5 Minit Menjadi Mungkin

Kebanyakan video AI bertahan kurang dari satu minit. CraftStory menunjukkan bahawa 5 minit adalah mungkin dengan teknik seni bina yang betul. Ini adalah kertas penyelidikan, bukan produk, tetapi ia menunjukkan ke mana bidang ini menuju.

Masalah dengan Video Panjang

Menjana video AI yang lebih panjang bukan hanya tentang menambah lebih banyak bingkai. Tiga masalah asas muncul:

10-60s
Had Semasa
5min
Sasaran CraftStory
7200
Bingkai pada 24fps
  1. Penumpukan Ralat: Setiap bingkai yang dijana sedikit menyimpang dari ideal. Lebih banyak bingkai = lebih banyak sisihan terkumpul. Menjelang minit 5, hanyutan menjadi jelas.

  2. Letupan Memori: GPU mempunyai memori terhad. Memegang 7,200 bingkai dalam memori sekaligus adalah tidak praktikal pada perkakasan semasa.

  3. Keruntuhan Koheren: Watak berubah penampilan. Adegan beranjak secara tidak konsisten. Pencahayaan berubah-ubah. Semakin panjang video, semakin sukar mengekalkan koheren visual.

Penyelesaian CraftStory: Difusi Dwiarah

💡

Wawasan teras CraftStory: jana segmen pendek secara selari, tetapi kekang setiap segmen oleh kedua-dua apa yang datang sebelum DAN selepasnya.

Penjanaan tradisional berfungsi kiri ke kanan. Jana bingkai 1, gunakan untuk menjana bingkai 2, dan seterusnya. Ralat hanya boleh terkumpul dalam satu arah.

CraftStory berfungsi secara berbeza:

# Pendekatan konseptual CraftStory
class BidirectionalVideoGenerator:
    def __init__(self, segment_length=300):  # Segmen 12.5 saat
        self.segment_length = segment_length
 
    def generate_long_video(self, prompt, total_frames=7200):
        # Fasa 1: Jana bingkai kunci yang jarang
        keyframes = self.generate_keyframes(
            prompt,
            num_keyframes=total_frames // self.segment_length
        )
 
        # Fasa 2: Jana segmen antara bingkai kunci (selari)
        segments = []
        for i in range(len(keyframes) - 1):
            segment = self.generate_segment(
                prompt,
                left_keyframe=keyframes[i],
                right_keyframe=keyframes[i + 1],
                num_frames=self.segment_length
            )
            segments.append(segment)
 
        # Fasa 3: Gabung dengan peralihan yang lancar
        return self.blend_segments(segments, keyframes)

Kekangan Ke Hadapan Setiap segmen mesti mengalir secara semula jadi dari sempadan kirinya (bingkai sebelumnya).

Kekangan Ke Belakang Setiap segmen mesti mencapai sempadan kanannya (bingkai seterusnya) dengan lancar.

Penjanaan Bingkai Kunci

Langkah pertama menjana bingkai kunci yang jarang, fikirkannya sebagai sauh yang menentukan struktur keseluruhan video:

🎯

Bingkai Kunci Sauh

Jana 1 bingkai kunci setiap 10-15 saat video sasaran. Bingkai kunci ini mewujudkan elemen visual utama, watak, tetapan, pencahayaan, pada titik tertentu dalam naratif.

Bingkai kunci berfungsi sebagai "titik semak" yang segmen mesti hormati. Mereka menghalang hanyutan dengan berkala menentukan semula kebenaran visual.

Pengisian Segmen Selari

Dengan bingkai kunci ditubuhkan, segmen antara mereka boleh dijana secara selari:

def generate_segment(self, prompt, left_kf, right_kf, num_frames):
    # Mulakan dengan hingar
    noise = torch.randn(num_frames, channels, height, width)
 
    # Penyahhingaran iteratif dengan kekangan dwiarah
    for t in reversed(range(num_steps)):
        # Ramalan hingar standard
        noise_pred = self.model(noise, t, prompt)
 
        # Gunakan kekangan dwiarah
        noise_pred = self.apply_constraints(
            noise_pred,
            left_boundary=left_kf,
            right_boundary=right_kf,
            constraint_strength=self.get_strength(t)
        )
 
        # Langkah penyahhingaran
        noise = self.scheduler.step(noise_pred, t, noise)
 
    return noise
💡

Kekuatan kekangan berkurangan melalui penyahhingaran. Langkah awal sangat dikekang untuk mewujudkan struktur. Langkah kemudian lebih bebas untuk menambah butiran.

Penggabungan Sempadan

Tempat segmen bercantum adalah kritikal. Penggabungan yang buruk mencipta "lompatan" yang boleh dilihat. CraftStory menggunakan pencampuran berwajaran:

Penggabungan Naif

Potong terus dari satu segmen ke seterusnya. Mencipta transisi yang jelas dan mengejutkan walaupun bingkai secara visual serupa.

Penggabungan CraftStory

Pencampuran berwajaran merentasi rantau bertindih. Bingkai berpudar antara satu sama lain merentasi 10-20 bingkai, mencipta transisi lancar yang tidak dapat dilihat.

Keputusan dan Batasan

Hasil penyelidikan menunjukkan:

MetrikVideo Pendek (10s)CraftStory (5min)
Koheren VisualTinggiSederhana-Tinggi
Konsistensi WatakCemerlangBaik
Kestabilan LatarCemerlangBaik
Aliran GerakanSemula jadiSedikit bergelut
  • Mengekalkan identiti watak merentasi 5 minit
  • Konsistensi adegan tanpa hanyutan besar
  • Peralihan lancar di sempadan segmen
  • Gerakan kompleks merentasi sempadan
  • Aksi pantas di titik gabungan
  • Sedia pengeluaran (masih penyelidikan)

Implikasi untuk Pencipta

Walaupun CraftStory adalah penyelidikan, ia menunjukkan beberapa perkara:

📈

5 Minit Boleh Dilaksanakan

Halangan teknikal untuk video bentuk panjang sedang diatasi. Bukan persoalan "jika" tetapi "bila" ia mencapai pengeluaran.

🎬

Struktur Segmen Penting

Memahami bagaimana memecahkan naratif kepada segmen menjadi kemahiran pencipta. Di mana sempadan semula jadi anda?

Bersabar

Penyelidikan ke pengeluaran biasanya mengambil 12-24 bulan. Jangkakan keupayaan serupa dalam alat pengguna menjelang akhir 2026.

Bagaimana Ini Berkaitan dengan Alat Semasa

Jika anda menggunakan alat pemanjangan video hari ini, anda sudah mengalami versi cabaran yang sama:

  • Mengekalkan konsistensi apabila memanjangkan
  • Peralihan lancar antara asal dan dijana
  • Mengelakkan hanyutan merentasi sambungan

CraftStory menyediakan asas teori untuk mengapa teknik tertentu berfungsi dan bagaimana memperbaikinya.

Keadaan Seni Semasa

Di mana kita berdiri sekarang:

PlatformTempoh MaksKualiti Koheren
Sora 260sCemerlang
Runway Gen-4.560sCemerlang
Veo 360sCemerlang
Kling 2.630sSangat Baik
CraftStory (Penyelidikan)5minBaik
⚠️

Perhatikan jurang, penyelidikan mencapai 5 minit tetapi produk berhenti pada 60 saat. Jurang itu akan ditutup, tetapi mengambil masa untuk teknik penyelidikan menjadi cukup teguh untuk berjuta-juta pengguna.

Apa yang Perlu Diperhatikan

Apabila menilai tuntutan video bentuk panjang masa depan, cari:

  1. Koheren merentasi minit, bukan saat. Demo 60 saat mudah. Demo 5 minit yang koheren adalah sukar.

  2. Aksi kompleks di sempadan. Adakah watak boleh berjalan, menari, atau berkelahi merentasi sempadan segmen dengan lancar?

  3. Konsistensi watak dalam jarak dekat. Wajah adalah ujian paling sukar. Adakah mereka stabil merentasi berbilang minit?

  4. Kestabilan persekitaran. Adakah bilik yang sama kelihatan sama dari awal hingga akhir?

Kesimpulan

CraftStory menunjukkan bahawa video AI 5 minit adalah secara teknikal boleh dilaksanakan dengan teknik seni bina yang betul. Difusi dwiarah dengan penjanaan bingkai kunci dan pengisian segmen selari menyelesaikan masalah asas penumpukan ralat dan keruntuhan koheren.

Bagi pencipta, pengambilan praktikal adalah jelas: video bentuk panjang akan datang. Mulakan berfikir tentang bagaimana anda akan menggunakannya. Kisah apa yang memerlukan lebih dari 60 saat? Produk apa yang memerlukan demonstrasi yang lebih panjang? Naratif apa yang sepatutnya ada ruang untuk bernafas?

Had 10 saat adalah sejarah. Had 60 saat sedang jatuh. Had seterusnya adalah imaginasi anda.

Adakah artikel ini membantu?

Alexis

Alexis

Jurutera AI

Jurutera AI dari Lausanne yang menggabungkan kedalaman penyelidikan dengan inovasi praktikal. Membahagikan masa antara seni bina model dan puncak alpine.

Artikel Berkaitan

Teruskan penerokaan dengan siaran berkaitan ini

Suka artikel ini?

Temui lebih banyak wawasan dan ikuti kandungan terkini kami.

CraftStory: Bagaimana Video AI 5 Minit Menjadi Mungkin