HenryHenry
6 min read
1151 kata

CraftStory Model 2.0: Bagaimana Bidirectional Diffusion Membuka Video AI Berdurasi 5 Menit

Sementara Sora 2 maksimal hanya 25 detik, CraftStory baru saja meluncurkan sistem yang menghasilkan video koheren berdurasi 5 menit. Rahasianya? Menjalankan beberapa mesin difusi secara paralel dengan batasan bidireksional.

CraftStory Model 2.0: Bagaimana Bidirectional Diffusion Membuka Video AI Berdurasi 5 Menit

Tantangan besar dalam AI video? Durasi. Sora 2 terbatas pada 25 detik. Runway dan Pika berkisar 10 detik. CraftStory baru saja hadir dengan terobosan: video koheren berdurasi 5 menit. Teknik di baliknya sangat cerdas.

Masalah Durasi yang Belum Terpecahkan

Berikut ini hal yang perlu dipahami tentang model AI video saat ini: mereka adalah pelari cepat, bukan pelari maraton. Menghasilkan delapan detik rekaman yang indah, lalu mencoba memperpanjangnya, dan Anda mendapatkan setara visual dari permainan telepon rusak. Artefak bertambah. Karakter bergeser. Semuanya berantakan.

25s
Sora 2 Maksimal
10s
Model Umumnya
5min
CraftStory

Pendekatan tradisional bekerja seperti ini: menghasilkan satu bagian, gunakan beberapa frame terakhir sebagai konteks untuk bagian berikutnya, gabungkan semuanya. Masalahnya? Kesalahan terakumulasi. Posisi tangan yang sedikit aneh di bagian satu menjadi gumpalan aneh di bagian lima.

💡

CraftStory didirikan oleh tim di balik OpenCV, pustaka computer vision yang berjalan di hampir setiap sistem penglihatan yang pernah Anda gunakan. CEO mereka Victor Erukhimov turut mendirikan Itseez, startup computer vision yang diakuisisi Intel pada 2016.

Bidirectional Diffusion: Inovasi Arsitektur

Solusi CraftStory membalikkan pendekatan tipikal. Alih-alih menghasilkan secara berurutan dan berharap yang terbaik, mereka menjalankan beberapa mesin difusi yang lebih kecil secara bersamaan di seluruh timeline video.

🔄

Batasan Bidireksional

Wawasan kuncinya: "Bagian akhir video dapat memengaruhi bagian awal video juga," jelas Erukhimov. "Dan ini cukup penting, karena jika Anda melakukannya satu per satu, maka artefak yang muncul di bagian pertama menyebar ke bagian kedua, dan kemudian terakumulasi."

Bayangkan seperti menulis novel versus membuat kerangkanya. Generasi berurutan seperti menulis halaman satu, lalu halaman dua, lalu halaman tiga, tanpa kemampuan untuk kembali. Pendekatan CraftStory seperti memiliki kerangka di mana bab sepuluh dapat menginformasikan apa yang perlu terjadi di bab dua.

Berurutan Tradisional

  • Hasilkan segmen A
  • Gunakan akhir A untuk memulai B
  • Gunakan akhir B untuk memulai C
  • Berharap tidak ada yang bertambah
  • Berdoa saat titik penyambungan

Paralel Bidireksional

  • Proses semua segmen secara bersamaan
  • Setiap segmen membatasi tetangganya
  • Segmen awal dipengaruhi oleh yang kemudian
  • Artefak memperbaiki diri di timeline
  • Koherensi asli, tanpa penyambungan

Cara Model 2.0 Benar-Benar Bekerja

Saat ini, CraftStory Model 2.0 adalah sistem video-ke-video. Anda memberikan gambar dan video penggerak, dan sistem menghasilkan output di mana orang dalam gambar Anda melakukan gerakan dari video penggerak.

  • Unggah gambar referensi (subjek Anda)
  • Berikan video penggerak (template gerakan)
  • Model mensintesis pertunjukan
  • Teks-ke-video akan hadir dalam pembaruan mendatang

Sistem sinkronisasi bibir menonjol. Berikan skrip atau trek audio, dan sistem menghasilkan gerakan mulut yang sesuai. Algoritma penyelarasan gerakan terpisah menyinkronkan bahasa tubuh dengan ritme bicara dan nada emosional. Hasilnya? Video di mana orang tersebut benar-benar terlihat seperti sedang mengucapkan kata-kata itu, bukan hanya menggerak-gerakkan rahang.

💡

CraftStory dilatih pada rekaman frame rate tinggi proprietary yang diambil khusus untuk model. Klip YouTube standar 30fps memiliki terlalu banyak motion blur untuk detail halus seperti jari. Mereka menyewa studio untuk menangkap aktor pada frame rate lebih tinggi untuk data pelatihan yang lebih bersih.

Output: Apa yang Sebenarnya Anda Dapatkan

Kemampuan
  • Video kontinu hingga 5 menit
  • Resolusi asli 480p dan 720p
  • 720p dapat ditingkatkan ke 1080p
  • Format landscape dan portrait
  • Gerakan bibir tersinkronisasi
  • Penyelarasan gerakan alami
Keterbatasan
  • Hanya video-ke-video (belum ada teks-ke-video)
  • Memerlukan input video penggerak
  • Sekitar 15 menit untuk 30 detik pada resolusi rendah
  • Kamera statis saat ini (kamera bergerak akan hadir)

Generasi membutuhkan sekitar 15 menit untuk klip 30 detik beresolusi rendah. Itu lebih lambat daripada generasi hampir instan yang ditawarkan beberapa model, tetapi komprominya adalah output bentuk panjang yang koheren daripada fragmen indah yang tidak terhubung.

Mengapa Ini Penting untuk Kreator

Batasan 5 menit bukanlah sembarangan. Ini adalah ambang batas di mana video AI menjadi berguna untuk konten sebenarnya.

10 det

Klip Sosial

Bagus untuk cuplikan TikTok dan iklan, tetapi bercerita terbatas

30 det

Penjelasan Singkat

Cukup untuk demo produk cepat atau ilustrasi konsep

2-5 mnt

Konten Nyata

Tutorial YouTube, video pelatihan, presentasi, konten naratif

Masa Depan

Bentuk Panjang

Episode penuh, dokumenter, kursus pendidikan

Sebagian besar konten video bisnis berada dalam rentang 2-5 menit. Demo produk. Modul pelatihan. Video penjelasan. Komunikasi internal. Di sinilah CraftStory menjadi relevan untuk kasus penggunaan profesional.

Kasus Penggunaan yang Terbuka:

  • Tutorial produk dengan presenter yang konsisten sepanjang waktu
  • Video pelatihan yang tidak memerlukan penjadwalan talenta
  • Pesan video yang dipersonalisasi dalam skala besar
  • Konten pendidikan dengan instruktur virtual
  • Komunikasi korporat dengan juru bicara yang dihasilkan

Lanskap Kompetitif

CraftStory mengumpulkan pendanaan seed sebesar $2 juta yang dipimpin oleh Andrew Filev, pendiri Wrike dan Zencoder. Itu sederhana dibandingkan dengan miliaran yang mengalir ke OpenAI dan Google, tetapi cukup untuk membuktikan teknologinya.

🎯

Koneksi OpenCV

Silsilah tim pendiri penting di sini. OpenCV menggerakkan sistem computer vision di berbagai industri. Orang-orang ini memahami dasar-dasar pemrosesan visual pada tingkat yang tidak dimiliki sebagian besar startup video AI.

Kemampuan teks-ke-video sedang dalam pengembangan. Setelah diluncurkan, proposisi nilai menjadi lebih jelas: deskripsikan video 5 menit dalam teks, dapatkan output koheren tanpa degradasi kualitas frame-demi-frame yang mengganggu alat lain.

Apa Selanjutnya

Fitur Roadmap

CraftStory telah mengumumkan beberapa kemampuan yang akan datang:

  • Teks-ke-video: Hasilkan dari prompt tanpa video penggerak
  • Kamera bergerak: Pan, zoom, dan tracking shot
  • Walk-and-talk: Subjek yang bergerak melalui ruang sambil berbicara

Pendekatan bidirectional diffusion bukan hanya trik CraftStory. Ini adalah pola yang kemungkinan akan diadopsi oleh tim lain. Setelah Anda memecahkan masalah "kesalahan terakumulasi ke depan", generasi yang lebih panjang menjadi tantangan teknik daripada hambatan fundamental.

⚠️

Model 2.0 saat ini berfokus pada video yang berpusat pada manusia. Untuk adegan tanpa orang, Anda masih memerlukan alat yang dioptimalkan untuk generasi lingkungan atau abstrak. Ini adalah alat spesialis, bukan generalis.

Gambaran Lebih Besar

Kami menyaksikan AI video melewati fase remaja yang canggung. Model dapat menghasilkan klip 10 detik yang menakjubkan, tetapi minta mereka mempertahankan koherensi di seluruh menit dan mereka berantakan. Pendekatan bidireksional CraftStory adalah satu jawaban untuk masalah itu.

Pertanyaan sebenarnya: berapa lama sampai teknik ini diadopsi oleh pemain yang lebih besar? OpenAI, Google, dan Runway semuanya memiliki sumber daya untuk menerapkan arsitektur serupa. Keuntungan CraftStory adalah menjadi yang pertama ke pasar dengan generasi bentuk panjang yang berfungsi.

Untuk saat ini, jika Anda memerlukan konten video AI multi-menit yang konsisten dengan subjek manusia, CraftStory baru saja menjadi satu-satunya pilihan. Hambatan durasi belum dipecahkan, tetapi seseorang baru saja membuat retakan serius di dalamnya.

🚀

Coba Sekarang

CraftStory Model 2.0 tersedia sekarang. Struktur harga belum dirinci secara publik, jadi Anda perlu memeriksa situs mereka untuk penawaran saat ini. Teks-ke-video akan hadir, yang akan membuat platform dapat diakses oleh pengguna tanpa konten video penggerak yang ada.

Henry

Henry

Teknolog Kreatif

Teknolog kreatif dari Lausanne yang mengeksplorasi pertemuan antara AI dan seni. Bereksperimen dengan model generatif di antara sesi musik elektronik.

Suka dengan artikel ini?

Temukan lebih banyak wawasan dan ikuti terus konten terbaru kami.

CraftStory Model 2.0: Bagaimana Bidirectional Diffusion Membuka Video AI Berdurasi 5 Menit