CraftStory Model 2.0: Çift Yönlü Difüzyon ile 5 Dakikalık Yapay Zeka Videolarının Sırrı
Sora 2, 25 saniyede sınıra ulaşırken, CraftStory tutarlı 5 dakikalık videolar üreten bir sistem sundu. Sırrı: Paralel çalışan birden fazla difüzyon motoru ve çift yönlü kısıtlamalar.

Yapay zeka video dünyasının en büyük meselesi: süre. Sora 2 maksimum 25 saniye. Runway ve Pika 10 saniye civarında. CraftStory geldi ve 5 dakikalık tutarlı videolar sundu. Arkasındaki teknik gerçekten zekice.
Kimsenin Çözemediği Süre Sorunu
Mevcut yapay zeka video modelleriyle ilgili şu gerçek var: bunlar maratoncu değil, sprinter. Sekiz saniyelik muhteşem görüntü üretirsiniz, sonra uzatmaya çalışırsınız ve görsel bir karmaşa elde edersiniz. Hatalar birikir. Karakterler kayar. Her şey dağılır.
Geleneksel yaklaşım şöyle işler: bir parça üretin, son birkaç kareyi bir sonraki parça için bağlam olarak kullanın, birleştirin. Sorun: hatalar birikir. Birinci parçadaki hafif garip bir el pozisyonu, beşinci parçada tuhaf bir lekeye dönüşür.
CraftStory, hemen hemen kullandığınız her görüş sisteminde çalışan bilgisayarlı görü kütüphanesi OpenCV'nin arkasındaki ekip tarafından kuruldu. CEO'ları Victor Erukhimov, Intel'in 2016'da satın aldığı bilgisayarlı görü girişimi Itseez'in kurucu ortağıdır.
Çift Yönlü Difüzyon: Mimari İnovasyon
CraftStory'nin çözümü geleneksel yaklaşımı tersine çevirir. Sırayla üretip en iyisini ummak yerine, tüm video zaman çizelgesi boyunca aynı anda birden fazla küçük difüzyon motoru çalıştırırlar.
Çift Yönlü Kısıtlamalar
Temel içgörü: "Videonun ikinci kısmı, videonun ilk kısmını da etkileyebilir," diye açıklıyor Erukhimov. "Bu oldukça önemli, çünkü bunu birer birer yaparsanız, ilk kısımda görünen bir hata ikinci kısma yayılır ve sonra birikir."
Bunu roman yazmak ile taslak çıkarmak gibi düşünün. Sıralı üretim, birinci sayfayı yazmak, sonra ikinci sayfayı, sonra üçüncü sayfayı yazmak gibidir ve geri dönme olanağınız yoktur. CraftStory'nin yaklaşımı, onuncu bölümün ikinci bölümde ne olması gerektiğini bilgilendirebildiği bir taslağa sahip olmak gibidir.
Geleneksel Sıralı
- A segmentini üret
- A'nın sonunu B'yi başlatmak için kullan
- B'nin sonunu C'yi başlatmak için kullan
- Hiçbir şeyin birikmediğini ümit et
- Birleştirme noktalarında şansını dene
Çift Yönlü Paralel
- Tüm segmentleri aynı anda işle
- Her segment komşularını kısıtlar
- Erken segmentler sonraki segmentlerden etkilenir
- Hatalar zaman çizelgesinde kendini düzeltir
- Doğal tutarlılık, birleştirme yok
Model 2.0 Gerçekte Nasıl Çalışır
Şu anda CraftStory Model 2.0 bir videodan videoya sistemidir. Bir görsel ve yönlendirici bir video sağlarsınız, sistem görselinizde yer alan kişinin yönlendirici videodaki hareketleri yaptığı bir çıktı üretir.
- ✓Referans görseli yükle (özneniz)
- ✓Yönlendirici video sağla (hareket şablonu)
- ✓Model performansı sentezler
- ○Metinden videoya gelecek güncellemede gelecek
Dudak senkronizasyonu sistemi öne çıkıyor. Ona bir senaryo veya ses kaydı verin, eşleşen ağız hareketlerini üretir. Ayrı bir jest hizalama algoritması, beden dilini konuşma ritmi ve duygusal tonla senkronize eder. Sonuç: kişinin gerçekten o kelimeleri söylüyor gibi göründüğü videolar, sadece çenesini açıp kapamıyor.
CraftStory, model için özel olarak çekilmiş tescilli yüksek kare hızlı görüntülerle eğitildi. Standart 30fps YouTube klipleri, parmaklar gibi ince detaylar için çok fazla hareket bulanıklığına sahip. Daha temiz eğitim verileri için aktörleri yüksek kare hızlarında çekmek üzere stüdyolar tuttular.
Çıktı: Gerçekte Ne Elde Edersiniz
- 5 dakikaya kadar kesintisiz video
- 480p ve 720p yerel çözünürlük
- 720p'den 1080p'ye ölçeklenebilir
- Yatay ve dikey formatlar
- Senkronize dudak hareketleri
- Doğal jest hizalama
- Yalnızca videodan videoya (henüz metinden videoya yok)
- Yönlendirici video girişi gerektirir
- Düşük çözünürlükte 30 saniye için yaklaşık 15 dakika
- Şu anda sabit kamera (hareketli kamera geliyor)
Düşük çözünürlüklü 30 saniyelik bir klip için üretim yaklaşık 15 dakika sürüyor. Bu, bazı modellerin sunduğu neredeyse anlık üretimden daha yavaş, ancak takas birbirini takip etmeyen güzel parçalar yerine tutarlı uzun biçimli çıktıdır.
Bu Neden İçerik Üreticiler İçin Önemli
5 dakikalık engel keyfi değil. Yapay zeka videonun gerçek içerik için faydalı hale geldiği eşiktir.
Sosyal Klipler
TikTok parçaları ve reklamlar için iyi, ancak sınırlı hikaye anlatımı
Kısa Açıklayıcılar
Hızlı ürün demosu veya konsept gösterimi için yeterli
Gerçek İçerik
YouTube eğitimleri, eğitim videoları, sunumlar, anlatı içeriği
Uzun Format
Tam bölümler, belgeseller, eğitim kursları
İş video içeriğinin çoğu 2-5 dakikalık aralıkta yaşar. Ürün demoları. Eğitim modülleri. Açıklayıcı videolar. İç iletişim. CraftStory'nin profesyonel kullanım durumları için alakalı hale geldiği yer burasıdır.
Açılan Kullanım Durumları:
- Baştan sona tutarlı sunuculu ürün eğitimleri
- Yetenek planlaması gerektirmeyen eğitim videoları
- Ölçekte kişiselleştirilmiş video mesajları
- Sanal eğitmenlerle eğitim içeriği
- Oluşturulmuş sözcü kişilerle kurumsal iletişim
Rekabet Ortamı
CraftStory, Wrike ve Zencoder'ın kurucusu Andrew Filev liderliğinde 2 milyon dolar tohum yatırımı aldı. Bu, OpenAI ve Google'a akan milyarlarla karşılaştırıldığında mütevazı, ancak teknolojiyi kanıtlamak için yeterli.
OpenCV Bağlantısı
Kurucu ekibin geçmişi burada önemli. OpenCV, sektörler arası bilgisayarlı görü sistemlerine güç veriyor. Bu kişiler, çoğu yapay zeka video girişiminin bilmediği bir seviyede görsel işlemenin temellerini anlıyor.
Metinden videoya yetenek geliştirme aşamasında. Bu başlatıldığında, değer önerisi daha net hale gelir: metinle 5 dakikalık bir video tanımlayın, diğer araçları rahatsız eden kare kare kalite bozulması olmadan tutarlı çıktı elde edin.
Sırada Ne Var
Yol Haritası Özellikleri▼
CraftStory yaklaşan birkaç yetenek duyurdu:
- Metinden videoya: Yönlendirici video olmadan komutlardan üretim
- Hareketli kamera: Pan, yakınlaştırma ve takip çekimleri
- Yürü ve konuş: Konuşurken uzayda hareket eden özneler
Çift yönlü difüzyon yaklaşımı sadece bir CraftStory hilesi değil. Diğer ekiplerin muhtemelen benimseyeceği bir kalıptır. "Hatalar ileri doğru birikir" sorununu çözdüğünüzde, daha uzun üretim temel bir engel yerine bir mühendislik zorluğu haline gelir.
Model 2.0 şu anda insan merkezli videoya odaklanmıştır. İnsansız sahneler için, çevresel veya soyut üretim için optimize edilmiş araçları tercih edersiniz. Bu uzman bir araçtır, genelci değil.
Büyük Resim
Yapay zeka videonun garip ergenlik dönemini izliyoruz. Modeller çarpıcı 10 saniyelik klipler üretebilir, ancak dakikalar boyunca tutarlılığı korumaları istendiğinde dağılırlar. CraftStory'nin çift yönlü yaklaşımı bu soruna bir yanıttır.
Asıl soru: bu tekniğin daha büyük oyuncular tarafından benimsenmesi ne kadar sürer? OpenAI, Google ve Runway'in hepsinin benzer mimariler uygulamak için kaynakları var. CraftStory'nin avantajı, çalışan uzun biçimli üretimle pazara ilk giren olmasıdır.
Şimdilik, insan özneleriyle tutarlı çok dakikalık yapay zeka video içeriğine ihtiyacınız varsa, CraftStory piyasadaki tek seçenek haline geldi. Süre engeli henüz kırılmadı, ancak birileri ciddi bir çatlak açtı.
Deneyin
CraftStory Model 2.0 şimdi kullanılabilir. Fiyatlandırma yapısı kamuya açık olarak detaylandırılmadı, bu nedenle mevcut teklifler için sitelerini kontrol etmeniz gerekecek. Metinden videoya geliyor, bu da platformu mevcut yönlendirici video içeriği olmayan kullanıcılar için erişilebilir hale getirecek.

Henry
Yaratıcı Teknoloji UzmanıLausanne'dan yapay zekanın sanatla buluştuğu noktayı keşfeden yaratıcı bir teknoloji uzmanı. Elektronik müzik seansları arasında üretken modellerle deneyler yapıyor.