CraftStory Model 2.0: 双方向拡散が5分間のAI動画を実現する仕組み
Sora 2が最大25秒であるのに対し、CraftStoryは5分間の一貫した動画を生成するシステムをリリースしました。その秘密は何でしょうか。複数の拡散エンジンを双方向制約で並列実行することです。

AI動画における大きな課題とは何でしょうか。それは動画の長さです。Sora 2は25秒が上限です。RunwayとPikaは約10秒です。CraftStoryが登場し、5分間の一貫した動画を実現しました。その背後にある技術は本当に巧妙です。
誰も解決できなかった長さの問題
現在のAI動画モデルについて申し上げますと、これらは短距離走者であり、マラソン走者ではございません。8秒間の美しい映像を生成し、それを延長しようとすると、伝言ゲームの視覚版のようになってしまいます。アーティファクトが蓄積します。キャラクターがずれます。全体が崩れてしまいます。
従来のアプローチは次のように機能いたします。チャンクを生成し、最後の数フレームを次のチャンクのコンテキストとして使用し、それらをつなぎ合わせます。問題点は何でしょうか。エラーが蓄積されることです。チャンク1のわずかに奇妙な手の位置が、チャンク5では奇妙な塊になってしまいます。
CraftStoryは、OpenCVの背後にあるチームによって設立されました。OpenCVは、皆様がこれまで使用されたほぼすべてのビジョンシステムで実行されているコンピュータビジョンライブラリでございます。CEOのVictor Erukhimov氏は、2016年にIntelが買収したコンピュータビジョンスタートアップItseezを共同設立いたしました。
双方向拡散: アーキテクチャの革新
CraftStoryのソリューションは、典型的なアプローチを逆転させます。順次生成して最善を願うのではなく、動画のタイムライン全体にわたって複数の小さな拡散エンジンを同時に実行いたします。
双方向制約
重要な洞察をご紹介いたします。Erukhimov氏は次のように説明しております。「動画の後半部分が動画の前半部分にも影響を与えることができます。そしてこれは非常に重要です。なぜなら、1つずつ行うと、最初の部分に現れるアーティファクトが2番目の部分に伝播し、そして蓄積されるからです。」
これを、小説を書くことと、アウトラインを作ることに例えて考えてみてください。順次生成は、ページ1を書き、次にページ2を書き、次にページ3を書くようなもので、戻る能力はございません。CraftStoryのアプローチは、第10章が第2章で何が起こる必要があるかを知らせることができるアウトラインを持つようなものです。
従来の順次方式
- セグメントAを生成
- Aの終わりを使用してBを開始
- Bの終わりを使用してCを開始
- 何も蓄積されないことを願う
- つなぎ目で指をクロス
双方向並列方式
- すべてのセグメントを同時に処理
- 各セグメントが隣接セグメントを制約
- 初期セグメントが後期セグメントから影響を受ける
- アーティファクトがタイムライン全体で自己修正
- ネイティブな一貫性、つなぎ目なし
Model 2.0が実際にどのように機能するか
現在、CraftStory Model 2.0は動画から動画へのシステムでございます。画像とドライビング動画を提供すると、画像内の人物がドライビング動画からの動きを実行する出力が生成されます。
- ✓参照画像をアップロード(被写体)
- ✓ドライビング動画を提供(モーションテンプレート)
- ✓モデルがパフォーマンスを合成
- ○テキストから動画への機能は今後のアップデートで提供予定
リップシンクシステムが特に優れております。スクリプトまたはオーディオトラックを与えると、一致する口の動きが生成されます。別のジェスチャーアライメントアルゴリズムが、ボディランゲージを音声のリズムと感情的なトーンと同期させます。結果はどうでしょうか。人物が実際にそれらの言葉を話しているように見える動画であり、単に顎を動かしているだけではございません。
CraftStoryは、モデル専用に撮影された独自の高フレームレート映像でトレーニングされました。標準的な30fpsのYouTubeクリップは、指などの細かいディテールには動きのぼけが多すぎます。より高いフレームレートで俳優を撮影するためにスタジオを雇い、よりクリーンなトレーニングデータを得ました。
出力: 実際に得られるもの
- 最大5分間の連続動画
- 480pおよび720pのネイティブ解像度
- 720pから1080pへのアップスケール可能
- 横向きおよび縦向きフォーマット
- 同期された唇の動き
- 自然なジェスチャーアライメント
- 動画から動画のみ(テキストから動画はまだ未対応)
- ドライビング動画入力が必要
- 低解像度で30秒の生成に約15分
- 現在は静止カメラ(移動カメラは開発中)
生成には、低解像度の30秒クリップで約15分かかります。一部のモデルが提供するほぼ瞬時の生成よりも遅いですが、トレードオフとして、接続されない美しい断片ではなく、一貫した長編出力が得られます。
これがクリエイターにとって重要な理由
5分の壁は恣意的なものではございません。これは、AI動画が実際のコンテンツに役立つようになる閾値でございます。
ソーシャルクリップ
TikTokスニペットや広告には適していますが、ストーリーテリングは限定的
短い説明
簡単な製品デモやコンセプト説明には十分
実際のコンテンツ
YouTubeチュートリアル、トレーニング動画、プレゼンテーション、物語コンテンツ
長編形式
完全なエピソード、ドキュメンタリー、教育コース
ほとんどのビジネス動画コンテンツは2〜5分の範囲にございます。製品デモ。トレーニングモジュール。説明動画。社内コミュニケーション。これが、CraftStoryが専門的なユースケースに関連するようになる分野でございます。
開かれるユースケース:
- 一貫したプレゼンターによる製品チュートリアル
- タレントのスケジューリングが不要なトレーニング動画
- 大規模なパーソナライズされた動画メッセージ
- 仮想インストラクターによる教育コンテンツ
- 生成されたスポークスパーソンによる企業コミュニケーション
競争環境
CraftStoryは、WrikeとZencoderの創業者であるAndrew Filev氏が主導する200万ドルのシード資金を調達いたしました。OpenAIやGoogleに流れ込む数十億ドルと比較すると控えめですが、技術を証明するには十分でございます。
OpenCVとのつながり
創業チームの実績がここで重要です。OpenCVは業界全体でコンピュータビジョンシステムを支えております。これらの方々は、ほとんどのAI動画スタートアップが持たないレベルで視覚処理の基礎を理解しております。
テキストから動画への機能は開発中でございます。それがリリースされると、価値提案がより明確になります。テキストで5分間の動画を説明し、他のツールを悩ませるフレームごとの品質劣化なしに一貫した出力を得ることができます。
次に来るもの
ロードマップ機能▼
CraftStoryは、いくつかの今後の機能を発表しております:
- テキストから動画: ドライビング動画なしでプロンプトから生成
- 移動カメラ: パン、ズーム、トラッキングショット
- 歩きながら話す: 話しながら空間を移動する被写体
双方向拡散アプローチは、CraftStoryだけのトリックではございません。これは、他のチームも採用する可能性が高いパターンでございます。「エラーが前方に蓄積する」問題を解決すれば、より長い生成は根本的な障壁ではなく、エンジニアリングの課題になります。
Model 2.0は現在、人間中心の動画に焦点を当てております。人がいないシーンの場合、環境や抽象的な生成に最適化されたツールが必要になります。これは専門ツールであり、汎用ツールではございません。
より大きな視点
私たちは、AI動画がぎこちない10代の段階を経ているのを見ております。モデルは見事な10秒クリップを生成できますが、数分にわたって一貫性を維持するよう求めると崩れてしまいます。CraftStoryの双方向アプローチは、その問題に対する1つの答えでございます。
本当の疑問は何でしょうか。この技術が大手プレーヤーに採用されるまでどのくらいかかるでしょうか。OpenAI、Google、Runwayはすべて、同様のアーキテクチャを実装するリソースを持っております。CraftStoryの利点は、機能する長編生成で市場に最初に参入したことでございます。
現時点では、人間の被写体を含む一貫した複数分のAI動画コンテンツが必要な場合、CraftStoryが唯一の選択肢となりました。期間の壁はまだ破られておりませんが、誰かが深刻な亀裂を入れたばかりでございます。
お試しください
CraftStory Model 2.0は現在利用可能でございます。価格体系は公に詳細が明らかにされておりませんので、現在の提供内容についてはサイトをご確認いただく必要がございます。テキストから動画への機能が提供予定であり、これにより既存のドライビング動画コンテンツを持たないユーザーもプラットフォームにアクセスできるようになります。

Henry
クリエイティブ・テクノロジストローザンヌ出身のクリエイティブ・テクノロジストで、AIとアートが交わる場所を探求しています。エレクトロニック・ミュージックのセッションの合間に生成モデルで実験しています。