HenryHenry
14 min read
999 단어

CraftStory Model 2.0: 양방향 디퓨전을 통해 5분 길이 AI 영상을 구현하는 방법

Sora 2가 25초에 머물러 있는 동안, CraftStory는 5분 길이의 일관성 있는 영상을 생성하는 시스템을 공개했습니다. 그 비결은 양방향 제약과 함께 여러 디퓨전 엔진을 병렬로 실행하는 것입니다.

CraftStory Model 2.0: 양방향 디퓨전을 통해 5분 길이 AI 영상을 구현하는 방법

AI 영상 분야의 가장 큰 과제는 무엇일까요? 바로 영상 길이입니다. Sora 2는 25초가 한계이고, Runway와 Pika는 10초 정도에 머물러 있습니다. 이러한 상황에서 CraftStory가 5분 길이의 일관성 있는 영상 생성을 선보였습니다. 이 기술은 정말 뛰어난 발상입니다.

아직 아무도 해결하지 못한 영상 길이 문제

현재 AI 영상 모델의 특징을 살펴보면, 단거리 주자와 같습니다. 8초 분량의 아름다운 영상을 생성한 후 이를 확장하려고 하면, 전화 놀이처럼 정보가 왜곡되는 현상이 발생합니다. 아티팩트가 누적되고, 인물이 흐려지며, 전체적으로 무너지게 됩니다.

25s
Sora 2 최대
10s
일반 모델
5min
CraftStory

기존 방식은 다음과 같이 작동합니다. 하나의 영상 구간을 생성하고, 마지막 몇 프레임을 다음 구간의 맥락으로 사용한 후, 이들을 연결합니다. 문제는 오류가 누적된다는 점입니다. 첫 번째 구간에서 약간 이상한 손 위치가 다섯 번째 구간에서는 이상한 형태로 변형됩니다.

💡

CraftStory는 거의 모든 비전 시스템에서 사용되는 컴퓨터 비전 라이브러리인 OpenCV를 만든 팀이 설립했습니다. CEO Victor Erukhimov는 Intel이 2016년에 인수한 컴퓨터 비전 스타트업 Itseez의 공동 창립자입니다.

양방향 디퓨전: 혁신적인 아키텍처

CraftStory의 솔루션은 기존 접근 방식을 완전히 뒤집었습니다. 순차적으로 생성하며 최선의 결과를 기대하는 대신, 전체 영상 타임라인에 걸쳐 여러 개의 작은 디퓨전 엔진을 동시에 실행합니다.

🔄

양방향 제약

핵심 통찰은 다음과 같습니다. "영상의 후반부가 전반부에도 영향을 줄 수 있습니다"라고 Erukhimov는 설명합니다. "이것은 매우 중요합니다. 하나씩 처리하면 첫 번째 부분에 나타난 아티팩트가 두 번째 부분으로 전파되고, 그것이 누적되기 때문입니다."

소설을 쓰는 것과 개요를 작성하는 것을 비교해보면 이해하기 쉽습니다. 순차 생성은 1페이지를 쓴 후 2페이지, 3페이지를 쓰는 방식으로, 뒤로 돌아갈 수 없습니다. CraftStory의 접근 방식은 10장이 2장에서 무슨 일이 일어나야 하는지 알려줄 수 있는 개요를 가지고 있는 것과 같습니다.

기존 순차 방식

  • 세그먼트 A 생성
  • A의 끝을 사용하여 B 시작
  • B의 끝을 사용하여 C 시작
  • 누적되지 않기를 기대
  • 연결 지점에서 문제가 없기를 바람

양방향 병렬 방식

  • 모든 세그먼트를 동시에 처리
  • 각 세그먼트가 인접 세그먼트를 제약
  • 초기 세그먼트가 후기 세그먼트의 영향을 받음
  • 아티팩트가 타임라인 전체에서 자동 수정
  • 연결 없이 자연스러운 일관성 유지

Model 2.0의 실제 작동 방식

현재 CraftStory Model 2.0은 비디오 대 비디오 시스템입니다. 이미지와 구동 영상을 제공하면, 이미지 속 인물이 구동 영상의 동작을 수행하는 출력물을 생성합니다.

  • 참조 이미지 업로드(피사체)
  • 구동 영상 제공(동작 템플릿)
  • 모델이 퍼포먼스 합성
  • 텍스트-비디오 기능은 향후 업데이트 예정

립싱크 시스템이 특히 뛰어납니다. 스크립트나 오디오 트랙을 입력하면 일치하는 입 모양을 생성합니다. 별도의 제스처 정렬 알고리즘이 음성 리듬과 감정적 톤에 맞춰 신체 언어를 동기화합니다. 결과는 어떨까요? 인물이 단순히 입을 움직이는 것이 아니라 실제로 그 말을 하는 것처럼 보이는 영상입니다.

💡

CraftStory는 모델을 위해 특별히 촬영된 독점 고프레임 레이트 영상으로 학습했습니다. 일반적인 30fps YouTube 클립은 손가락과 같은 세밀한 부분에 대해 모션 블러가 너무 많습니다. 더 깨끗한 학습 데이터를 위해 스튜디오를 고용하여 더 높은 프레임 레이트로 배우를 촬영했습니다.

출력물: 실제로 얻을 수 있는 것

기능
  • 최대 5분 연속 영상
  • 480p 및 720p 네이티브 해상도
  • 720p를 1080p로 업스케일 가능
  • 가로 및 세로 형식
  • 동기화된 입 모양
  • 자연스러운 제스처 정렬
제한사항
  • 비디오 대 비디오만 가능(아직 텍스트-비디오 없음)
  • 구동 영상 입력 필요
  • 낮은 해상도 30초에 약 15분 소요
  • 현재 정적 카메라(이동 카메라는 출시 예정)

생성에는 저해상도 30초 클립의 경우 약 15분이 걸립니다. 일부 모델이 제공하는 거의 즉각적인 생성보다는 느리지만, 그 대가로 연결되지 않는 아름다운 조각이 아닌 일관성 있는 장편 출력물을 얻을 수 있습니다.

크리에이터에게 중요한 이유

5분이라는 장벽은 임의적인 것이 아닙니다. 이것은 AI 영상이 실제 콘텐츠에 유용해지는 기준점입니다.

10초

소셜 클립

TikTok 스니펫과 광고에는 좋지만 스토리텔링이 제한적

30초

짧은 설명 영상

빠른 제품 데모나 개념 설명에 충분

2-5분

실제 콘텐츠

YouTube 튜토리얼, 교육 영상, 프레젠테이션, 내러티브 콘텐츠

미래

장편

전체 에피소드, 다큐멘터리, 교육 과정

대부분의 비즈니스 영상 콘텐츠는 2~5분 범위에 있습니다. 제품 데모, 교육 모듈, 설명 영상, 내부 커뮤니케이션 등이 이에 해당합니다. 바로 이 영역에서 CraftStory가 전문적인 사용 사례에 적합해집니다.

활용 가능한 사용 사례:

  • 처음부터 끝까지 일관된 발표자가 있는 제품 튜토리얼
  • 인재 일정 조율이 필요 없는 교육 영상
  • 대규모 맞춤형 영상 메시지
  • 가상 강사가 있는 교육 콘텐츠
  • 생성된 대변인이 있는 기업 커뮤니케이션

경쟁 환경

CraftStory는 Wrike와 Zencoder의 창립자인 Andrew Filev가 주도한 시드 펀딩으로 200만 달러를 조달했습니다. OpenAI와 Google에 투입되는 수십억 달러에 비하면 적은 금액이지만, 기술을 입증하기에는 충분합니다.

🎯

OpenCV 연결

창립 팀의 경력이 여기서 중요합니다. OpenCV는 여러 산업 분야의 컴퓨터 비전 시스템을 지원합니다. 이들은 대부분의 AI 영상 스타트업이 갖추지 못한 수준에서 시각 처리의 기본을 이해하고 있습니다.

텍스트-비디오 기능은 개발 중입니다. 이 기능이 출시되면 가치 제안이 더 명확해집니다. 5분 길이 영상을 텍스트로 설명하면, 다른 도구에서 발생하는 프레임별 품질 저하 없이 일관성 있는 출력물을 얻을 수 있습니다.

다음 단계

로드맵 기능

CraftStory는 다음과 같은 향후 기능을 발표했습니다.

  • 텍스트-비디오: 구동 영상 없이 프롬프트에서 생성
  • 이동 카메라: 팬, 줌 및 트래킹 샷
  • 걸으며 말하기: 말하면서 공간을 이동하는 피사체

양방향 디퓨전 접근 방식은 CraftStory만의 기술이 아닙니다. 다른 팀들도 채택할 가능성이 높은 패턴입니다. "오류가 앞으로 누적되는" 문제를 해결하면, 더 긴 생성은 근본적인 장벽이 아닌 엔지니어링 과제가 됩니다.

⚠️

Model 2.0은 현재 인간 중심 영상에 초점을 맞추고 있습니다. 사람이 없는 장면의 경우, 환경 또는 추상적 생성에 최적화된 도구가 여전히 필요합니다. 이것은 범용 도구가 아닌 전문 도구입니다.

더 큰 그림

AI 영상이 어색한 청소년기를 거치고 있는 것을 지켜보고 있습니다. 모델은 멋진 10초 클립을 생성할 수 있지만, 몇 분에 걸쳐 일관성을 유지하라고 요구하면 무너집니다. CraftStory의 양방향 접근 방식은 이 문제에 대한 하나의 답입니다.

진짜 질문은 이 기술이 대형 업체들에 의해 채택되기까지 얼마나 걸릴까 하는 것입니다. OpenAI, Google, Runway 모두 유사한 아키텍처를 구현할 수 있는 리소스를 가지고 있습니다. CraftStory의 강점은 실용적인 장편 생성으로 시장에 먼저 진출했다는 것입니다.

현재로서는 인간 피사체가 있는 일관성 있는 다중 분 AI 영상 콘텐츠가 필요한 경우, CraftStory가 유일한 선택지입니다. 지속 시간 장벽이 아직 깨지지는 않았지만, 누군가가 그것에 심각한 균열을 냈습니다.

🚀

체험하기

CraftStory Model 2.0을 지금 이용할 수 있습니다. 가격 구조는 공개적으로 자세히 설명되지 않았으므로, 현재 제공 사항은 웹사이트에서 확인해야 합니다. 텍스트-비디오 기능이 출시되면 기존 구동 영상 콘텐츠가 없는 사용자도 플랫폼에 접근할 수 있게 됩니다.

Henry

Henry

크리에이티브 기술자

AI와 예술이 만나는 지점을 탐구하는 로잔 출신 크리에이티브 기술자입니다. 전자 음악 세션 사이사이 생성 모델을 실험합니다.

이 글이 마음에 드셨나요?

더 많은 인사이트를 발견하고 최신 콘텐츠 소식을 받아보세요.

CraftStory Model 2.0: 양방향 디퓨전을 통해 5분 길이 AI 영상을 구현하는 방법