Meta Pixel
AlexisAlexis
13 min read
940 단어

Kandinsky 5.0: 러시아의 오픈소스 AI 영상 생성 기술

Kandinsky 5.0는 Apache 2.0 라이선스로 소비자용 GPU에서 10초 영상 생성을 실현합니다. NABLA attention과 flow matching이 이를 가능하게 하는 기술을 소개합니다.

Kandinsky 5.0: 러시아의 오픈소스 AI 영상 생성 기술
AI 혁신의 지리적 분포가 계속 변화하고 있습니다. 미국 연구소들이 더 큰 모델을 추구하고 중국 기업들이 오픈소스 리더보드를 장악하는 가운데, 러시아 팀이 가장 접근하기 쉬운 AI 영상 생성기를 조용히 출시했습니다. 바로 Kandinsky 5.0입니다.

오픈소스 영상 생성의 전환점

ByteDance가 영상 이해 모델을 오픈소스화하고 Tencent가 HunyuanVideo를 출시했을 때, 변화의 첫 신호가 나타났습니다. 이제 Sberbank의 지원을 받는 Kandinsky Lab이 Apache 2.0 라이선스로 누구나 실행하고 수정하며 상업적으로 활용할 수 있는 완전한 모델 패밀리를 출시했습니다.

10초
영상 길이
12GB
최소 VRAM
Apache 2.0
라이선스

이것은 연구 프리뷰나 제한된 API가 아닙니다. 전체 가중치, 학습 코드, 추론 파이프라인이 GitHub과 Hugging Face에서 공개되어 있습니다.

모델 패밀리

💡

확산 아키텍처에 대한 자세한 내용은 확산 트랜스포머에 대한 심층 분석을 참조하세요.

Kandinsky 5.0은 단일 모델이 아니라 3개의 모델 패밀리입니다.

Video Lite (20억 파라미터)

소비자용 하드웨어를 위한 경량 옵션입니다. 768×512 해상도, 24fps로 510초 영상을 생성합니다. 메모리 오프로딩으로 12GB VRAM에서 작동합니다. 증류된 16단계 변형은 H100에서 5초 클립을 3560초 만에 생성합니다.

Video Pro (190억 파라미터)

최고 품질을 위한 풀 모델입니다. 1280×768, 24fps의 HD 영상을 출력합니다. 데이터센터급 GPU가 필요하지만 폐쇄형 대안과 경쟁할 수 있는 결과를 제공합니다.

60억 파라미터의 Image Lite 모델은 1280×768 또는 1024×1024 해상도의 정지 이미지 생성을 지원합니다.

기술 아키텍처

Kandinsky 5.0의 엔지니어링 결정은 벤치마크 경쟁보다 실용적인 배포에 중점을 둔 팀의 모습을 보여줍니다.

기반 기술: 확산보다 Flow Matching

기존 확산 모델은 노이즈를 추가하는 프로세스를 단계별로 역전시키는 것을 학습합니다. Flow Matching은 다른 접근 방식을 취합니다. 연속적인 플로우 필드를 통해 노이즈에서 이미지로 가는 직접 경로를 학습합니다. 장점은 상당합니다.

Flow Matching의 장점
더 나은 학습 안정성, 빠른 수렴, 추론 시 더 예측 가능한 생성 품질을 제공합니다.
트레이드오프
신중한 경로 설계가 필요합니다. 팀은 노이즈와 목표 분포 간의 거리를 최소화하는 최적 수송 경로를 사용합니다.

NABLA: 긴 영상을 가능하게 하는 기술

진정한 혁신은 NABLA(Neighborhood Adaptive Block-Level Attention)입니다. 표준 트랜스포머 어텐션은 시퀀스 길이에 따라 제곱으로 확장됩니다. 영상의 경우 이것은 치명적입니다. 24fps의 10초 클립에는 240개의 프레임이 포함되며, 각 프레임에는 수천 개의 공간 패치가 있습니다. 모든 것에 대한 전체 어텐션은 계산상 불가능합니다.

NABLA는 희소 어텐션 패턴을 통해 이 문제를 해결합니다. 모든 프레임의 모든 패치에 어텐션을 주는 대신 다음에 계산을 집중합니다.

  1. 각 프레임 내의 로컬 공간 이웃
  2. 인접 프레임 간의 시간적 이웃
  3. 장거리 일관성을 위한 학습된 글로벌 앵커

결과는 제곱이 아닌 영상 길이에 거의 선형으로 확장됩니다. 이것이 소비자용 하드웨어에서 10초 생성을 가능하게 만듭니다.

💡

비교하자면, 대부분의 경쟁 모델은 전문 하드웨어 없이 5초를 넘는 영상 생성에 어려움을 겪습니다.

HunyuanVideo 기반 활용

모든 것을 처음부터 학습하는 대신, Kandinsky 5.0은 Tencent의 HunyuanVideo 프로젝트에서 3D VAE를 채택합니다. 이 인코더-디코더는 확산 프로세스가 작동하는 압축된 잠재 공간과 픽셀 공간 간의 변환을 처리합니다.

텍스트 이해는 비전 언어 모델인 Qwen2.5-VL과 의미론적 그라운딩을 위한 CLIP 임베딩의 조합에서 나옵니다. 이 이중 인코더 접근 방식은 프롬프트가 암시하는 문자 그대로의 의미와 시각적 스타일을 모두 이해할 수 있게 합니다.

성능: 현재 위치

팀은 Video Lite를 동일한 파라미터 클래스의 오픈소스 모델 중 최고 성능으로 평가합니다. 벤치마크 결과는 다음과 같습니다.

모델파라미터최대 길이VRAM (5초)
Kandinsky Video Lite20억10초12GB
CogVideoX-2B20억6초16GB
Open-Sora 1.211억16초18GB

12GB VRAM 요구사항은 소비자용 RTX 3090 및 4090 카드에서의 배포를 가능하게 하며, 이는 중요한 접근성 이정표입니다.

품질 비교는 수치화하기 어렵습니다. 사용자 보고서에 따르면 Kandinsky는 CogVideoX보다 더 일관된 모션을 생성하지만 사실성에서는 HunyuanVideo에 뒤처집니다. 16단계 증류 모델은 속도를 위해 일부 세부 사항을 희생하며, 이는 프로토타이핑에는 잘 작동하지만 최종 프로덕션 요구를 충족하지 못할 수 있습니다.

로컬에서 Kandinsky 실행하기

프로젝트는 ComfyUI 노드와 독립 실행형 스크립트를 제공합니다. 기본 텍스트-투-비디오 워크플로우는 다음과 같습니다.

from kandinsky5 import Kandinsky5VideoLite
 
model = Kandinsky5VideoLite.from_pretrained("kandinskylab/Kandinsky-5.0-T2V-Lite")
model.enable_model_cpu_offload()  # 12GB 카드용
 
video = model.generate(
    prompt="A mountain lake at dawn, mist rising from still water",
    num_frames=120,  # 24fps에서 5초
    guidance_scale=7.0,
    num_inference_steps=16
)
video.save("output.mp4")

메모리 오프로딩은 추론 중에 모델 가중치를 CPU와 GPU 간에 이동시킵니다. 이는 속도를 접근성과 교환하여 더 작은 카드에서 더 큰 모델을 실행할 수 있게 합니다.

Sberbank와의 연결

Kandinsky Lab은 러시아 최대 은행인 Sberbank의 인공지능 부서인 Sber AI 산하에서 운영됩니다. 이 지원은 프로젝트 배후의 상당한 리소스를 설명합니다. 독점 데이터에 대한 다단계 학습, 강화 학습 후처리, 완전한 프로덕션 파이프라인을 오픈소스화하는 엔지니어링 노력입니다.

지정학적 맥락은 복잡성을 더합니다. 서구 개발자들은 러시아 출처 모델을 피하라는 조직적 압력에 직면할 수 있습니다. Apache 2.0 라이선스는 법적으로 명확하지만, 조직 정책은 다양합니다. 개인 개발자와 소규모 스튜디오에게는 계산이 더 간단합니다. 좋은 기술은 좋은 기술입니다.

⚠️

귀하의 특정 관할권과 사용 사례에 대한 라이선스 및 수출 규정 준수를 항상 확인하세요.

실용적인 응용 사례

10초 길이와 소비자용 하드웨어 요구사항은 특정 사용 사례를 열어줍니다.

🎬

소셜 콘텐츠

TikTok, Reels, Shorts용 단편 영상. API 비용 없이 빠른 반복이 가능합니다.
🎨

컨셉 시각화

감독과 프로듀서가 비용이 많이 드는 프로덕션 전에 장면을 프로토타입할 수 있습니다.
🔧

커스텀 학습

Apache 2.0 라이선스로 독점 데이터셋에 대한 파인튜닝이 가능합니다. 도메인에 특화된 모델을 구축하세요.
📚

연구

가중치와 아키텍처에 대한 전체 액세스로 영상 생성 기술의 학술 연구가 가능합니다.

앞으로의 전망

Kandinsky 5.0은 더 넓은 트렌드를 나타냅니다. 오픈소스와 폐쇄형 영상 생성 간의 격차가 줄어들고 있습니다. 1년 전, 오픈 모델은 명백한 아티팩트가 있는 짧고 저해상도 클립을 생성했습니다. 오늘날, 소비자용 하드웨어의 20억 파라미터 모델이 2023년에는 불가능해 보였을 10초 HD 영상을 생성합니다.

경쟁은 끝나지 않았습니다. Sora 2Runway Gen-4.5와 같은 폐쇄형 선두주자들은 여전히 품질, 길이, 제어성에서 앞서 있습니다. 하지만 기준이 높아지고 있습니다. 많은 애플리케이션에서 오픈소스는 이제 충분히 좋습니다.

결론

Kandinsky 5.0은 모든 벤치마크에서 1위를 차지하지는 않지만, 가장 중요한 부분에서 성공했습니다. 실제 사람들이 소유한 하드웨어에서 실제 영상 생성을 실행하고, 실제 상업적 사용을 허용하는 라이선스로 제공됩니다. AI 영상의 민주화 경쟁에서 러시아 팀은 방금 결승선을 더 가깝게 옮겼습니다.

오픈소스 영상 생성을 탐색하는 개발자들에게 Kandinsky 5.0은 후보 목록에 올릴 가치가 있습니다.

이 글이 도움이 되었나요?

Alexis

Alexis

AI 엔지니어

연구 깊이와 실용적 혁신을 결합하는 로잔 출신 AI 엔지니어입니다. 모델 아키텍처와 알프스 산봉우리 사이에서 시간을 보냅니다.

관련 글

관련 글을 더 살펴보세요

이 글이 마음에 드셨나요?

더 많은 인사이트를 발견하고 최신 콘텐츠 소식을 받아보세요.

Kandinsky 5.0: 러시아의 오픈소스 AI 영상 생성 기술