Meta Pixel
HenryHenry
12 min read
817 단어

Alibaba Wan2.6: 레퍼런스-투-비디오가 AI 생성 세계에 당신의 얼굴을 넣습니다

Alibaba의 최신 AI 비디오 모델이 레퍼런스-투-비디오 생성을 도입하여 AI가 만든 콘텐츠에 자신의 모습과 목소리를 사용할 수 있게 되었습니다. 크리에이터에게 이것이 의미하는 바를 알아보세요.

Alibaba Wan2.6: 레퍼런스-투-비디오가 AI 생성 세계에 당신의 얼굴을 넣습니다

일반적인 AI 아바타는 잊으세요. Alibaba가 Wan2.6을 출시했고, 핵심 기능으로 참조 이미지나 음성 클립만으로 AI 생성 비디오에 자신을 삽입할 수 있습니다. 그 파급력은 놀랍습니다.

레퍼런스 혁명

텍스트-투-비디오는 AI 비디오 생성 초기부터 표준 패러다임이었습니다. 프롬프트를 입력하면 비디오를 얻습니다. 간단하지만 한계가 있죠. 광범위한 파인튜닝이나 LoRA 학습 없이는 자신처럼 만들 수 없었습니다.

Wan2.6이 이 공식을 완전히 바꿉니다.

💡

레퍼런스-투-비디오란 AI가 텍스트 프롬프트와 함께 실제 외모, 목소리 또는 둘 다를 컨디셔닝 입력으로 사용한다는 것을 의미합니다. 당신은 생성 과정에서 캐릭터가 됩니다. 부수적인 존재가 아닙니다.

2025년 12월 16일에 출시된 Wan2.6은 AI 비디오 분야에서 Alibaba의 공격적인 진출을 보여줍니다. 이 모델은 여러 크기(1.3B 및 14B 파라미터)로 제공되며 경쟁사와 차별화되는 세 가지 핵심 기능을 도입합니다.

Wan2.6이 실제로 하는 일

14B
파라미터
720p
네이티브 해상도
5-10s
비디오 길이

이 모델은 세 가지 별도 모드로 작동합니다:

📝

텍스트-투-비디오

향상된 모션 품질과 시간적 일관성을 갖춘 표준 프롬프트 기반 생성.

🖼️

이미지-투-비디오

모든 정지 이미지를 일관된 비디오 시퀀스로 애니메이션화.

👤

레퍼런스-투-비디오

생성된 콘텐츠 전체에 걸쳐 자신의 외모를 지속적인 캐릭터로 사용.

레퍼런스-투-비디오 기능이 진정 흥미로운 부분입니다. 자신(또는 어떤 피사체든)의 선명한 사진을 업로드하면 Wan2.6이 전체 생성 시퀀스에 걸쳐 유지되는 신원 특징을 추출합니다. AI가 주변에 완전히 새로운 시나리오를 만들어도 당신의 얼굴은 그대로 유지됩니다.

기술적 접근 방식

Wan2.6은 2025년 주요 모델들에서 표준이 된 디퓨전 트랜스포머 아키텍처의 변형을 사용합니다. 하지만 Alibaba의 구현에는 캐릭터 일관성에 대한 심층 분석에서 살펴본 것과 유사한 특수한 신원 보존 임베딩이 포함되어 있습니다.

💡

레퍼런스 컨디셔닝은 생성 과정의 여러 레이어에 신원 정보를 주입하는 크로스 어텐션 메커니즘을 통해 작동합니다. 이를 통해 얼굴 특징은 안정적으로 유지되면서 다른 모든 것은 자연스럽게 변할 수 있습니다.

음성 구성 요소는 음색, 피치 패턴, 말하기 리듬 등 보컬 특성을 캡처하는 별도의 오디오 인코더를 사용합니다. 시각적 레퍼런스와 결합하면 실제로 당신처럼 들리고 보이는 동기화된 오디오-비주얼 출력을 얻을 수 있습니다.

이 접근 방식은 물리 시뮬레이션과 환경적 일관성에 초점을 맞춘 Runway의 월드 모델 전략과 다릅니다. Wan2.6은 환경적 정확성보다 신원 보존을 우선시하는데, 이는 대상 사용 사례에 맞는 합리적인 절충입니다.

오픈 소스가 중요합니다

Wan2.6의 가장 중요한 측면은 Alibaba가 이를 오픈 소스로 공개했다는 것입니다. 가중치를 다운로드할 수 있어 적합한 하드웨어에서 로컬로 실행할 수 있습니다.

Wan2.6 (Open)

로컬 실행, API 비용 없음, 데이터에 대한 완전한 제어

Sora 2 / Veo 3 (Closed)

API만 가능, 생성당 비용 발생, 데이터가 제3자에게 전송됨

이는 오픈 소스 AI 비디오 혁명에서 다룬 패턴을 이어갑니다. 중국 기업들이 소비자 하드웨어에서 실행되는 강력한 모델을 공개하고 있습니다. 14B 버전은 상당한 VRAM(24GB+)이 필요하지만 1.3B 변형은 RTX 4090에서 실행할 수 있습니다.

실제로 의미 있는 사용 사례

레퍼런스-투-비디오는 이전에 불가능하거나 비용이 많이 드는 시나리오를 가능하게 합니다.

  • 대규모 개인화 마케팅 콘텐츠
  • 스튜디오 세션 없이 맞춤형 아바타 제작
  • 비디오 컨셉의 신속한 프로토타이핑
  • 접근성: 수어 아바타, 개인화된 교육

카메라 앞에 서지 않고도 자신이 출연하는 제품 데모 비디오를 만든다고 상상해 보세요. 또는 강사가 CEO의 레퍼런스 컨디션드 버전인 교육 콘텐츠를 생성할 수 있습니다. 응용 분야는 단순한 신기함을 넘어 훨씬 광범위합니다.

프라이버시 문제

분명한 우려를 다루겠습니다: 이 기술은 딥페이크에 악용될 수 있습니다.

Alibaba는 몇 가지 보호 장치를 구현했습니다. 이 모델에는 Google의 SynthID 접근 방식과 유사한 워터마킹이 포함되어 있으며, 서비스 약관에서 동의 없는 사용을 금지합니다. 하지만 이것들은 과속 방지턱일 뿐 장벽은 아닙니다.

⚠️

레퍼런스-투-비디오 기술은 책임감 있는 사용이 필요합니다. 다른 사람의 모습을 사용하기 전에 항상 동의를 얻고, AI 생성 콘텐츠에 대해 투명하게 공개하세요.

지니는 이미 병에서 나왔습니다. 여러 모델이 이제 신원 보존 생성을 제공하고, Wan2.6의 오픈 소스 특성은 누구나 이 기능에 접근할 수 있음을 의미합니다. 대화는 "이것이 존재해야 하는가"에서 "어떻게 책임감 있게 다룰 것인가"로 이동했습니다.

비교

Wan2.6은 경쟁이 치열한 시장에 진입합니다. 2025년 12월 주요 경쟁자들과 비교해 봅시다.

모델레퍼런스-투-비디오오픈 소스네이티브 오디오최대 길이
Wan2.610s
Runway Gen-4.5제한적15s
Sora 260s
Veo 3120s
LTX-210s

Wan2.6은 신원 보존을 위해 길이를 희생합니다. 60초 클립이 필요하다면 Sora 2가 여전히 최선의 선택입니다. 하지만 해당 클립에 특정 인물이 일관되게 등장해야 한다면, Wan2.6이 폐쇄형 모델에서 제공하지 않는 것을 제공합니다.

더 큰 그림

레퍼런스-투-비디오는 AI 비디오 생성에 대한 우리의 생각 방식의 변화를 나타냅니다. 질문은 더 이상 "이 비디오에서 무엇이 일어나야 하는가"만이 아니라 "누가 등장해야 하는가"입니다.

이것이 텍스트-투-비디오에서 빠져 있던 개인화 레이어입니다. 일반적인 AI 아바타는 스톡 푸티지처럼 느껴졌습니다. 레퍼런스 컨디션드 캐릭터는 당신처럼 느껴집니다.

네이티브 오디오 생성 및 개선되는 캐릭터 일관성과 결합하여, 웹캠 사진과 텍스트 프롬프트만으로 전문적인 비디오 콘텐츠를 만들 수 있는 미래에 접근하고 있습니다.

Alibaba는 신원 우선 생성이 다음 프런티어라고 베팅하고 있습니다. Wan2.6이 이제 오픈 소스로 소비자 하드웨어에서 실행되고 있으므로, 그들이 맞는지 곧 알게 될 것입니다.

💡

추가 읽기: 주요 AI 비디오 모델 비교는 Sora 2 vs Runway vs Veo 3 비교를 참조하세요. 기본 아키텍처를 이해하려면 2025년 디퓨전 트랜스포머를 확인하세요.

이 글이 도움이 되었나요?

Henry

Henry

크리에이티브 기술자

AI와 예술이 만나는 지점을 탐구하는 로잔 출신 크리에이티브 기술자입니다. 전자 음악 세션 사이사이 생성 모델을 실험합니다.

관련 글

관련 글을 더 살펴보세요

이 글이 마음에 드셨나요?

더 많은 인사이트를 발견하고 최신 콘텐츠 소식을 받아보세요.

Alibaba Wan2.6: 레퍼런스-투-비디오가 AI 생성 세계에 당신의 얼굴을 넣습니다