연구

실시간 음성 복제

2025년 4월 23일

아나스타시아 헤루스에 의해

zero-shot 가창 음성 변환 기술을 적용한 최초의 제품인 인스턴트 보이스 클로닝(IVC)kits.ai에서 이제 만나보실 수 있습니다. IVC는 학습 과정 없이 단 15~30초의 참조 오디오만으로도 타의 추종을 불허하는 수준의 가수 유사도와 고품질 음성을 제공하여, 새로운 보컬 아이디어를 즉석에서 그 어느 때보다 쉽게 탐색할 수 있도록 도와줍니다.

입력

0:00/1:34

대상 가수 참조

0:00/1:34

출력

0:00/1:34

가수 유사성 연구의 주요한 진전

제로샷(zero-shot) 음성 변환에서 가장 흔히 발생하는 과제 중 하나는 전체적인 음질을 저하시키지 않으면서 기준 가창자와 설득력 있는 수준의 유사성을 달성하는 것입니다. 세 가지 주요 혁신 덕분에 IVC는 충실도와 사실성을 크게 향상시키는 동시에 유사성의 경계를 허물었습니다.

  • 스튜디오에서 녹음되고 라이선스가 확보된 보컬로 구성된 더 크고 정교하게 큐레이션된 데이터셋을 사용합니다. 당사는 더 넓은 범위의 보컬 스타일과 음색에서 성능을 향상하기 위해 데이터셋을 확장하고 정제했습니다.

  • 합성 과정에서, 특히 기준 음성의 표현력을 재현할 때 더 높은 충실도를 달성하기 위해 확산 트랜스포머(diffusion transformer) 모듈이 사용됩니다.

  • 가창 특성을 더 섬세하고 사실적으로 재현하도록 설계되고 학습된 새로운 가창 전용 보코더(vocoder)를 도입했습니다.

제로샷 음성 변환에 대한 당사의 이전 연구는 이러한 개선의 토대가 되었습니다. 인스턴트 보이스 클로닝(Instant Voice Cloning)은 멜로디, 콘텐츠, 스타일을 분리하기 위해 동일한 3부작 특징 임베딩(feature embedding) 접근 방식을 활용합니다.

이 아키텍처를 통해 단 몇 초의 기준 오디오만으로 입력 파일의 보컬 정체성과 표현력을 놀라운 정확도로 변환할 수 있습니다.

고품질의 라이선스 데이터로 학습되었습니다

언제나 그렇듯, 당사는 당사가 만드는 모든 것에 품질과 아티스트에 대한 존중을 우선시합니다. 인스턴트 보이스 클로닝(Instant Voice Cloning) 시스템은 아티스트로부터 직접 라이선스를 취득하고 스튜디오에서 녹음된 보컬 데이터 세트를 기반으로 훈련되었습니다. 모든 보컬 스템은 릴리스 수준의 품질 표준을 충족하기 위해 전문 오디오 엔지니어가 직접 가공했습니다. 이를 통해 당사의 모델이 단순히 기술적으로 뛰어날 뿐만 아니라 아티스트가 신뢰할 수 있게 보장합니다.

지금 시도해 보세요

IVC는 제한된 기간 동안 모든 사용자에게 무료로 제공됩니다. — 지금 사용해 보세요.