AI 보컬 사용 시 피해야 할 흔한 실수

쓰기, 작곡가 및 프로듀서 샘 키어니가 편집한 AI 보컬 변환을 최대한 활용하는 가장 좋은 팁과 요령을 위한 읽을 거리를 확인하세요.

작성자

키츠 팀 (Kits Team)

게시됨

2024년 8월 23일

링크 복사

복사됨

소개

인공지능의 발전 덕분에音乐 및 프로듀서들에게 AI 보컬 AI를 도입하는 것은 흥미롭고 혁신적인 도구가 되었습니다. 모든 새로운 기술이 그렇듯, 좋은 결과를 얻으려면 미세 조정이 필요합니다. Kits에서는 정확하고 현실적인 AI 보컬 모델 학습을 위한 이상적인 설정을 만들기 위해 데이터 세트를 처리합니다. 그동안 저는 AI 생성 보컬의 성능을 저해하는 몇 가지 일반적인 실수들을 발견했습니다. 이 글에서는 이러한 실수를 피하고 AI 보컬 모델을 최적화하는 팁을 알려드리겠습니다.

레벨과 다이내믹스

사람의 목소리는 지문과 마찬가지로 고유한 음색과 감정적인 뉘앙스를 가지고 있습니다. 노래는 대개 고조된 감정 표현의 한 형태이며, 자연스럽게 음량의 크기가 달라질 수 있습니다. 보컬을 녹음할 때 이러한 변화는 흔히 마이크 물리적 컨트롤과 컴프레서를 사용하여 제어합니다. 경험 많은 세션 싱어들은 음량이 큰 부분에서 마이크와의 거리를 조절하여 스스로 음량을 조절하는 "셀프 컴프레션"을 하기도 합니다. 하지만 이 기술을 사용하더라도 보통 균형 잡힌 믹스를 유지하기 위해서는 추가적인 컴프레션이 필요합니다.

자연스러운 컴프레션이 곡에 도움이 되는 것처럼, 마찬가지로 AI 보컬 모델의 학습 과정도 향상시킵니다. Kits AI에서는 다이내믹 레인지가 조절된 보컬 트랙이 보컬 클로닝에서 더 나은 결과를 낳는다는 것을 확인했으며, 특히 처리를 위해 고급 소프트웨어를 사용할 때 더욱 그렇습니다. 제가 보컬 학습을 준비하는 개인적인 팁은, 트랙을 DAW로 가져와 추가적인 컴프레션을 적용하기 전에 클립 게인(clip gain)을 사용해 지나치게 치우친 부분들의 레벨을 먼저 평탄하게 맞추는 것입니다. 이렇게 하면 컴프레서가 부자연스러운 소리를 내지 않고 효율적으로 작동하게 됩니다.

아래 이미지에서 위쪽 트랙은 오리지널 데이터 세트를 나타내고, 아래쪽 트랙은 제가 레벨링을 조정한 모습을 보여줍니다.

이 방식을 사용하면 가벼운 수준의 컴프레션만 필요하게 됩니다. 게인 리덕션(gain reduction)을 3~5dB 이하로 유지할 것을 권장합니다.

최적의 결과를 위해 평균 볼륨 레벨은 -12dB를 타겟으로 하고, 피크치(peak)는 -6dB를 넘지 않도록 합니다. 이렇게 하면 머신 러닝에 훌륭한 토대가 마련되어 더 사실적인 AI 음성 모델을 만들 수 있습니다.

디에싱(De-ess)을 통한 치찰음 감소

"s", "t", "z" 등의 자음으로 인해 발생하는 거친 치찰음은 보컬 녹음에서 집중을 방해하고 불쾌감을 줄 수 있습니다. FabFilter의 Pro-DS와 같은 디에서는 이렇듯 거친 고음역 소리를 억제하는 데 필수적입니다. 이를 통해 AI 음성 모델이 이러한 거친 요소들을 고대로 복제하도록 학습하지 않게 만들어, 더욱 부드럽고 전문적인 아웃풋을 얻을 수 있습니다.

EQ: 주파수 대역의 균형 잡기

이퀄라이징(EQ)은 보컬 녹음의 사운드를 형성하는 데 매우 중요한 역할을 합니다. 음악적 콘텐츠에 따라 구체적인 EQ 설정은 다를 수 있지만, 균형이 잘 잡힌 EQ는 AI 음성 복제의 품질을 크게 향상시키며 향후 사용될 AI 음성 모델의 다양한 컨텍스트와 장르를 위한 훌륭한 출발점이 되어 줍니다.

보컬 톤에 기여하지 않는 불필요한 저역대 주파수를 제거하기 위해 로우 컷(로 패스 아님) 하이패스 필터를 먼저 시작하세요. 단, 100Hz 이상으로 깎을 때는 주의해야 합니다. 보컬 음색의 손상을 초래할 수도 있기 때문입니다.

반대쪽 음역대에서는, 상대적으로 저렴한 마이크를 사용해 발생할 수 있는 거친 고음역 주파수를 주의하세요. 모든 사람이 녹음을 위해 빈티지 Neumann 마이크를 사용할 수 있는 것은 아닙니다(저를 포함해서 말이죠). 로우패스 필터는 보통 20kHz 부근 및 그 이상의 초고역대 주파수를 다듬는 데 도움이 될 수 있습니다.

부드럽고 따뜻한 음색으로 유명한 Pultec EQP-1A 등의 EQ를 사용하는 것은 저역대의 불필요한 울림을 제거하고 날카로운 고역대를 부드럽게 다듬는 데 훌륭한 선택입니다.

피치 보정: 사용 시기와 방법

피치 보정 툴은 현대 음악 프로덕션에서 흔히 효과음처럼 사용되곤 합니다. 하지만, AI 음성 모델을 학습시킬 때는 보컬을 원래 그대로 자연스럽게 유지하고 피치 보정은 보컬이 이미 클로닝된 후에 적용하는 것을 권장합니다. 이 접근 방식은 AI 모델의 사실성을 유지하고, 향후 보다 자연스러운 사운드가 필요한 프로젝트를 작업할 때 유연성을 제공합니다.

다양한 보컬: 소스 데이터의 확장

AI 보컬 학습에서 가장 흔히 저지르는 실수 중 하나는 바로 보컬 데이터 세트의 다양성 부족입니다. 머신 러닝 모델은 오직 제공된 소스 데이터 세트를 통해서만 학습을 할 수 있으며, 한정된 데이터 세트는 제한적인 수준의 모델만 만듭니다. 구체적으로 말씀드리면, 가수들이 한 곡만 계속 반복해서 부른 오디오 파일들을 제출받은 적이 있습니다. 비록 그 한 곡에서는 훌륭한 결과를 보여줄 수 있겠지만, 그들이 더 높거나 낮은 음을 낼 수 있고 더 강렬하거나 정교한 질감을 낼 수 있다는 점을 알고 있습니다. 하지만 이러한 정보는 데이터 세트에 포함되지 않았기 때문에 학습을 할 수 없게 됩니다. 결과적으로 이 AI 보컬 모델은 매우 한정된 연출만 가능하게 됩니다.

다재다능한 멀티 플레이어 AI 보컬을 만들기 위해서, 학습 소스에 다양한 보컬 퍼포먼스를 포함시키세요. 실제 아티스트의 기량을 모방할 수 있도록 진성과 가성을 포함해 여러 음역대, 감정이 담긴 표현, 그리고 다양한 보컬 테크닉이 포함되어야 합니다. 최소 기준은 15분의 오디오 파일이지만, 보컬리스트의 모든 역량을 완벽하게 훈련할 수 있도록 최대 30분을 모두 사용하는 것을 권장합니다.

빈 무음 구간 제거하기

제출해주시는 보컬 데이터 중에는 한 곡 전체의 완벽한 아카펠라 형식인 경우가 많습니다. 머신 러닝 프로세스는 보컬 퍼포먼스를 분석하는 데만 관심이 있기 때문에, 연주 파트 등의 긴 무음 구간은 데이터 세트에서 불필요하게 가치 있는 용량과 시간만 잡아먹습니다. AI 음성 모델을 최적화하기 위해, 위의 저의 예시에서 본 것처럼 보컬이 없는 논-보컬 구간을 제거하고 오디오가 지속적으로 재생되도록 처리해 주세요. 이 방식은 학습 데이터를 최대한 극대화하여 머신 러닝이 최대한의 품질을 유지할 수 있도록 도와줄 것입니다.

오디오 파일을 트루 모노(Mono)로 출력하기

마지막으로, 보컬 트랙은 항상 트루 모노 트랙으로 추출해 주세요. 스테레오 트랙으로 보낼 경우(모노로 녹음된 파일이라 할지라도) 불필요하게 두 배의 데이터를 읽게 되어 학습 속도와 가용 소스에 지장을 줄 수 있습니다. 최상의 보컬 클로닝 결과를 얻기 위해서는, Kits.AI에 업로드하기 전 트랙을 모노로 변환하여 학습할 수 있는 소스 효율을 극대화하십시오.

결론

이 팁들을 준수한다면 흔히 일어나는 AI 보컬의 실수들을 예방하고 이 강력한 도구의 진정한 포텐셜을 완벽하게 뽑아낼 수 있습니다. 기억해 주십시오. AI는 예술을 부리는 주체가 아니라, 예술을 함께하는 도구일 뿐입니다. 모든 새로운 기술들과 마찬가지로 이 도구에도 어느 정도 러닝 커브가 존재하지만 올바르게 접근한다면 AI 보컬을 당신의 음악에 활용하여 더 넓은 지평을 열 수 있을 것입니다.

제목

시작하세요, 무료로.

스튜디오 품질의 AI 오디오 도구로 음성 제작 워크플로를 간소화하세요.

시작하기