2024년 8월 23일
AI 보컬 사용 시 피해야 할 흔한 실수
샘 키어니
소개
AI 보컬을(를) 음악에 통합하는 것은 뮤지션과 프로듀서를 위한 흥미롭고 혁신적인 도구입니다. 이는 인공지능의 발전 덕분입니다. 새로운 기술처럼 최상의 결과를 얻으려면 약간의 조정이 필요합니다. Kits.AI에서는 정확하고 현실적인 AI 보컬 모델 훈련을 위한 이상적인 설정을 생성하기 위해 데이터 세트를 처리합니다. 시간이 지나면서 AI로 생성된 보컬의 성능을 저해할 수 있는 일반적인 실수를 발견했습니다. 이 기사에서는 이러한 함정을 강조하고 AI 보컬 모델을 최적화하는 방법에 대한 팁을 제공합니다.
레벨과 다이내믹
인간의 목소리는 지문처럼 독특하며, 고유한 음색과 감정적 뉘앙스를 가지고 있습니다. 노래는 일반적으로 감정 표현의 고조된 형태이며 자연스럽게 소리의 강도가 변할 수 있습니다. 보컬을 녹음할 때 이러한 변화를 관리하는 데 보통 마이크 기술과 컴프레서가 사용됩니다. 경험이 풍부한 세션 가수들은 소리의 강한 부분에서 마이크와의 거리 조정을 통해 스스로 압축할 수 있습니다. 그러나 이 기술을 사용하더라도 균형 잡힌 믹스를 유지하기 위해 추가 압축이 일반적으로 필요합니다.
자연 압축이 노래에 도움이 되는 것처럼, AI 보컬 모델의 훈련 과정도 향상됩니다. Kits.AI에서는 제어된 다이내믹 레인지를 가진 보컬 트랙이 보컬 클로닝에 있어 더 나은 결과를 생성한다는 것을 발견했습니다. 특히 처리에 고급 소프트웨어를 사용할 때 그렇습니다. 제가 보컬을 훈련하기 위해 준비하는 개인적인 기술은 트랙을 DAW에 가져오고, 어떤 추가 압축을 적용하기 전에 극단적인 구간의 레벨을 조정하는 것입니다. 이를 통해 컴프레서가 비정상적인 소리를 도입하지 않고 효율적으로 작동할 수 있도록 보장합니다.
아래 이미지에서 맨 위 트랙은 원본 데이터 세트를 보여주고, 맨 아래 트랙은 제 레벨링 조정을 보여줍니다:
이 접근 방식을 사용하면 압축을 가볍게 처리할 수 있습니다. 3-5 dB의 게인 감소가 넘지 않기를 권장합니다.
최적의 결과를 위해 평균 볼륨 레벨을 -12 dB로 설정하고 피크는 -6 dB를 넘지 않도록 합니다. 이는 기계 학습을 위한 훌륭한 기반을 제공하고 보다 현실적인 AI 음성 모델을 생성합니다.
거슬리는 시빌런스 줄이기
“s”, “t”, “z”와 같은 자음으로 인해 발생하는 거슬리는 시빌런스는 보컬 녹음에서 주의가 산만하게 하고 불쾌할 수 있습니다. FabFilter의 Pro-DS와 같은 디-에서서는 이러한 밝은 소리를 제어하는 데 필수적입니다. 이러한 잔여 요소로 인해 AI 음성 모델이 이러한 거친 요소를 복제하는 훈련을 받지 않도록 보장하여 더욱 부드럽고 전문적인 출력을 얻을 수 있습니다.
EQ: 스펙트럼 균형 맞추기
이퀄라이제이션(EQ)은 보컬 녹음의 사운드를 형성하는 데 중요한 역할을 합니다. 특정 EQ 설정은 음악 콘텐츠에 따라 다를 수 있지만, 잘 균형 잡힌 EQ는 AI 음성 모델의 품질을 크게 향상시키고 AI 음성 모델이 존재할 컨텍스트와 장르를 위한 훌륭한 출발점을 제공합니다.
불필요한 저주파 주파수를 제거하기 위해 하이 패스 필터로 시작하세요. 그러나 100 Hz 이상을 넘을 때는 주의해야 합니다. 이는 보컬 음색의 중요한 요소를 제거할 수 있습니다.
스펙트럼의 다른 쪽 끝에서는, 더 저렴한 마이크에서 도입될 수 있는 거친 고주파 주파수에 주의하세요. 모든 사람이 빈티지 Neumann 마이크로 노래 부르지 않습니다(저를 포함해서). 로우 패스 필터는 일반적으로 20 kHz 이상에서 이러한 주파수를 다스리는 데 도움이 됩니다.
부드럽고 따뜻한 특성으로 알려진 Pultec EQP-1A와 같은 EQ를 사용하면 저주파의 울림을 정리하고 고주파를 부드럽게 하는 데 좋습니다.
피치 보정: 언제 어떻게 사용할까
피치 보정 도구는 Antares Auto-Tune의 무료 버전과 같이 현대 음악 제작에서 효과로 자주 사용됩니다. 그러나 AI 음성 모델 훈련에 대해서는 보컬을 자연스럽게 유지하고 보컬이 이미 클로닝된 후에 피치 보정을 적용하는 것을 권장합니다. 이 접근 방식은 AI 모델의 현실성을 유지하고 미래의 프로젝트에 더 자연스러운 사운드를 요구할 수 있는 유연성을 제공합니다.
보컬 다양성: 자료 확장하기
AI 보컬 훈련에서 가장 일반적인 실수 중 하나는 보컬 데이터 세트의 다양성 부족입니다. 기계 학습 모델은 제공된 자료로만 훈련할 수 있으므로 제한된 데이터 세트는 제한된 보컬 모델을 초래합니다. 구체적으로, 저는 한 노래를 반복해서 부르는 가수들의 제출물을 받은 적이 있습니다. 그들이 그 한 곡에서 훌륭하게 들릴 수는 있지만, 고음과 저음을 넘는 더 많은 강렬하고 부드러운 보컬 뉘앙스를 발휘할 수 있다는 것을 알고 있습니다. 하지만 기계 학습은 이러한 추가 정보를 접근할 수 없기 때문에 그들의 보컬 모델에 포함되지 않습니다. 결과적으로 AI 음성 모델은 매우 제한적인 사용 사례를 제공합니다.
다양한 AI 음성을 생성하기 위해 교육 자료에 다양한 보컬 공연을 포함하세요. 이는 다양한 음조, 감정 표현 및 보컬 기술을 포함해야 하며, 자연 아티스트의 다양성을 모방할 수 있도록 가슴 목소리와 팔세토 목소리 모두를 포함해야 합니다. 최소 요구 사항은 15분의 오디오이지만 가수의 능력의 전 범위를 포착하기 위해 30분 전체를 활용할 것을 권장합니다.
빈 공간 제거하기
보컬 제출물은 종종 노래의 전체 아카펠라 버전입니다. 기계 학습 과정은 보컬 성능 분석에만 관심 있기 때문에, 전체 노래의 악기 구간 같은 긴 빈 공간은 불필요하고 데이터 세트에서 소중한 시간을 차지합니다. AI 음성 모델을 최적화하기 위해 비보컬 섹션을 제거하고 오디오가 연결되어 있는지 확인하세요. 이는 위의 초기 예시에서 보여줍니다. 이 접근 방식을 활용하면 훈련 데이터를 극대화하고 모델이 가능한 한 많은 현실감을 유지하게 할 수 있습니다.
오디오를 진정한 모노로 내보내기
마지막으로, 보컬 스템을 항상 진정한 모노 트랙으로 내보내세요. 스테레오 트랙을 제출하면 녹음이 모노였더라도 인식된 데이터가 두 배가 되어 훈련에 사용할 수 있는 자료의 양이 줄어듭니다. 최고의 보이스 클로닝 결과를 얻으려면 업로드하기 전에 보컬 트랙을 모노로 바운스하여 모델이 훈련할 수 있는 자료의 양을 극대화하세요.
결론
이 팁을 따르면 일반적인 AI 보컬 실수를 피하고 이 강력한 도구의 잠재력을 최대한 활용할 수 있습니다. 기억하세요, AI는 창작 도구가 아니라 창작자의 도구입니다. 모든 새로운 도구와 신기술과 마찬가지로 학습 곡선이 있지만, 올바른 접근 방식을 통해 AI 보컬을 음악에 통합하면 한때 상상할 수 없었던 새로운 가능성을 열 수 있습니다.
-SK
샘 커니는 콜로라도 에버그린에서 활동하는 프로듀서, 작곡가 및 사운드 디자이너입니다.