Erros Comuns a Evitar ao Usar Vozes de Inteligência Artificial

Escrito por
A Equipe do Kits
Publicado em
23 de agosto de 2024
Introdução
Incorporar vocais de IA em sua música é uma ferramenta emocionante e inovadora para músicos e produtores, graças aos avanços na inteligência artificial. Como qualquer nova tecnologia, exige alguns ajustes finos para obter os melhores resultados. Na Kits, processamos conjuntos de dados para criar configurações ideais para o treinamento preciso e realista de modelos de voz por IA. Ao longo do tempo, percebi erros comuns que podem prejudicar o desempenho de vocais gerados por IA. Neste artigo, destacarei esses problemas e oferecerei dicas de como otimizar seus modelos de voz por IA.

Nível e Dinâmica
A voz humana é única, muito parecida com uma impressão digital, com seu próprio timbre e nuance emocional. O canto é tipicamente uma forma elevada de expressão emocional e pode variar naturalmente em volume. Ao gravar vocais, essas variações são frequentemente gerenciadas usando técnicas de microfone e compressores. Cantores de estúdio experientes podem "auto-comprimir" ajustando a distância do microfone durante as seções de volume alto. No entanto, mesmo com essa técnica, uma compressão adicional geralmente é necessária para manter uma mixagem equilibrada.
Assim como a compressão natural beneficia as músicas, ela também aprimora o processo de treinamento para modelos de voz por IA. Na Kits AI, descobrimos que faixas vocais com uma faixa dinâmica controlada produzem melhores resultados no que diz respeito à clonagem de voz, especialmente ao usar softwares avançados para o processamento. Minha técnica pessoal para preparar um vocal para o treinamento é importar a faixa no meu DAW e usar o ganho do clipe (clip gain) para nivelar algumas das seções mais extremas antes de aplicar qualquer compressão adicional. Isso garante que o compressor funcione de forma eficiente sem introduzir sons artificiais.
Na imagem abaixo, a faixa superior mostra o conjunto de dados original, enquanto a faixa inferior ilustra meus ajustes de nivelamento:

Ao usar essa abordagem, apenas um leve toque de compressão é necessário. Recomendo não mais que 3-5 dB de redução de ganho.
Para obter resultados ideais, mire em um nível de volume médio de -12 dB com picos não superiores a -6 dB. Isso fornece uma base excelente para o aprendizado de máquina e cria modelos de voz de IA mais realistas.
De-ess para Reduzir Sibilâncias Ásperas
A sibilância áspera, causada por consoantes como "s", "t" e "z", pode ser irritante e desagradável em gravações vocais. Um de-esser, como o Pro-DS da FabFilter, é essencial para controlar esses sons brilhantes. Isso garante que seu modelo de voz por IA não seja treinado para replicar esses elementos ásperos, resultando em uma saída mais suave e profissional.

EQ: Equilibrando o Espectro
A equalização (EQ) desempenha um papel crucial na modelagem do som de uma gravação vocal. Embora as configurações específicas de EQ possam variar dependendo do conteúdo musical, um EQ bem equilibrado pode melhorar significativamente a qualidade do seu clone de voz de IA e fornecer um excelente ponto de partida para qualquer contexto e gênero em que seu modelo de voz de IA se encontre.
Comece com um filtro passa-alta para remover quaisquer frequências graves desnecessárias que não contribuem para o tom vocal. No entanto, tome cuidado ao passar de 100 Hz, pois isso pode eliminar elementos importantes do timbre vocal.
No outro extremo do espectro, fique atento a quaisquer frequências agudas ásperas que possam ser introduzidas por microfones mais acessíveis. Nem todo mundo tem um Neumann vintage para cantar (inclusive eu). Um filtro passa-baixa pode ajudar a domar essas frequências, tipicamente em torno de 20 kHz ou acima.
Usar um EQ como o Pultec EQP-1A, conhecido por seu caráter suave e caloroso, é uma excelente escolha para limpar o ruído sutil dos graves e suavizar os agudos.

Correção de Afinação: Quando e Como Usar
Ferramentas de correção de afinação são frequentemente usadas como efeito na produção musical moderna. No entanto, ao treinar um modelo de voz por IA, recomendo manter os vocais naturais e aplicar a correção de afinação após o vocal já ter sido clonado. Essa abordagem mantém o realismo do seu modelo de IA e oferece flexibilidade para futuros projetos que possam exigir um som mais natural.
Variedade Vocal: Amplie Seu Material de Origem
Um dos erros mais comuns no treinamento vocal por IA é a falta de variedade no conjunto de dados vocais. Modelos de aprendizado de máquina só podem treinar a partir do material fornecido, portanto, um conjunto de dados limitado resulta em um modelo vocal limitado. Para detalhar, recebi envios que incluem cantores interpretando a mesma música repetidamente. Embora possam soar ótimos nessa única música, sei que são capazes de atingir tons mais altos e mais baixos, expressando inflexões vocais mais intensas e mais suaves, as quais não serão incluídas em seus modelos de voz porque o aprendizado de máquina não tem acesso a essas informações adicionais. Por sua vez, isso proporcionará um caso de uso muito limitado para um modelo de voz de IA.
Para criar vozes de IA versáteis, inclua uma ampla gama de performances vocais no seu material de treinamento. Isso deve abranger diferentes tons, expressões emocionais e técnicas vocais, incluindo tanto voz de peito quanto falsete, para imitar a versatilidade de um artista real. Embora o requisito mínimo seja de 15 minutos de áudio, recomendo utilizar os 30 minutos completos para capturar toda a extensão das habilidades do vocalista.

Remova Espaços Vazios
Os envios vocais costumam ser versões acapella de músicas em sua totalidade. Como o processo de aprendizado de máquina se importa apenas em analisar uma performance vocal, longos espaços vazios, que podem ser seções instrumentais de uma música completa, são desnecessários e consomem um tempo valioso no conjunto de dados. Para otimizar seu modelo de voz de IA, remova quaisquer seções não-vocais e certifique-se de que o áudio seja contínuo, como mostrado no meu exemplo inicial acima. Utilizar essa abordagem maximizará os dados de treinamento e ajudará seu modelo a reter o máximo de realismo possível.
Exporte Seu Áudio Como Mono Real
Finalmente, sempre exporte suas tracks vocais (stems) como faixas mono reais. Enviar faixas estéreo, mesmo que a gravação tenha sido em mono, duplica os dados percebidos e reduz a quantidade de material utilizável para o treinamento. Para obter os melhores resultados de clonagem de voz, maximize a quantidade de material em que seu modelo pode ser treinado exportando sua faixa vocal para mono antes de fazer o upload para o Kits.AI.
Conclusão
Ao seguir essas dicas, você pode evitar erros comuns de vocais de IA e começar a desbloquear todo o potencial desta ferramenta poderosa. Lembre-se, a IA não é uma ferramenta criativa, é uma ferramenta de criador. Como todas as novas ferramentas e tecnologias emergentes, existe uma curva de aprendizado, mas com a abordagem certa, incorporar vocais de IA em sua música pode abrir novas possibilidades que antes eram inimagináveis.
Comece, grátis.
Otimize seu fluxo de produção vocal com ferramentas de áudio em qualidade de estúdio baseadas em IA.
