Como Otimizar o Treinamento de um Modelo de Voz de IA
Escrito por
Publicado em
17 de setembro de 2024
Embora possa parecer contraproducente, um Modelo de Voz AI com um ótimo som não requer cantores com afinação perfeita. Um dos erros mais comuns que encontro ao revisar submissões para o nosso programa Community Voices são conjuntos de dados altamente alterados. De fora, é compreensível que muitos presumam que conjuntos de dados com afinação perfeita resultem em modelos com afinação perfeita. Neste post, exploraremos por que usar correção de afinação pode realmente prejudicar a qualidade do seu modelo de voz AI, junto com outras dicas úteis para treinar um modelo mais natural e realista.

Quanto Mais, Melhor!
Modelos vocais de IA prosperam com dados diversificados. Se você fizer upload de uma música de três minutos e meio em um alcance vocal baixo, o modelo pode soar bem para aquela música específica, mas faltará a versatilidade do alcance completo de um cantor da vida real. Para resultados ótimos, mire em pelo menos 30 minutos de material vocal que cubra uma ampla gama de tons, dinâmicas e estilos de entrega.
Incorpore tudo, desde notas suaves e delicadas até gritos com energia total, cobrindo o amplo espectro das habilidades de um cantor. Essa diversidade garante que seu modelo soe natural e versátil, capaz de executar uma ampla variedade de materiais sem ser limitado por um conjunto de dados restrito.

Converta para Mono Verdadeiro!
Um descuido comum é fazer upload de áudio estéreo em vez de mono verdadeiro ao treinar um modelo de voz. Kits atualmente permite um máximo de 200 MB de dados de treinamento, então converter faixas para estéreo, mesmo que gravadas com um único microfone, pode dobrar desnecessariamente o tamanho do seu arquivo. Isso reduz a quantidade de dados de treinamento utilizável.
Ao garantir que seus vocais sejam convertidos para mono verdadeiro, você maximiza a quantidade de dados de treinamento e evita atingir o limite de tamanho muito rapidamente. Embora o estéreo seja essencial para produções modernas, modelos de voz AI só exigem mono para eficiência.

Correção de Afinação Não É Necessária!
Como mencionei anteriormente, vocais com afinação perfeita não são necessários para dados de treinamento. Todo cantor, mesmo aqueles com afinação excepcional, possui variações naturais em suas vozes. O segredo é deixar a correção de afinação para a pós-produção. Treinar seu modelo de voz AI com vocais naturais e não processados resultará em um som mais realista e evitará que seu modelo fique preso a um estilo específico, excessivamente processado.

Deixe os Efeitos Para a Pós-produção!
Efeitos como reverberação, atraso e modulação são excelentes para aprimorar performances vocais, mas devem ser evitados ao criar dados de treinamento. Esses efeitos podem interferir no processo de aprendizado de máquina, que se concentra em capturar a essência natural da voz humana. Incluí-los em seu conjunto de dados pode resultar em modelos cheios de artefatos digitais, fazendo-os parecer menos realistas.
Em vez disso, concentre-se em capturar vocais secos e limpos. Você sempre pode adicionar efeitos depois. Se as reflexões do ambiente forem um problema, tente gravar em um espaço pequeno como um armário, ou use um filtro de reflexão como o sE RF-X para minimizar reverberação e garantir um conjunto de dados mais limpo.

Priorize a Consistência Sônica
Embora a diversidade na entrega vocal possa melhorar seu modelo de AI, a consistência na qualidade da gravação é crucial. Ruído de fundo de ventiladores, aparelhos de ar condicionado ou outros itens domésticos podem afetar negativamente o resultado do seu modelo. Preste atenção aos níveis de pré-amplificador e qualquer distorção causada por clipagem do microfone ou interface. Fique atento a quaisquer inconsistências e garanta uma captura limpa e livre de distorções.
Variações vocais leves devido a mudanças diárias na voz do cantor podem realmente adicionar profundidade ao seu modelo, mas certifique-se de que o lado técnico da sua gravação permaneça consistente para manter resultados de alta qualidade.
Conclusão
Ao construir um modelo de voz AI, é fácil presumir que técnicas tradicionais de produção vocal irão melhorar o resultado. No entanto, seguindo estas dicas — usando dados naturais e diversificados, mantendo a consistência técnica e deixando os efeitos para a pós-produção — você criará um modelo de voz mais realista e versátil. Kits AI pode desbloquear incríveis possibilidades criativas, e com a abordagem certa, você pode aproveitar ao máximo seus modelos de voz AI. Para diretrizes adicionais de gravação, siga este link para as recomendações do Kits para capturar conjuntos de dados de alta qualidade.
-SK
Sam Kearney é produtor, compositor e designer de som baseado em Evergreen, CO.

