Treinamento e Personalização da Voz de Canto de IA

Escrito por
Sam Kearney
Publicado em
6 de novembro de 2024
Uma das minhas principais funções na Kits é garantir que nossos modelos sem royalties sejam treinados com conjuntos de dados sólidos e inspiradores que não apenas soem bem, mas também sejam inspiradores para trabalhar. Algumas partes desse processo são puramente técnicas, enquanto outras se apoiam em escolhas criativas que moldam o caráter do modelo. Hoje, estou detalhando como otimizar seus próprios dados de treinamento e fazer algumas escolhas criativas intencionais para adicionar uma personalidade única aos seus modelos de voz.
Nas últimas semanas, meus artigos abordaram meu processo de criação de algumas de nossas vozes mais baseadas em caráter e as técnicas únicas que usei. Seja cantando através de um amplificador de guitarra para o meu modelo Rock Masculino Overdrive ou usando um microfone de fita para capturar um de meus monitores de estúdio para Jazz Feminino Vintage, as formas de criar um conjunto de dados de destaque são realmente infinitas.
A Fundação
Uma base sólida é a parte mais crucial de criar qualquer modelo de voz. Independentemente de qualquer atributo especial que eu possa querer adicionar, sempre começo com uma captura vocal limpa. Isso significa remover ruídos de fundo—ar condicionado, zumbido da geladeira, o que estiver à espreita—que podem degradar o som do seu modelo e criar problemas no caminho. Digamos que você gravou um ótimo conjunto de dados de 30 minutos, mas na reprodução, ouve um zumbido baixo que era quase imperceptível na sala. Já estive lá! Já me perdi em uma tomada, só para depois perceber um amplificador zumbindo como louco ou o aquecedor funcionando ao fundo. Confira nosso guia sobre como gravar vocais de alta qualidade você mesmo se você está começando do zero.
Uma ferramenta como iZotope RX torna fácil corrigir zumbidos e ruídos consistentes. Basta abrir o módulo Spectral De-noise do RX, selecionar uma seção do seu áudio com apenas o ruído de fundo, clicar em “Learn” e reproduzir o áudio. O RX irá analisar e ajustar automaticamente sua redução de ruído. Você pode querer ajustá-lo ainda mais ajustando os faders de Threshold e Reduction, mas o RX simplifica a remoção desses artefatos incômodos.

Importância do Nível de Ganho
Ajustar um nível de ganho adequado também é fundamental. Ao criar modelos, eu busco um nível consistente de -12dB, com picos não superiores a -6dB. Isso permite que o áudio permaneça dinâmico enquanto dá ao aprendizado de máquina o volume ideal para treinar efetivamente. Muitas vezes vejo submissões que estão ou muito baixas em volume ou clipando no vermelho. O clipping digital não dá aquela saturação agradável que se pode querer em um vocal de rock—é apenas áspero, e os algoritmos de aprendizado de máquina também não são fãs.

Criando Caráter
Embora um conjunto de dados limpo e sólido seja geralmente a melhor base, permitindo que você manipule as coisas uma vez importadas para o seu DAW, às vezes é divertido incorporar algum caráter diretamente em seus dados de treinamento. Qualquer som que você carregar com um efeito aplicado irá automaticamente levar essa qualidade para seu modelo—sem necessidade de mágica do DAW depois. Isso pode ser perfeito para criadores de conteúdo que desejam acesso a uma vibe vocal específica, como um efeito de rádio ou walkie-talkie que enfatiza as frequências médias-altas e adiciona um pouco de
Comece, grátis.
Otimize seu fluxo de produção vocal com ferramentas de áudio em qualidade de estúdio baseadas em IA.
