Criação de Modelo de Voz

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo.

Como criar seu conjunto de dados.

Reúna 30-60 minutos totais de vocais secas (sem efeitos) e monofônicas (uma nota de cada vez).

  • Sem reverberação, atraso, coro ou instrumentais,

  • Sem harmonias, camadas, duplo acompanhamento, efeitos estéreo.

  • Sem variação nos estilos vocais. Ex. apenas cantando ou apenas rimando, mas não ambos.

Vocais ruins

Estéreo, reverberação, atraso

0:00/1:34

Boas vocais

Mono, tom limpo, baixo ruído

Preparando seu(s) arquivo(s).

Exporte seus arquivos sem silêncio e com volume consistente como um arquivo de áudio sem perdas de 16 bits (.wav preferencial).

Antes: silêncio, níveis de volume inconsistentes

Depois: silêncio truncado, volume consistente

Uma vez que você tenha compilado suas vozes, o próximo passo é preparar seus arquivos para treinamento:

  • Remova qualquer silêncio extra (recomendamos fazer isso automaticamente com o Audacity)

  • Exporte como mono verdadeiro (em vez de estéreo com canais L + R iguais)

  • Exporte como .wav de 16 bits (sem requisitos de duração de áudio, pode ser um arquivo de 15 minutos ou 15 arquivos de 1 minuto)

Como converter para mono e remover o silêncio com o Audacity

Use a ferramenta de separação vocal Kits.AI para isolar os vocais para o conjunto de dados.

Para isolar vocais de uma música, basta fazer o upload de um arquivo na ferramenta Kits.AI Vocal Separator. Esta é uma maneira fácil de criar seu próprio conjunto de dados.

Advanced dataset techniques.

Pré-processar seu áudio para uma qualidade superior.

Seu áudio pode ser:

  • equalizado limpo (subtrativo) para reduzir frequências embaçadas ou agressivas na gravação

  • subtilmente corrigido em afinação (ataque lento, força moderada) a menos que seja uma parte chave do estilo vocal

  • Desibilizado para reduzir qualquer sibilância agressiva

  • Comprimido levemente para nivelar a faixa dinâmica/reduzir picos (~4-5db de redução de ganho no máximo)

  • Aumentado (aditivo EQd) para se adequar ao estilo vocal

  • Limitado a um pico de -6db com níveis gerais entre -6 e -12db.

  • Passa-alto/passagem baixa para remover frequências abaixo de 40hz–100hz e acima de 20khz

  • Reequilibrado de fase

Grave suas próprias vozes.

Gravando vocais para seu modelo? Aqui estão algumas configurações para você começar:

  • Use um microfone de qualidade com uma ampla faixa de frequência (40hz–20khz)

  • Defina sua taxa de amostragem de gravação para 48khz e o tipo de arquivo para sem perdas (.wav, .aiff, .flac)

  • Limite os sons da respiração e tente capturar um tom limpo (evite explosões, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando em um estilo suave)

  • Evite reflexões de sala (grave em um ambiente com superfícies macias como carpetes e móveis para absorver o som, coloque os microfones longe das paredes, aproxime-se e reduza seu ganho de entrada)

  • Monitore o volume da sua gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.

  • Exporte seu áudio como mono verdadeiro (em vez de estéreo com canais L + R iguais)

  • Evite cortes bruscos no áudio (adicione um breve desvanecimento para evitar estalos que vêm de cortar o áudio antes ou depois de uma interseção zero)

Conteúdo

Mais variedade, melhor.

Melhor ter exemplos abrangendo toda a sua faixa. Peito, mistura, falsete; intervalos longos e curtos; notas ásperas e limpas; etc. Quanto mais variedade, melhor.

Você pode cantar as mesmas letras em diferentes tonalidades, algumas músicas do seu repertório, originais, etc. O áudio pode estar em vários arquivos ou em uma única gravação — desde que o tempo de canto some 10 a 15 minutos.

Techniques

Como converter para True Mono

Use o programa gratuito Audacity para converter arquivos estéreo em verdadeiro mono.

Como remover o silêncio

Use o programa gratuito Audacity para remover rapidamente o silêncio de um acapella.

(Copie as configurações neste vídeo, mas sinta-se à vontade para experimentar. Escolha um limite entre -20db e -40db, dependendo do nível de ruído do seu acapella.)

Perguntas Frequentes

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Mas não se preocupe - enquanto estiver vendo Treinamento no painel de vozes criadas, seu modelo será finalizado em breve.

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

Se estiver carregando um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar “Enviar” e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o envio.

P: O que eu faço se eu ver um erro?

A: Se você vir um erro durante o upload, entre em contato conosco em nosso formulário de erro!

Comece, grátis.

Otimize seu fluxo de produção vocal com ferramentas de áudio em qualidade de estúdio baseadas em IA.