Criação de Modelo de Voz de IA

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo.

Preços

Aplicativo de desktop

Pesquisa

Blog

Select Language

Como criar seu conjunto de dados.

Reúna 30-60 minutos totais de vocais secas (sem efeitos) e monofônicas (uma nota de cada vez).

Sem reverberação, atraso, coro ou instrumentais,
Sem harmonias, camadas, duplo acompanhamento, efeitos estéreo.
Sem variação nos estilos vocais. Ex. apenas cantando ou apenas rimando, mas não ambos.

Sem reverberação, delay, coro ou instrumentais,
Sem harmonias, camadas, gravação dupla, efeitos estéreo.
Sem variação nos estilos vocais. Ex. apenas cantando ou apenas rap, mas não ambos.

Sem reverb, delay, coro ou instrumentais,
Sem harmonias, camadas, gravação em dupla, ou efeitos estéreo.
Sem variação nos estilos vocais. Ex. apenas cantando ou apenas rap, mas não ambos.

Vocais ruins

Estéreo, reverberação, atraso

0:00/1:34

Boas vocais

Mono, tom limpo, baixo ruído

Preparando seu(s) arquivo(s).

Exporte seus arquivos sem silêncio e com volume consistente como um arquivo de áudio sem perdas de 16 bits (.wav preferencial).

Antes: silêncio, níveis de volume inconsistentes

Depois: silêncio truncado, volume consistente

Uma vez que você tenha compilado suas vozes, o próximo passo é preparar seus arquivos para treinamento:

Remova qualquer silêncio extra (recomendamos fazer isso automaticamente com o Audacity)
Exporte como mono verdadeiro (em vez de estéreo com canais L + R iguais)
Exporte como .wav de 16 bits (sem requisitos de duração de áudio, pode ser um arquivo de 15 minutos ou 15 arquivos de 1 minuto)

Remova qualquer silêncio extra (recomendamos fazer isso automaticamente com o Audacity)
Exporte como mono verdadeiro (em vez de estéreo com canais L + R iguais)
Exporte como .wav de 16 bits (sem requisitos de comprimento de áudio, pode ser um arquivo de 15 minutos ou 15 arquivos de 1 minuto)

Como converter para mono e remover o silêncio com o Audacity

Use a ferramenta de separação vocal Kits.AI para isolar os vocais para o conjunto de dados.

Para isolar vocais de uma música, basta fazer o upload de um arquivo na ferramenta Kits.AI Vocal Separator. Esta é uma maneira fácil de criar seu próprio conjunto de dados.

Advanced dataset techniques.

Pré-processar seu áudio para uma qualidade superior.

Seu áudio pode ser:

equalizado limpo (subtrativo) para reduzir frequências embaçadas ou agressivas na gravação
subtilmente corrigido em afinação (ataque lento, força moderada) a menos que seja uma parte chave do estilo vocal
Desibilizado para reduzir qualquer sibilância agressiva
Comprimido levemente para nivelar a faixa dinâmica/reduzir picos (~4-5db de redução de ganho no máximo)
Aumentado (aditivo EQd) para se adequar ao estilo vocal
Limitado a um pico de -6db com níveis gerais entre -6 e -12db.
Passa-alto/passagem baixa para remover frequências abaixo de 40hz–100hz e acima de 20khz
Reequilibrado de fase

Seu áudio pode ser:

equalizado limpo (subtrativo) para reduzir frequências turvas ou agudas na gravação
corretamente ajustado de forma sutil (ataque lento, força moderada), a menos que seja uma parte essencial do estilo vocal
Desessado para reduzir qualquer sibilância agressiva
Comprimido levemente para equilibrar a faixa dinâmica/reduzir picos (~4-5db de redução de ganho no máximo)
Aumentado (equalizado aditivo) para se adequar ao estilo vocal
Limitado a um pico de -6db com níveis gerais entre -6 e -12db.
Passa-alto/passagem-baixa para remover frequências abaixo de 40hz–100hz e acima de 20khz
Fase reequilibrada

Seu áudio pode ser:

equalizado limpo (subtrativo) para reduzir frequências embaçadas ou agressivas na gravação
corretamente ajustado sutilmente (ataque lento, força moderada), a menos que seja uma parte essencial do estilo vocal
Des-essado para reduzir qualquer sibilância dura
Comprimido levemente para equilibrar a faixa dinâmica/reduzir picos (~4-5db de redução de ganho no máximo)
Aumentado (equalizado aditivo) para se adequar ao estilo do vocal
Limitado a um pico de -6db com níveis gerais entre -6 e -12db.
Passagem alta/baixa para remover frequências abaixo de 40hz–100hz e acima de 20khz
Fase reequilibrada

Grave suas próprias vozes.

Gravando vocais para seu modelo? Aqui estão algumas configurações para você começar:

Use um microfone de qualidade com uma ampla faixa de frequência (40hz–20khz)
Defina sua taxa de amostragem de gravação para 48khz e o tipo de arquivo para sem perdas (.wav, .aiff, .flac)
Limite os sons da respiração e tente capturar um tom limpo (evite explosões, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando em um estilo suave)
Evite reflexões de sala (grave em um ambiente com superfícies macias como carpetes e móveis para absorver o som, coloque os microfones longe das paredes, aproxime-se e reduza seu ganho de entrada)
Monitore o volume da sua gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.
Exporte seu áudio como mono verdadeiro (em vez de estéreo com canais L + R iguais)
Evite cortes bruscos no áudio (adicione um breve desvanecimento para evitar estalos que vêm de cortar o áudio antes ou depois de uma interseção zero)

Gravando vocais para o seu modelo? Aqui estão algumas configurações para você começar:

Use um microfone de qualidade com uma ampla faixa de frequência (40hz–20khz)
Defina sua taxa de amostragem de gravação para 48khz e tipo de arquivo para sem perdas (.wav, .aiff, .flac)
Limite os sons da respiração e tente capturar um tom limpo (evite plosivas, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando em um estilo com respiração)
Evite reflexões na sala (grave em um ambiente com superfícies macias, como carpete e móveis para absorver o som, coloque os microfones longe das paredes, aproxime-se e reduza seu ganho de entrada)
Monitore seu volume de gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.
Exporte seu áudio como mono verdadeiro (em vez de estéreo com canais L + R iguais)
Evite cortes abruptos no áudio (adicione um curto desvanecimento para evitar estalos que vêm de cortar o áudio antes ou depois de uma cruzamento zero)

Gravando vocais para o seu modelo? Aqui estão algumas configurações para você começar.:

Use um microfone de qualidade com uma ampla faixa de frequência (40hz–20khz)
Defina sua taxa de amostragem de gravação para 48khz e o tipo de arquivo para lossless (.wav, .aiff, .flac)
Limite os sons da respiração e tente capturar um tom limpo (evite plosivas, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando de forma ofegante)
Evite reflexões na sala (grave em uma sala com superfícies macias, como carpetes e móveis para absorver o som, coloque os microfones longe das paredes, aproxime-se e reduza seu ganho de entrada)
Monitore o volume da sua gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.
Exporte seu áudio como verdadeiro mono (em vez de estéreo com canais L + R iguais)
Evite cortes bruscos no áudio (adicione um pequeno fade out para evitar estalos que surgem ao cortar áudio antes ou depois de um cruzamento zero)

Conteúdo

Mais variedade, melhor.

Melhor ter exemplos abrangendo toda a sua faixa. Peito, mistura, falsete; intervalos longos e curtos; notas ásperas e limpas; etc. Quanto mais variedade, melhor.

Você pode cantar as mesmas letras em diferentes tonalidades, algumas músicas do seu repertório, originais, etc. O áudio pode estar em vários arquivos ou em uma única gravação — desde que o tempo de canto some 10 a 15 minutos.

Techniques

Como converter para True Mono

Use o programa gratuito Audacity para converter arquivos estéreo em verdadeiro mono.

Como remover o silêncio

Use o programa gratuito Audacity para remover rapidamente o silêncio de um acapella.

(Copie as configurações neste vídeo, mas sinta-se à vontade para experimentar. Escolha um limite entre -20db e -40db, dependendo do nível de ruído do seu acapella.)

Perguntas Frequentes

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Mas não se preocupe - enquanto estiver vendo Treinamento no painel de vozes criadas, seu modelo será finalizado em breve.

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

Se estiver carregando um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar “Enviar” e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o envio.

P: O que eu faço se eu ver um erro?

A: Se você vir um erro durante o upload, entre em contato conosco em nosso formulário de erro!

Comece, grátis.

Otimize seu fluxo de produção vocal com ferramentas de áudio em qualidade de estúdio baseadas em IA.

Começar

Criação de Modelo de Voz de IA

Recursos

Desenhado para

Preços

Aplicativo de desktop

Pesquisa

Blog

Entre

Como criar seu conjunto de dados.

Como criar seu conjunto de dados.

Preparando seu(s) arquivo(s).

Como converter para mono e remover o silêncio com o Audacity

Use a ferramenta de separação vocal Kits.AI para isolar os vocais para o conjunto de dados.

Advanced dataset techniques.

Pré-processar seu áudio para uma qualidade superior.

Grave suas próprias vozes.

Conteúdo

Techniques

Como converter para True Mono

Como remover o silêncio

Perguntas Frequentes

P: Quanto tempo leva o treinamento do modelo?

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

P: O que eu faço se eu ver um erro?

PRODUTO

RECURSOS

LEGAL

RECURSOS