Guia de Criação de Modelo de Voz de IA Gratuito

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo. Se precisar de suporte adicional, junte-se ao Discord do Kits.ai ou entre em contato conosco.

Guia de Criação de Modelo de Voz de IA Gratuito

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo. Se precisar de suporte adicional, junte-se ao Discord do Kits.ai ou entre em contato conosco.

Como criar o seu conjunto de dados.

Reúna 5 a 10 minutos no total de vocais secos (sem efeitos) e monofônicos (uma nota de cada vez).

Reúna 5 a 10 minutos no total de vocais secos (sem efeitos) e monofônicos (uma nota de cada vez).

Reúna 5 a 10 minutos no total de vocais secos (sem efeitos) e monofônicos (uma nota de cada vez).

- Sem reverb, delay, chorus ou instrumentais,
- Sem harmonias, sobreposições, dublagens ou efeitos estéreo.
- Sem variação nos estilos vocais. Por exemplo: apenas cantando ou apenas rimando, mas não ambos.

- Sem reverb, delay, chorus ou instrumentais,
- Sem harmonias, sobreposições, dublagens ou efeitos estéreo.
- Sem variação nos estilos vocais. Por exemplo: apenas cantando ou apenas rimando, mas não ambos.

- Sem reverb, delay, chorus ou instrumentais,
- Sem harmonias, sobreposições, dublagens ou efeitos estéreo.
- Sem variação nos estilos vocais. Por exemplo: apenas cantando ou apenas rimando, mas não ambos.

Vocais ruins

Estéreo, reverberação, atraso

0:00/1:34

Boas vocais

Mono, timbre limpo, baixo ruído

Use a ferramenta Separadora Vocal Kits.AI para isolar vozes para o seu conjunto de dados.

Para isolar os vocais de uma música, basta fazer upload de um arquivo ou colar um link do YouTube na ferramenta Separadora Vocal da Kits.AI. Esta é uma maneira fácil de criar seu próprio conjunto de dados.

Use vídeos do YouTube como seu conjunto de dados.

Para os assinantes do Kits.AI, treinar uma voz é tão simples quanto colar um link do YouTube. Encontre alguns vídeos da sua voz e deixe o Kits fazer o trabalho de isolar os vocais e treinar o modelo da sua voz.

Técnicas avançadas de conjuntos de dados.

Pré-processar seu áudio para melhor qualidade.

Seu áudio pode ser:

- limpo com EQ (subtrativo) para reduzir frequências arrastadas ou ásperas na gravação

- sutilmente corrigido de tom (ataque lento, força moderada) a menos que seja uma parte fundamental do estilo vocal

- Desess para reduzir qualquer sibilação áspera

- comprimido levemente para nivelar a faixa dinâmica / reduzir picos (~4-5db de redução de ganho no máximo)

- aumentado com EQ aditivo para se adequar ao estilo vocal

- limitado a um pico de -6db com níveis gerais entre -6 e -12db.

- passado alto/baixo para remover frequências abaixo de 40hz–100hz e acima de 20khz

- reequilibrado de fase

Grave suas próprias vozes.

Gravando vocais para o seu modelo? Aqui estão algumas configurações para começar:

- Use um microfone de qualidade com uma ampla faixa de frequência (40Hz–20kHz)

- Defina a taxa de amostragem de gravação para 48kHz e o tipo de arquivo para sem perdas (.wav, .aiff, .flac)

- Limite os sons de respiração e tente capturar um tom limpo (evite plosivas, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando em um estilo com muita respiração)

- Evite reflexos do ambiente (grave em um ambiente com superfícies macias como carpete e móveis para absorver o som, coloque os microfones longe das paredes, se aproxime e reduza o ganho de entrada)

- Monitore o volume de gravação e evite exceder -6 dBFS. Tente manter seus níveis entre -12 e -6 dBFS.

- Exporte o seu áudio como verdadeiro mono (em vez de estéreo com canais L + R iguais)

- Evite cortes bruscos no áudio (adicione um pequeno fade out para evitar estalos que surgem ao cortar o áudio antes ou depois de um cruzamento zero)

Gravando vocais para o seu modelo? Aqui estão algumas configurações para você começar:

- Use um microfone de qualidade com uma ampla faixa de frequência (40hz-20khz)

- Defina a taxa de amostragem de gravação para 48khz e o tipo de arquivo como lossless (.wav, .aiff, .flac)

- Limite os sons de respiração e tente capturar um tom limpo (evite plosivos, coloque o microfone fora do eixo e/ou use um filtro pop se estiver cantando de forma suspirada)

- Evite reflexos de sala (grave em um ambiente com superfícies macias, como tapetes e móveis para absorver som, afaste os microfones das paredes, se aproxime e reduza o ganho de entrada)

- Monitore o volume de gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.

- Exporte seu áudio como verdadeiro mono (em vez de estéreo com canais L + R iguais)

- Evite cortes bruscos no áudio (adicione um fade out curto para evitar estalos que ocorrem ao cortar o áudio antes ou depois de um cruzamento zero)

Perguntas frequentes

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Não se preocupe, no entanto - desde que você esteja vendo Treinamento no painel de criação de vozes, seu modelo será concluído em breve.

P: Meu modelo está demorando uma eternidade para carregar! O que está acontecendo?

Se você estiver fazendo upload de um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar "Enviar" e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o upload.

P: O que devo fazer se eu ver um erro?

A: Se você vir um erro durante o upload, entre em contato conosco através do nosso formulário de bugs!

A: Se você ver um erro durante o upload, entre em contato conosco em nosso formulário de erro!