Kits e Descript: Ferramentas de IA para Criadores de Áudio

Escrito por
A Equipe Kits
Publicado em
19 de março de 2024
Nos últimos anos da revolução da inteligência artificial, muita atenção foi dada ao que a IA pode fazer para artistas visuais. Bilhões de pessoas experimentaram ferramentas como Dall-E, Midjourney e a ferramenta Generative Fill do Photoshop para criar imagens com IA.
Mas você sabia que existem ferramentas semelhantes para projetos de áudio? Músicos, produtores, podcasters, streamers, editores de vídeo e mais podem usar IA para aprimorar cada etapa de seu fluxo de trabalho.
Neste artigo, vamos dar uma olhada em duas das ferramentas de áudio de IA mais populares: Kits, uma plataforma de vocal AI para música, e Descript, um editor de áudio alimentado por IA para podcasts.
Ferramentas de IA da Kits para Vocais
Kits é uma ferramenta poderosa de produção musical que utiliza IA para criar áudio de alta qualidade. Com os Kits, você pode converter a voz de um cantor em outra e clonar a voz de um cantor. As oportunidades criativas são infinitas.
Conversão de Voz
Os Kits são construídos em torno de Convert, que muda a voz de um cantor para uma completamente diferente. Enquanto outras ferramentas de IA fazem isso para fala, Kits é o primeiro a oferecê-lo para canto. Os resultados são tão bons que podem passar por cantores profissionais gravados em um estúdio de alto padrão, tornando-o uma ferramenta extremamente versátil para produtores.
Basta fazer upload de um arquivo ou gravar diretamente no aplicativo web. Em poucos segundos, sua música terá um novo cantor!
Você pode ajustar a Conversão com controles avançados:
Remova instrumentais, reverberação e atraso, e/ou vocais de fundo da sua gravação para obter melhores resultados.
Deslocamento de Tom: Aumente ou diminua o tom em até 24 semitons.
Força de Conversão: Adiciona mais sotaque e articulação à geração, mas pode causar resultados inesperados em níveis altos.
Mistura de Volume: Controle o equilíbrio entre o volume de entrada e o modelo. Valores mais baixos revelam mais da dinâmica original.
Efeitos de Pré-Processamento: Corte ruído, rumble e aspereza, suavize o volume e/ou ajuste o EQ antes da geração.
Efeitos de Pós-Processamento: Aplique compressor, coro, reverberação e/ou atraso ao resultado.
Tutorial de Treinamento de Voz
O recurso mais futurista dos Kits é o Treinamento de Voz. Basta enviar um arquivo de áudio e os Kits treinam um modelo de IA para criar um clone perfeito da voz do cantor. Esta nova Voz pode ser usada em vez de uma voz Padrão ou Misturada para qualquer conversão (mais sobre isso abaixo).
Os Kits oferecem a melhor ferramenta de Clonagem de Voz disponível para cantores. Outras ferramentas de IA oferecem isso para fala, incluindo o Descript, que abordaremos em detalhes abaixo. No entanto, o Descript utiliza essa função principalmente para corrigir erros ou para gerações simples de texto para fala. Kits permite que você use facilmente o modelo de voz treinado para conversões, o que é uma grande vantagem.

Para treinar a voz, Kits permite qualquer formato de áudio gravado. Recomenda 10 minutos para melhores resultados, mas aceita até uma hora. (Para comparação, Descript exige que você leia um roteiro específico para usar como modelo de voz.) A partir daí, basta adicionar um nome e uma foto, e treinar sua nova voz! Ela será salva na sua Biblioteca de Vozes para uso futuro.
Biblioteca de Vozes
Kits oferece mais de 150 Vozes de Artistas em sua Biblioteca de Vozes. Cada uma é nomeada pelo gênero e estilo musical, como Afro Beat Masculino ou Pop de Quarto Feminino. Você pode classificar a Biblioteca por alcance tonal, gênero e estilo musical, e há até mesmo vozes para outros idiomas e estilos musicais mundiais. Todas são totalmente livres de royalties, portanto, você pode usá-las como quiser.

Para personalizar ainda mais seu som, você pode combinar duas Vozes com o Misturador de Vozes. O controle deslizante de Proporção de Mistura controla quanto de cada voz usar no treinamento do novo modelo.

Além disso, Kits oferece instrumentos, incluindo guitarra, baixo, saxofone e violoncelo. Isso permite que você crie instrumentais sem esforço: basta gravar rapidamente você mesmo cantando ou cantarolando um trecho, depois convertê-lo em uma voz de instrumento.
Texto-Para-Fala
Kits também oferece uma função de texto-para-fala em 14 idiomas, para narração, dublagem e outros conteúdos falados. Como a Biblioteca de Vozes do Kits é calibrada para cantar, os resultados tendem a ser mais naturais do que outras IAs. Insira seu roteiro, selecione um alcance tonal e gere a fala. Toda a Biblioteca de Vozes pode ser usada, além de vozes Misturadas e Treinadas.

Melhoradores de Áudio AI
Removedor de Vocais
Outra ferramenta musical impulsionada por IA dos Kits é o Removedor de Vocais. Carregue uma música e o Removedor de Vocais separa os vocais dos instrumentais e outros ruídos de fundo. As configurações avançadas permitem que você remova vocais de apoio, e alternar reverberação, eco e redução de ruído. Com IA embutida, o Removedor de Vocais dos Kits tende a fazer um trabalho melhor do que software tradicional ao extrair vocais de forma precisa, mesmo quando sons semelhantes se sobrepõem.

Masterização AI
A masterização é a fase final do fluxo de trabalho de produção musical. Compressão, limitação, EQ e mais, são aplicados para aperfeiçoar o som final e garantir que as faixas individuais funcionem bem juntas. Isso historicamente foi um dos elementos mais difíceis e caros da produção, mas a AI dos Kits permite que até mesmo novos produtores possam masterizar faixas em segundos.
Kits oferece seis predefinições de masterização prontas:
Leve & Brilhante
Pesado em Baixo
Impacto & Areia
Luxuriante
Cola de Fita
Calor Analógico
Como o processo amigável leva apenas segundos, você pode experimentar para ver qual funciona melhor. Você também pode fazer upload de uma faixa de referência, cujo som os Kits usarão como modelo.

Kits não é apenas a ferramenta de canto AI mais poderosa do mercado, mas uma ferramenta essencial para produtores de música moderna. Ele usa IA para aprimorar cada estágio da produção vocal, permitindo que você produza vocais melhores com menos tempo, menos dinheiro e mais criatividade.
Descript: Editor de Podcast AI
Descript é uma das ferramentas mais poderosas disponíveis hoje para podcasters, com um rico conjunto de funções de áudio AI construídas em torno de um editor de podcast baseado em texto. (Descript também oferece algumas ferramentas de conteúdo de vídeo, mas não vamos explorar isso aqui.)
Espere, editor de áudio baseado em texto? Sim, o Descript transcreve automaticamente seu áudio para que você possa editá-lo como um documento, com suas alterações refletidas no áudio. Gravações longas são transcritas em segundos e armazenadas com segurança na nuvem e cada orador é automaticamente rotulado. Além disso, funciona em 22 idiomas. Além dessa experiência de usuário única, há uma ampla gama de outras ferramentas de áudio AI para edição de vídeo:
Vozes AI
Como Kits, Descript inclui vozes padrão que podem ser usadas para texto-para-fala. São 21 no total, com etiquetas para descrever suas vozes: Masculino ou Feminino, Jovem, Adulto ou Idoso, além de sotaques e estilos.

Descript também possui um recurso de clonagem de voz semelhante ao Treinamento de Voz nos Kits. Curiosamente, o Descript só permite que você clone sua própria voz. Para verificar isso, você deve gravar-se lendo um roteiro especial como modelo. Sua voz pode ser salva para usar em texto-para-fala, bem como em futuras Sobrescrições de sua própria fala.

Regenerar Qualquer Transcrição
Regenerar essencialmente cria um mini clone de voz (sem o processo mais longo descrito acima), então regenera uma parte selecionada do texto no transcrito de gravação. Isso permite edições de áudio que seriam impossíveis sem IA -- e pode ser o recurso mais poderoso do Descript.
Por exemplo, digamos que você está gravando em casa e a campainha toca. Normalmente, cortar esse momento seria demorado, e fazê-lo de maneira limpa o suficiente para que os ouvintes não percebam pode ser impossível. Mas com o Descript, basta localizar o momento na transcrição, destacá-lo e clicar em Substituir por → Regenerar. A fala gerada por IA será preenchida sem emendas sobre essa seção da gravação original.
E se você chamar seu colega de quarto para atender a porta? Você pode facilmente deletar as palavras fora do tópico da transcrição, mas isso deixará uma desconexão evidente que os ouvintes podem ouvir. Basta Regenerar a frase ao redor do corte e a voz da IA igualará o tom e a entonação para escondê-la perfeitamente.
Sobrescrição
Abaixo de Regenerar no menu Substituir por está a Sobrescrição. Em vez de usar a voz de IA para suavizar edições, Sobrescrição a utiliza para inserir novas palavras no podcast. Se você pronunciar uma palavra incorretamente, errar uma linha ou simplesmente não se expressar tão bem quanto deveria, você pode instantaneamente cortar a parte indesejada e substituí-la por uma sobrescrição de IA.
Como o Descript identifica diferentes oradores automaticamente, a sobrescrição automaticamente combinará com o orador certo. Além disso, o novo áudio corresponderá à qualidade do microfone, ruído de fundo e entonação da gravação circundante.

Som de Estúdio
Com um clique, os algoritmos do Som de Estúdio fazem qualquer gravação soar profissional. Basta alternar o interruptor sob Efeitos de Áudio, e o Som de Estúdio separa vozes de ruído de fundo para aprimorar ambos. O controle deslizante de Intensidade controla o quão fortemente o efeito é aplicado. A voz será aprimorada, então até mesmo uma rápida gravação de iPhone soa como um microfone de alta qualidade. Aperfeiçoe seu arquivo de vídeo e remova ruído de fundo, chiado e eco de sala em etapas simples e intuitivas.
Remoção de Palavras de Preenchimento
Todo podcaster já passou por isso: você grava um episódio e pensa que arrasou. Mas quando você ouve novamente, sua fala está cheia de “tipo”, “ã”, pausas mortas e outras palavras de preenchimento. Essas pequenas coisas infelizmente podem ter um impacto massivo em como você se apresenta.
A Remoção de Palavras de Preenchimento é embutida no Descript, e como o restante de seus recursos, é incrivelmente simples de usar. Quando seu áudio é transcrito, palavras de preenchimento serão sublinhadas automaticamente. Clique no ícone de estrela, então use a ferramenta de edição para “Remover palavras de preenchimento” e “Encurtar lacunas de palavras” para limpar sua fala.

Encontrando a Melhor Ferramenta de IA para Você
Kits e Descript estão na vanguarda da produção de áudio habilitada por IA. Suas ferramentas funcionam de forma simples e elegante para aprimorar seu fluxo de trabalho existente. Ferramentas poderosas com preços poderosos como Conversão de Voz e Treinamento de Voz dos Kits e o editor baseado em texto do Descript abrem possibilidades reativas que nunca existiram antes. Além disso, recursos como Removedor de Vocais e Masterização AI nos Kits e Regenerar e Remoção de Palavras Preenchido no Descript eliminam os aspectos mais demorados e tediosos da produção de áudio. Como as ferramentas de áudio AI farão de você um criador melhor?
Comece, grátis.
Otimize seu fluxo de produção vocal com ferramentas de áudio em qualidade de estúdio baseadas em IA.
