19 de março de 2024

Kits e Descript: Ferramentas de IA para Criadores de Áudio

Saiba mais sobre as plataformas de áudio de IA Kits AI e Descript e encontre a melhor ferramenta para o seu fluxo de trabalho de criação de áudio.

A Equipe Kits

Gráfico de comparação de descrição e kits
Gráfico de comparação de descrição e kits
Gráfico de comparação de descrição e kits

Título

Título

Comece grátis. Não é necessário cartão de crédito.

Comece grátis. Não é necessário cartão de crédito.

Comece grátis. Não é necessário cartão de crédito.

Nos últimos anos da revolução da inteligência artificial, muita atenção foi dada ao que a IA pode fazer por artistas visuais. Bilhões de pessoas experimentaram ferramentas como Dall-E, Midjourney e a ferramenta de Preenchimento Generativo do Photoshop para criar imagens com IA.

Mas você sabia que existem ferramentas semelhantes para projetos de áudio? Músicos, produtores, podcasters, streamers, editores de vídeo e mais podem usar IA para aprimorar cada etapa de seu fluxo de trabalho.

Neste artigo, vamos olhar para duas das ferramentas de áudio de IA mais populares: Kits, uma plataforma vocal de IA para música, e Descript, um editor de áudio alimentado por IA para podcasts.

Ferramentas de Vocal AI do Kits

Kits é uma poderosa ferramenta de produção musical que usa IA para criar áudio de alta qualidade. Com Kits, você pode converter um cantor em outro e clonar a voz de um cantor. As oportunidades criativas são infinitas. 

Conversão de Voz

Kits é construído em torno do Convert, que muda a voz de um cantor para uma completamente diferente. Enquanto outras ferramentas de IA fazem isso para fala, Kits é o primeiro a oferecer isso para canto. Os resultados são tão bons que podem passar por cantores profissionais gravados em um estúdio de alto padrão, tornando-o uma ferramenta extremamente versátil para produtores.

Basta fazer o upload de um arquivo, link de vídeo do YouTube ou gravar diretamente no aplicativo da web. Em poucos segundos, sua canção terá um novo cantor!

Você pode ajustar a Conversão com controles avançados:

  • Remova instrumentais, reverberação e atraso, e/ou vocais de apoio da sua gravação para obter melhores resultados.

  • Ajuste de Pitch: Aumente ou diminua o tom em até 24 semitons.

  • Força da Conversão: Adiciona mais acento e articulação à geração, mas pode causar resultados inesperados em níveis altos. 

  • Equilíbrio de Volume: Controle o equilíbrio entre o volume de entrada e o modelo. Valores mais baixos revelam mais da dinâmica original.

  • Efeitos de Pré-processamento: Corte ruídos, roncos e aspereza, suavize o volume, e/ou aplique autotune antes da geração.

  • Efeitos de Pós-processamento: Aplique compressor, coro, reverberação, e/ou atraso ao resultado. 

Tutorial de Treinamento de Voz

A característica mais futurista do Kits é Treinamento de Voz. Basta fazer o upload de um arquivo de áudio ou colar um link de vídeo do YouTube, e Kits treina um modelo de IA para criar uma cópia perfeita da voz do cantor. Esta nova Voz pode ser usada em vez de uma voz padrão ou mesclada para qualquer conversão (mais sobre isso abaixo). 

Kits oferece a melhor ferramenta de Treinamento de Voz disponível para cantores. Outras ferramentas de IA também oferecem para fala, incluindo Descript, que cobriremos em detalhes abaixo. No entanto, Descript usa essa função principalmente para corrigir erros ou gerar texto-para-fala simples. Kits permite que você use sem esforço o modelo de voz treinado para conversões, o que é uma grande vantagem.

Kits voice cloning page with files uploaded

Para treinar a voz, Kits permite qualquer formato de áudio gravado. Recomenda 10 minutos para os melhores resultados, mas aceita até uma hora. (Para comparação, Descript exige que você leia um script específico para usar como modelo de voz.) A partir daí, basta adicionar um nome e uma foto, e então treinar sua nova voz! Ela será salva na sua Biblioteca de Voz para uso futuro.

Biblioteca de Voz

Kits oferece mais de 50 Voze de Artistas em sua Biblioteca de Voz. Cada uma é nomeada de acordo com seu gênero e estilo musical, como Masculino Afro Beat ou Feminino Bedroom Pop. Você pode classificar a Biblioteca por faixa de tom, gênero e estilo, e existem até vozes para outros idiomas e estilos de música mundial. Todas são completamente livres de royalties, então você pode usá-las como quiser. 

Open tab of the voice library page with no model selected

Para personalizar ainda mais seu som, você pode combinar duas Voze com o Blender de Voz. O controle deslizante de Proporção de Mistura controla quanto de cada voz usar no treinamento do novo modelo.

Kits AI voice blender tool with 2 models selected

Além disso, Kits oferece instrumentos, incluindo guitarra, baixo, saxofone e violoncelo. Isso permite que você crie instrumentais sem esforço: basta gravar rapidamente você cantando ou fazendo um som, e depois converter isso em uma voz de instrumento.

Texto-Para-Fala

Kits também oferece uma função de texto-para-fala em 14 idiomas, para narrações, voiceovers e outros conteúdos falados. Como a Biblioteca de Voz do Kits é calibrada para canto, os resultados tendem a ser mais naturais do que outras IAs. Insira seu script, selecione uma faixa de tom e gere a fala. Toda a Biblioteca de Voz pode ser usada, além de vozes Blended e Treinadas. 

Voice conversion page with the male synth pop model selected in the text to speech tab

Aprimoradores de Áudio AI

Remover Vocais 

Outra ferramenta de música alimentada por IA no Kits é o Removedor de Vocais. Faça o upload de uma canção ou link do YouTube e o Removedor de Vocais separa os vocais da instrumental e de outros ruídos de fundo. Configurações avançadas permitem que você remova vocais de apoio e ajuste a reverberação, eco e redução de ruído. Com IA integrada, o Removedor de Vocais do Kits tende a fazer um trabalho melhor do que softwares tradicionais na extração precisa de vocais mesmo quando sons semelhantes se sobrepõem.

Kits AI vocal remover page

Mestre de AI 

Mastigação é a fase final do fluxo de trabalho de produção musical. Compressão, limitação, EQ e mais são aplicados para aperfeiçoar o som final e garantir que as faixas individuais funcionem bem juntas. Isso historicamente tem sido um dos elementos mais difíceis e caros da produção, mas Kits AI permite até novos produtores masterizar faixas em segundos.

 Kits oferece seis predefinições de masterização:

  • Leve & Brilhante

  • Pesado em Graves

  • Impacto & Ar

  • Luxuoso

  • Cola de Fita

  • Calor Analógico

Como o processo amigável ao usuário leva apenas segundos, você pode experimentar para ver qual funciona melhor. Você também pode fazer o upload de uma faixa de referência, cujo som o Kits usará como modelo.

Kits AI Mastering page with a track input

Kits não é apenas a ferramenta de canto de IA mais poderosa disponível no mercado, mas uma ferramenta essencial para produtores de música moderna. Usa IA para aprimorar cada estágio da produção vocal, permitindo que você produza melhores vocais com menos tempo, menos dinheiro e mais criatividade.

Descript: Editor de Podcasts AI

Descript é uma das ferramentas mais poderosas disponíveis hoje para podcasters, com um conjunto rico de funções de áudio de IA construídas em torno de um editor de podcasts baseado em texto. (A Descript também oferece algumas ferramentas de conteúdo em vídeo, mas não vamos entrar nesses detalhes aqui.) 

Espere, editor de áudio baseado em texto? Sim, a Descript transcreve automaticamente seu áudio para que você possa editá-lo como um documento, com suas alterações refletidas no áudio. Gravações longas são transcritas em segundos e armazenadas com segurança na nuvem, e cada falante é etiquetado automaticamente. Além disso, funciona em 22 idiomas. Além dessa experiência única do usuário, há uma ampla gama de outras ferramentas de áudio de IA para edição de vídeo:

Vozes AI

Como o Kits, a Descript inclui vozes padrão que podem ser usadas para texto-para-fala. Há um total de 21, com etiquetas para descrever sua voz: Masculina ou Feminina, Mais Jovem, Adulto ou Mais Velho, além de sotaques e estilos. 

Descript AI voice selection page

A Descript também tem um recurso de clonagem de voz semelhante ao Treinamento de Voz do Kits. Curiosamente, a Descript só permite que você clone sua própria voz. Para verificar isso, você deve gravar sua leitura de um script especial como modelo. Sua voz pode ser salva para uso em texto-para-fala, assim como futuras Sobreposições da sua própria fala. 

Script generated by Descript's voice cloning feature

Regenerar Qualquer Transcrição

Regenerar essencialmente cria uma mini cópia de voz (sem o processo mais longo descrito acima), então regenera um trecho selecionado do texto na transcrição da gravação. Isso permite edições de áudio que seriam impossíveis sem IA -- e pode ser o recurso mais poderoso da Descript. 

Por exemplo, digamos que você está gravando em casa e a campainha toca. Normalmente, cortar esse momento seria demorado, e fazê-lo de forma limpa o suficiente que os ouvintes não notem pode ser impossível. Mas com a Descript, basta localizar o momento na transcrição, destacá-lo e clicar em Substituir por → Regenerar. A fala gerada por IA será perfeitamente inserida nesse trecho da gravação original.

E se você chamar seu colega de quarto para atender à porta? Você pode facilmente deletar as palavras fora do tópico da transcrição, mas isso deixará uma desconexão óbvia que os ouvintes podem ouvir. Basta Regenerar a frase ao redor do corte e a voz da IA corresponderá ao tom e à entonação para escondê-lo perfeitamente.

Sobreposição

Debaixo de Regenerar no menu Substituir por está Sobreposição. Em vez de usar a voz da IA para suavizar edições, Sobreposição a usa para inserir novas palavras no podcast. Se você pronunciar uma palavra incorretamente, falhar em uma linha, ou simplesmente não se articular tão bem quanto deveria, você pode instantaneamente cortar a parte indesejada e substituí-la por uma sobreposição de IA. 

Como a Descript identifica automaticamente diferentes falantes, a sobreposição combinará automaticamente com o falante correto. Além disso, o novo áudio corresponderá à qualidade do microfone, ruído de fundo e entonação da gravação ao redor. 

Descript's Overdub feature

Som de Estúdio

Com um clique, O Som de Estúdio’s algoritmos fazem qualquer gravação soar profissional. Basta alternar o interruptor em Efeitos de Áudio, e O Som de Estúdio separa vozes do ruído de fundo para aprimorar ambos. O controle deslizante de Intensidade controla como fortemente o efeito é aplicado. A voz será aprimorada, então até uma gravação rápida do iPhone soa como um microfone de alta qualidade. Aperfeiçoe seu arquivo de vídeo e remova o ruído de fundo, chiados e eco da sala em etapas simples e intuitivas. 

Remoção de Palavras de Preenchimento

Todo podcaster já passou por isso: você grava um episódio e acha que foi bem. Mas quando ouve de volta, sua fala está repleta de “tipo”, “hum”, silêncios e outros preenchimentos. Essas pequenas coisas podem, infelizmente, ter um grande impacto em como você se apresenta.

A Remoção de Palavras de Preenchimento está integrada ao Descript, e como o resto de suas funcionalidades, é incrivelmente simples de usar. Quando seu áudio é transcrito, palavras de preenchimento serão sublinhadas automaticamente. Clique no ícone de estrela, então use a ferramenta de edição para “Remover palavras de preenchimento” e “Encurtar lacunas de palavras” para limpar sua fala. 

Sample filler word remover function

Encontrando a Melhor Ferramenta de IA para Você

Kits e Descript estão na vanguarda da produção de áudio habilitada por IA. Suas ferramentas funcionam de maneira simples e elegante para aprimorar seu fluxo de trabalho existente. Ferramentas poderosas com preços poderosos, como a Conversão de Voz do Kits e o Treinamento de Voz e o editor baseado em texto do Descript, abrem possibilidades reativas que nunca existiram antes. Além disso, recursos como o Removedor de Vocais e o Mastering de IA no Kits e Regenerar e Remoção de Palavras Preenchidas na Descript eliminam os aspectos mais demorados e tediosos da produção de áudio. Como as ferramentas de áudio de IA o tornarão um criador melhor?