Kits y Descript: Herramientas de IA para Creadores de Audio

Escrito por
El equipo de Kits
Publicado el
19 de marzo de 2024
Durante los últimos años de la revolución de la inteligencia artificial, se ha prestado mucha atención a lo que la IA puede hacer por los artistas visuales. Miles de millones de personas han experimentado con herramientas como Dall-E, Midjourney y la herramienta Generative Fill de Photoshop para crear imágenes con IA.
¿Pero sabías que existen herramientas similares para proyectos de audio? Músicos, productores, podcasters, streamers, editores de video y más pueden usar la IA para mejorar cada paso de su flujo de trabajo.
In este artículo, analizaremos dos de las herramientas de audio con IA más populares: Kits, una plataforma vocal de IA para música, y Descript, un editor de audio impulsado por IA para podcasts.
Herramientas de IA de Kits para Voces
Kits es una potente herramienta de producción musical que utiliza IA para crear audio de alta calidad. Con Kits, puedes convertir a un cantante en otro y clonar la voz de un cantante. Las oportunidades creativas son infinitas.
Conversión de Voz
Kits se basa en Convert, que cambia la voz de un cantante por una completamente diferente. Mientras que otras herramientas de IA hacen esto para el habla, Kits es la primera en ofrecerlo para el canto. Los resultados son tan buenos que pueden pasar por cantantes profesionales grabados en un estudio de alta gama, lo que la convierte en una herramienta sumamente versátil para los productores.
Solo sube un archivo o graba directamente en la aplicación web. ¡En unos segundos, tu melodía tendrá un cantante completamente nuevo!
Puedes perfeccionar la conversión con controles avanzados:
Elimina instrumentos, reverberación y retraso, y/o segundas voces de tu grabación para obtener mejores resultados.
Cambio de Tono (Pitch Shift): Sube o baja el tono hasta 24 semitonos.
Fuerza de Conversión: Agrega más acento y articulación a la generación, pero puede causar resultados inesperados a niveles altos.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Los valores más bajos revelan más de la dinámica original.
Efectos de Preprocesamiento: Corta el ruido, el zumbido y la estridencia, suaviza el volumen y/o ecualiza antes de la generación.
Efectos de Postprocesamiento: Aplica compresor, chorus, reverberación y/o retraso al resultado.
Tutorial de Entrenamiento de Voz
La función más futurista de Kits es el Entrenamiento de Voz (Voice Training). Simplemente sube un archivo de audio y Kits entrena un modelo de IA para crear un clon perfecto de la voz del cantante. Esta nueva voz se puede utilizar en lugar de una voz de stock o una voz mezclada (Blended) para cualquier conversión (más información sobre ellas a continuación).
Kits ofrece la mejor herramienta de clonación de voz disponible para cantantes. Otras herramientas de IA sí la ofrecen para el habla, incluyendo Descript, que cubriremos en detalle más adelante. Sin embargo, Descript utiliza esta función principalmente para corregir errores o para generaciones simples de texto a voz. Kits te permite utilizar sin esfuerzo el modelo de voz entrenado para conversiones, lo cual es una gran ventaja.

Para entrenar la voz, Kits permite cualquier formato de audio grabado. Recomienda 10 minutos para mejores resultados, pero acepta hasta una hora. (En comparación, Descript requiere que leas un guión específico para usarlo como plantilla de voz). A partir de ahí, ¡solo agrega un nombre y una foto, y luego entrena tu nueva voz! Se guardará en tu Biblioteca de Voces para futuros usos.
Biblioteca de Voces
Kits ofrece más de 150 voces de artistas en su Biblioteca de Voces. Cada una lleva el nombre de su género y estilo musical, como Afrobeats Male (English, Melodic) o Pop Female (English, Bedroom). Puedes ordenar la biblioteca por rango de tono, género e incluso hay voces para otros idiomas y estilos de música del mundo. Todas están completamente libres de regalías, por lo que puedes usarlas como quieras.

Para personalizar aún más tu sonido, puedes combinar dos voces con el Mezclador de Voces (Voice Blender). El control deslizante de Proporción de Mezcla controla qué cantidad de cada voz usar al entrenar el nuevo modelo.

Además, Kits ofrece instrumentos, incluyendo guitarra, bajo, saxofón y violonchelo. Esto te permite crear pistas instrumentales sin esfuerzo: simplemente grábate rápidamente cantando o tarareando una parte, y luego conviértela en la voz de un instrumento.
Texto a Voz
Kits también ofrece una función de texto a voz en 14 idiomas para narración, locuciones y otros contenidos hablados. Dado que la biblioteca de voces de Kits está calibrada para el canto, los resultados tienden a ser más naturales que con otras IA. Introduce tu guión, selecciona un rango de tono y genera el habla. Se puede utilizar toda la Biblioteca de Voces, además de las voces mezcladas y entrenadas.

Mejoradores de Audio con IA
Extractor de Voz (Vocal Remover)
Otra herramienta musical impulsada por IA en Kits es el Extractor de Voz. Sube una canción y el Extractor de Voz separa las voces de la parte instrumental y de otros ruidos de fondo. Los ajustes avanzados te permiten eliminar las segundas voces y activar o desactivar la reverberación, el eco y la reducción de ruido. Con IA integrada, el Extractor de Voz de Kits tiende a hacer un mejor trabajo que el software tradicional al extraer con precisión las voces, incluso cuando se superponen sonidos similares.

Masterización con IA
La masterización es la fase final del flujo de trabajo de producción musical. Se aplican compresión, limitación, ecualización y más para perfeccionar el sonido final y garantizar que las pistas individuales funcionen bien juntas. Históricamente, este ha sido uno de los elementos de producción más difíciles y costosos, pero Kits AI permite incluso a los nuevos productores masterizar pistas en segundos.
Kits ofrece seis ajustes preestablecidos de masterización listos para usar:
Light & Bright
Bass Heavy
Punch & Air
Lush
Tape Glue
Analog Warmth
Dado que el proceso, que es muy fácil de usar, toma solo unos segundos, puedes experimentar para ver cuál funciona mejor. También puedes subir una pista de referencia, cuyo sonido Kits utilizará como modelo.

Kits no es solo la herramienta de canto con IA más potente del mercado, sino una herramienta esencial para los productores musicales modernos. Utiliza la IA para mejorar cada etapa de la producción vocal, lo que te permite producir mejores voces con menos tiempo, menos dinero y más creatividad.
Descript: Editor de Podcast con IA
Descript es una de las herramientas más potentes disponibles hoy en día para los podcasters, con un rico conjunto de funciones de audio de IA integradas en torno a un editor de podcasts basado en texto. (Descript también ofrece algunas herramientas de contenido de video, pero no entraremos en detalles aquí).
Espera, ¿un editor de audio basado en texto? Sí, Descript transcribe automáticamente tu audio para que puedas editarlo como si fuera un documento, y los cambios se reflejan en el sonido. Las grabaciones largas se transcriben en cuestión de segundos y se almacenan de forma segura en la nube, y cada interlocutor se etiqueta automáticamente. Además, funciona en 22 idiomas. Además de esta experiencia de usuario única, ofrece una amplia gama de otras herramientas de audio de IA para la edición de video:
Voces de IA
Al igual que Kits, Descript incluye voces de stock que pueden utilizarse para pasar de texto a voz. Hay 21 en total con etiquetas que describen su voz: masculina o femenina, joven, adulta o mayor, además de acentos y estilos.

Descript también cuenta con una función de clonación de voz similar al Entrenamiento de Voz de Kits. Curiosamente, Descript solo te permite clonar tu propia voz. Para verificar esto, debes grabarte leyendo un guión especial como plantilla. Tu voz se puede guardar para usarla en la función de texto a voz, así como en futuros sobregrabados (Overdubs) de tu propio discurso.

Regenerar Cualquier Transcripción
Regenerar esencialmente crea un mini clon de voz (sin el proceso más largo descrito anteriormente), luego regenera una parte seleccionada del texto en la transcripción de la grabación. Esto permite realizar ediciones de audio que serían imposibles sin la IA, y podría ser la característica más potente de Descript.
Por ejemplo, supongamos que estás grabando en casa y suena el timbre. Normalmente, eliminar este momento llevaría mucho tiempo, y hacerlo de forma tan limpia que los oyentes no lo noten podría ser imposible. Pero con Descript, solo busca el momento en la transcripción, selecciónalo y haz clic en Replace With → Regenerate. El habla generada por IA se rellenará sin problemas sobre esa sección de la grabación original.
¿Y qué pasa si llamas a tu compañero de cuarto para que abra la puerta? Puedes eliminar fácilmente las palabras fuera de tema de la transcripción, pero dejará una desconexión obvia que los oyentes podrán escuchar. Simplemente regenera la frase alrededor del corte y la voz de la IA coincidirá con el tono y la entonación para ocultarlo a la perfección.
Overdub (Sobregrabación)
Debajo de Regenerate, en el menú Replace With, se encuentra Overdub. En lugar de usar la voz de IA para suavizar las ediciones, Overdub la utiliza para insertar nuevas palabras en el podcast. Si pronuncias mal una palabra, te equivocas en una línea o simplemente no te expresas tan bien como deberías, puedes cortar instantáneamente la parte no deseada y reemplazarla con una sobregrabación de IA.
Dado que Descript identifica automáticamente a los diferentes interlocutores, la sobregrabación coincidirá automáticamente con el hablante correcto. Además, el nuevo audio se adaptará a la calidad del micrófono, al ruido de fondo y a la intonación de la grabación circundante.

Sonido de Estudio (Studio Sound)
Con un solo clic, los algoritmos de Studio Sound hacen que cualquier grabación suene profesional. Simplemente activa el interruptor en Audio Effects, y Studio Sound separará las voces del ruido de fondo para mejorar ambas cosas. El control deslizante de Intensidad controla con qué fuerza se aplica el efecto. La voz se mejorará, por lo que incluso una grabación rápida con un iPhone sonará como si se hubiera hecho con un micrófono de alta calidad. Perfecciona tu archivo de video y elimina el ruido de fondo, el siseo y el eco de la sala en pasos sencillos e intuitivos.
Eliminación de Muletillas
A todos los podcasters les ha pasado esto: grabas un episodio y crees que lo has hecho genial. Pero al escucharlo, tu discurso está plagado de "o sea", "eh", silencios incómodos y otras muletillas. Lamentablemente, estas pequeñas cosas pueden tener un impacto enorme en la imagen que transmites.
La eliminación de muletillas está integrada en Descript y, al igual que el resto de sus funciones, es increíblemente fácil de usar. Cuando se transcriba tu audio, las muletillas se subrayarán automáticamente. Haz clic en el icono de la estrella y luego usa la herramienta de edición para "Eliminar muletillas" y "Acortar espacios entre palabras" para limpiar tu discurso.

Cómo Encontrar la Mejor Herramienta de IA para Ti
Kits y Descript están a la vanguardia de la producción de audio asistida por IA. Sus herramientas funcionan de manera sencilla y elegante para mejorar tu flujo de trabajo actual. Herramientas potentes con precios competitivos como la conversión de voz y el entrenamiento de voz de Kits y el editor basado en texto de Descript abren posibilidades de reacción que nunca antes habían existido. Además, funciones como el Extractor de Voz y la masterización con IA en Kits, y Regenerar y la eliminación de muletillas en Descript eliminan los aspectos más tediosos y lentos de la producción de audio. ¿Cómo te ayudarán las herramientas de audio con IA a ser un mejor creador?
Empieza, gratis.
Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio
