Entrenamiento y personalización de la voz cantada de IA

Escrito por
El equipo de Kits
Publicado el
6 de noviembre de 2024
Una de mis funciones principales en Kits es asegurar que nuestros modelos libres de regalías se entrenen con conjuntos de datos sólidos e inspiradores que no solo suenen bien, sino que también resulten inspiradores para trabajar con ellos. Algunas partes de este proceso son puramente técnicas, mientras que otras se inclinan hacia elecciones creativas que dan forma al carácter del modelo. Hoy voy a detallar cómo optimizar tus propios datos de entrenamiento y tomar decisiones creativas intencionadas para añadir una personalidad única a tus modelos de voz.
Durante las últimas semanas, mis artículos han cubierto mi proceso para crear algunos de nuestros personajes de voz más característicos y las técnicas únicas que utilicé. Ya fuera cantando a través de un amplificador de guitarra para mi modelo de voz Rock Male (English, Overdriven) o utilizando un micrófono de cinta para capturar uno de mis monitores de estudio para Jazz Female (English, Vintage, Soprano), las formas de crear un conjunto de datos excepcional son realmente infinitas.
La base
Una base sólida es la parte más crucial al crear cualquier modelo de voz. Independientemente de los atributos especiales que quiera añadir, siempre empiezo con una captura vocal limpia. Esto significa eliminar el ruido de fondo (aires acondicionados, zumbidos de la nevera o cualquier cosa que aceche) que pueda degradar el sonido de tu modelo y crear problemas más adelante. Digamos que grabaste un excelente conjunto de datos de 30 minutos, pero al reproducirlo escuchas un zumbido bajo que apenas se notaba en la habitación. ¡He estado ahí! Me he perdido en una toma, solo para descubrir más tarde que un amplificador zumbaba como loco o que el calentador estaba encendido de fondo. Echa un vistazo a nuestra guía sobre cómo grabar voces de alta calidad tú mismo si estás empezando de cero.
Una herramienta como iZotope RX hace que sea fácil solucionar zumbidos y ruidos constantes. Solo tienes que abrir el módulo Spectral De-noise de RX, seleccionar una sección de tu audio que solo contenga el ruido de fondo, presionar "Learn" y reproducir el audio. RX lo analizará y ajustará automáticamente su reducción de ruido. Es posible que desees afinarlo más ajustando los controles deslizantes de Threshold (umbral) y Reduction (reducción), pero RX simplifica la eliminación de esos molestos artefactos.

El nivel de ganancia importa
Ajustar un nivel de ganancia adecuado también es clave. Al crear modelos, apunto a un nivel constante de -12dB, con picos que no superen los -6dB. Esto permite que el audio mantenga su dinamismo mientras proporciona al aprendizaje automático el volumen ideal para entrenar de manera efectiva. A menudo veo envíos que tienen un volumen demasiado bajo o que saturan en la zona roja. La saturación digital no te da esa distorsión agradable que podrías desear en una voz de rock; es simplemente estridente, y los algoritmos de aprendizaje automático tampoco son muy fanáticos de ella.

Creando personalidad
Aunque un conjunto de datos limpio y sólido suele ser la mejor base, ya que te permite manipular las cosas una vez importadas a tu DAW, a veces es divertido impregnar carácter directamente en tus datos de entrenamiento. Cualquier sonido que subas con un efecto aplicado llevará automáticamente esa calidad en tu modelo, sin necesidad de usar la magia del DAW más adelante. Esto puede ser perfecto para los creadores de contenido que desean acceder a una vibración vocal específica, como un efecto de radio o walkie-talkie que enfatiza las frecuencias medias-altas y añade un poco de aspereza. Aplica esto a todo tu conjunto de datos y tendrás un modelo de referencia que sonará instantáneamente como si saliera de una radio.

¡O tal vez sea hora de sacudir el polvo a ese viejo pedal de distorsión del rincón! Hacer pasar tu conjunto de datos a través de él puede añadir un nivel de carácter vocal completamente nuevo.

A menudo me gusta pasar las voces por un amplificador de guitarra, subiendo el overdrive y ajustándolo al gusto. ¿Por qué no lo pones a tope a través de tu media torre Marshall y ves cuánto tardan tus vecinos en llamar a la policía?

Sin embargo, tal vez prefieras evitar las quejas por ruido de los vecinos y probar uno de estos pequeños Marshall a batería en su lugar. (Nota al margen: ¡estos amplificadores diminutos son oro para el estudio, no los ignores!)

¿Otro truco? Un pedal de wah-wah. Mantener un wah en una posición fija en ciertos puntos puede producir una amplia gama de efectos filtrados. No hace falta complicarse; un Dunlop CryBaby estándar funciona de maravilla.

Y para lograr una vibración lo-fi auténtica sin un reproductor de cinta de bobina abierta, prueba con una grabadora de casete. Esta de aquí cuenta con un micrófono integrado y un puerto USB 2.0. Usar el micrófono integrado para grabar desde tu altavoz a un casete puede producir un sonido cálido y bellamente degradado. ¡Creo que tendré que conseguir uno de estos para mí, ideal para experimentar!

Conclusión
Al fin y al cabo, hacer música debería ser divertido, y para mí, eso significa desafiar los límites y encontrar nuevos sonidos. No te preocupes si tu primer intento de subida no resulta como querías; cada toma es parte del proceso y te orienta para tu próximo paso. Kits.AI está aquí para ayudarte a crear algo inspirador y único. Así que adelante, ¡el cielo es el límite!
Empieza, gratis.
Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio
