Entrenamiento y personalización de la voz cantada de IA
Escrito por
Publicado el
6 de noviembre de 2024
Uno de mis roles principales en Kits es asegurar que nuestros modelos libres de regalías se entrenen con conjuntos de datos sólidos e inspiradores que no solo suenen bien, sino que sean inspiradores para trabajar con ellos. Algunas partes de este proceso son puramente técnicas, mientras que otras se inclinan hacia decisiones creativas que dan forma al carácter del modelo. Hoy, estoy desglosando cómo optimizar tus propios datos de entrenamiento y tomar algunas decisiones creativas intencionadas para agregar una personalidad única a tus modelos de voz.
En las últimas semanas, mis artículos han cubierto mi proceso para crear algunas de nuestras voces más basadas en personajes y las técnicas únicas que utilicé. Ya sea cantando a través de un amplificador de guitarra para mi modelo de Overdrive Rock Masculino o usando un micrófono de cinta para capturar uno de mis monitores de estudio para Jazz Femenino Vintage, las formas de crear un conjunto de datos destacado son realmente infinitas.
La Fundación
Una base sólida es la parte más crucial de la creación de cualquier modelo de voz. Independientemente de cualquier atributo especial que pueda querer agregar, siempre comienzo con una captura vocal limpia. Esto significa eliminar el ruido de fondo—aires acondicionados, zumbido de nevera, cualquier cosa que esté al acecho—que puede degradar el sonido de tu modelo y crear problemas más adelante. Supongamos que grabaste un gran conjunto de datos de 30 minutos, pero al reproducirlo, escuchas un zumbido bajo que apenas era notable en la habitación. ¡He estado allí! Me he perdido en una toma, solo para luego darme cuenta de que un amplificador estaba zumbando como loco o que la calefacción estaba funcionando en el fondo. Consulta nuestra guía sobre cómo grabar voces de alta calidad tú mismo si estás empezando desde cero.
Una herramienta como iZotope RX facilita arreglar zumbidos y ruidos constantes. Simplemente abre el módulo Spectral De-noise de RX, selecciona una sección de tu audio solo con el ruido de fondo, presiona “Learn” y reproduce el audio. RX analizará y ajustará automáticamente su reducción de ruido. Puedes querer afinarlo aún más ajustando los controles deslizantes de Umbral y Reducción, pero RX simplifica la eliminación de esos molestos artefactos.

El Nivel de Ganancia Importa
Ajustar un nivel de ganancia adecuado también es clave. Al crear modelos, apunto a un nivel constante de -12dB, sin picos más altos de -6dB. Esto permite que el audio se mantenga dinámico mientras proporciona al aprendizaje automático el volumen ideal para entrenar eficazmente. A menudo veo presentaciones que están demasiado bajas en volumen o recortando en rojo. El recorte digital no te da esa saturación agradable que podrías querer en una vocal rockera–es simplemente áspero, y los algoritmos de aprendizaje automático tampoco son fanáticos.

Creando Carácter
Aunque un conjunto de datos limpio y sólido suele ser la mejor base, permitiéndote manipular cosas una vez importadas en tu DAW, a veces es divertido incorporar directamente algo de carácter en tus datos de entrenamiento. Cualquier sonido que cargues con un efecto aplicado llevará automáticamente esa calidad en tu modelo–no se necesita magia DAW más tarde. Esto puede ser perfecto para creadores de contenido que buscan acceso a un ambiente vocal específico, como un efecto de radio o walkie-talkie que enfatiza las frecuencias altas-medias y añade un poco de arenilla. Aplica esto a todo tu conjunto de datos, y tienes un modelo listo para usar que instantáneamente suena como si viniera a través de una radio.

¡O tal vez es hora de desempolvar ese viejo pedal de distorsión en la esquina! Pasar tu conjunto de datos a través de él puede añadir un nuevo nivel completo de carácter vocal.

A menudo me gusta pasar voces a través de un amplificador de guitarra—dial en el overdrive y ajustarlo a gusto. ¡Por qué no pasar por tu Marshall half-stack y ver cuánto tiempo pasa antes de que tus vecinos llamen a la policía!

Sin embargo, tal vez prefieras evitar la queja por ruido e intentar con uno de estos pequeños Marshalls a batería. (Nota al margen: estos pequeños amplificadores son oro de estudio–¡no te los pierdas!)

¿Otro truco? Un pedal wah. Mantener un wah “fijo” en ciertos puntos puede producir una amplia gama de efectos filtrados. No necesitas ser sofisticado aquí; un Dunlop CryBaby estándar funciona genial.

Y para una auténtica vibra lo-fi sin el reproductor de cinta reel-to-reel, prueba un grabador de casete. Este uno tiene un micrófono incorporado y un puerto USB 2.0. Usar el micrófono incorporado para grabar desde tu altavoz en un casete puede producir un sonido calidez y hermosamente degradado. Puede que tenga que conseguir uno de estos yo mismo–¡perfecto para experimentar!

Conclusión
Al final del día, hacer música debería ser divertido, y para mí, eso significa traspasar límites y encontrar nuevos sonidos. No te preocupes si tu primer intento de carga no sale como quieres–cada toma es parte del proceso, informando tu próximo movimiento. Kits.AI está aquí para ayudarte a crear algo inspirador y único. Así que ve por ello–¡el cielo es el límite!
-SK
Sam Kearney es productor, compositor y diseñador de sonido con sede en Evergreen, Colorado.