Creación de modelos de voz de IA

Crea el mejor modelo de voz posible creando un conjunto de datos de alta calidad utilizando los consejos a continuación.

Precios

Aplicación de escritorio

Investigación

Blog

Select Language

Cómo crear tu conjunto de datos.

Reúna de 30 a 60 minutos totales de voces secas (sin efectos) y monofónicas (una nota a la vez).

No reverb, delay, coro, ni instrumentales,
No armonías, capas, doble seguimiento, efectos estéreo.
No variación en estilos vocales. Por ejemplo, solo cantar o solo rapear, pero no ambos.

No reverberación, retraso, coro o instrumentales,
No armonías, capas, doble seguimiento, efectos estéreo.
No variación en los estilos vocales. Por ejemplo, solo cantando o solo rapeando, pero no ambos.

No reverberación, retardo, coro o instrumentales,
No armonías, capas, dobles grabaciones, efectos estéreo.
No hay variación en los estilos vocales. Por ejemplo, solo cantando o solo rapeando, pero no ambos.

Malas voces

Estéreo, reverberación, retardo

0:00/1:34

Buenas voces

Mono, tono limpio, bajo ruido

Preparando tu(s) archivo(s).

Exporta tus archivos sin silencio y con volumen consistente como un archivo de audio lossless de 16 bits (preferiblemente .wav).

Antes: silencio, niveles de volumen inconsistentes

Después: silencio truncado, volumen consistente

Una vez que hayas compilado tus voces, el siguiente paso es preparar tus archivos para el entrenamiento:

Elimina cualquier silencio extra (recomendamos hacerlo automáticamente con Audacity)
Exporta como mono verdadero (en lugar de estéreo con canales L + R iguales)
Exporta como .wav de 16 bits (sin requisitos de duración de audio, puede ser un archivo de 15 minutos o 15 archivos de 1 minuto)

Elimina cualquier silencio extra (recomendamos hacer esto automáticamente con Audacity)
Exporta como mono verdadero (en lugar de estéreo con canales L + R iguales)
Exporta como .wav de 16 bits (sin requisitos de longitud de audio, puede ser un archivo de 15 minutos o 15 archivos de 1 minuto)

Cómo convertir a mono y eliminar el silencio con Audacity

Utilice la herramienta de separación vocal Kits.AI para aislar las voces de su conjunto de datos.

Para aislar las voces de una canción, simplemente sube un archivo en la herramienta Kits.AI Vocal Separator. Esta es una forma fácil de crear tu propio conjunto de datos.

Advanced dataset techniques.

Prepare su audio antes para obtener una calidad superior.

Tu audio puede ser:

ecualizado limpio (sustractivo) para reducir frecuencias turbias o ásperas en la grabación
corregido de tono sutilmente (ataque lento, fuerza moderada) a menos que sea una parte clave del estilo vocal
De-essed para reducir cualquier sibilancia dura
Comprimido ligeramente para igualar el rango dinámico/reducir picos (~4-5db de reducción de ganancia como máximo)
Potenciado (ecualizado aditivo) para adaptarse al estilo vocal
Limitado a un pico de -6db con niveles generales entre -6 y -12db.
Pasa alto/bajo para eliminar frecuencias por debajo de 40hz–100hz y por encima de 20khz
Fase reequilibrada

Tu audio puede ser:

ecualizado limpio (sustractivo) para reducir frecuencias turbias o ásperas en la grabación
corregido sutilmente en tono (ataque lento, fuerza moderada) a menos que sea una parte clave del estilo vocal
Des-Ezado para reducir cualquier sibilancia áspera
Comprimido ligeramente para igualar el rango dinámico/reducir picos (~4-5db de reducción de ganancia como máximo)
Realzado (ecualizado aditivo) para ajustarse al estilo de la voz
Limitado a un pico de -6db con niveles generales entre -6 y -12db.
Pasado por alto/bajo para eliminar frecuencias por debajo de 40hz–100hz y por encima de 20khz
Reequilibrado de fase

Tu audio puede ser:

ecualizado limpio (substractivo) para reducir frecuencias turbias o duras en la grabación
corregido de tono sutilmente (ataque lento, fuerza moderada) a menos que sea una parte clave del estilo vocal
Desensibilizado para reducir cualquier sibilancia dura
Comprimido ligeramente para igualar el rango dinámico/reducir picos (~4-5db de reducción de ganancia como máximo)
Aumentado (ecualizado aditivo) para adaptarse al estilo vocal
Limitado a un pico de -6db con niveles generales entre -6 y -12db.
Pasado alto/bajo para eliminar frecuencias por debajo de 40hz–100hz y por encima de 20khz
Reequilibrado de fase

Graba tu propia voz.

¿Grabando voces para tu modelo? Aquí hay algunas configuraciones para que comiences.

Usa un micrófono de calidad con un amplio rango de frecuencias (40hz–20khz)
Configura tu tasa de muestreo a 48khz y el tipo de archivo a sin pérdida (.wav, .aiff, .flac)
Limita los sonidos de respiración y trata de capturar un tono limpio (evita las explosiones, coloca el micrófono fuera del eje y/o usa un filtro anti-pop si cantas con un estilo de respiración)
Evita las reflexiones en la habitación (graba en una habitación con superficies suaves como alfombra y muebles para absorber el sonido, coloca los micrófonos lejos de las paredes, acércate y reduce tu ganancia de entrada)
Monitorea el volumen de tu grabación y evita superar -6db dBFS. Trata de mantener tus niveles entre -12 y -6 dBFS.
Exporta tu audio como mono verdadero (en lugar de estéreo con canales L + R iguales)
Evita cortes bruscos en el audio (agrega un pequeño desvanecimiento para evitar estallidos que provienen de cortar audio antes o después de un cruce cero)

¿Grabando voces para tu modelo? Aquí hay algunas configuraciones para ayudarte a comenzar:

Usa un micrófono de calidad con un amplio rango de frecuencia (40hz–20khz)
Establece tu frecuencia de muestreo de grabación a 48khz y el tipo de archivo a sin pérdida (.wav, .aiff, .flac)
Limita los sonidos de respiración e intenta capturar un tono limpio (evita los estallidos, coloca el micrófono fuera del eje y/o usa un filtro antipop si cantas con un estilo de respiración)
Evita las reflexiones en la habitación (graba en una habitación con superficies suaves como alfombra y muebles para absorber el sonido, coloca los micrófonos lejos de las paredes, acércalos y reduce tu ganancia de entrada)
Monitorea el volumen de tu grabación y evita exceder -6db dBFS. Trata de mantener tus niveles entre -12 y -6 dBFS.
Exporta tu audio como verdadero mono (en lugar de estéreo con canales L + R iguales)
Evita cualquier corte brusco en el audio (agrega un desvanecimiento corto para evitar clics que provienen de cortar el audio antes o después de un cruce cero)

¿Grabando voces para tu modelo? Aquí tienes algunas configuraciones para empezar:

Usa un micrófono de calidad con un amplio rango de frecuencia (40hz–20khz)
Configura tu tasa de muestreo de grabación a 48khz y el tipo de archivo a sin pérdida (.wav, .aiff, .flac)
Limita los sonidos de respiración y trata de capturar un tono limpio (evita los estallidos, coloca el micrófono fuera de eje y/o usa un filtro anti-pop si cantas de manera susurrante)
Evita las reflexiones de la habitación (graba en una habitación con superficies suaves como alfombra y muebles para absorber el sonido, coloca los micrófonos alejados de las paredes, acércate y reduce tu ganancia de entrada)
Monitorea el volumen de tu grabación y evita exceder -6db dBFS. Intenta mantener tus niveles entre -12 y -6 dBFS.
Exporta tu audio en mono verdadero (en lugar de estéreo con canales L + R iguales)
Evita cortes abruptos en el audio (agrega una breve desvanecimiento para evitar estallidos que provengan de cortar el audio antes o después de un cruce por cero)

Contenido

Más variedad, mejor.

Es mejor tener ejemplos que abarquen todo tu rango. Pecho, mix, falsete; intervalos grandes y cortos; notas ásperas y limpias; etc. Cuanta más variedad, mejor.

Puedes cantar las mismas letras en diferentes tonos, un par de canciones de tu repertorio, originales, etc. El audio puede estar en varios archivos o en una toma única, siempre y cuando el tiempo de canto sume 10-15 minutos.

Techniques

Cómo convertir a True Mono

Utilice el programa gratuito Audacity para convertir archivos estéreo a verdadero mono.

Cómo eliminar el silencio

Utilice el programa gratuito Audacity para eliminar rápidamente el silencio de un acapella.

(Copie la configuración de este video, pero siéntase libre de experimentar. Elija un umbral entre -20db y -40db dependiendo del nivel de ruido de su acapella.)

Preguntas Frecuentes

P: ¿Cuánto tiempo lleva el entrenamiento del modelo?

Según el tamaño de tus datos, el entrenamiento del modelo podría tomar desde 30 minutos hasta varias horas. ¡Pero no te preocupes! Mientras veas 'Entrenamiento' en tu panel de creación de voces, tu modelo terminará pronto.

P: ¡Mi modelo está tardando una eternidad en cargar! ¿Qué está sucediendo?

Si estás subiendo un archivo grande, tarda mucho tiempo en subir los datos en nuestro servidor. Simplemente presiona “Subir” y ten paciencia; se procesará eventualmente. Asegúrate de no refrescar la página durante la carga.

P: ¿Qué hago si veo un error?

A: Si ves un error durante la carga, contáctanos en nuestro formulario de errores!

Empieza, gratis.

Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio

Comenzar

Creación de modelos de voz de IA

Características

Diseñado para

Precios

Aplicación de escritorio

Investigación

Blog

Iniciar sesión

Cómo crear tu conjunto de datos.

Cómo crear tu conjunto de datos.

Preparando tu(s) archivo(s).

Cómo convertir a mono y eliminar el silencio con Audacity

Utilice la herramienta de separación vocal Kits.AI para aislar las voces de su conjunto de datos.

Advanced dataset techniques.

Prepare su audio antes para obtener una calidad superior.

Graba tu propia voz.

Contenido

Techniques

Cómo convertir a True Mono

Cómo eliminar el silencio

Preguntas Frecuentes

P: ¿Cuánto tiempo lleva el entrenamiento del modelo?

P: ¡Mi modelo está tardando una eternidad en cargar! ¿Qué está sucediendo?

P: ¿Qué hago si veo un error?

PRODUCTO

CARACTERÍSTICAS

LEGAL

RECURSOS