Guía de creación de modelos de voz de inteligencia artificial gratuita

Cree el mejor modelo de voz posible al crear un conjunto de datos de alta calidad utilizando los consejos a continuación. Si necesita soporte adicional, únase al Discord de Kits.ai o póngase en contacto con nosotros.

Guía de creación de modelos de voz de inteligencia artificial gratuita

Cree el mejor modelo de voz posible al crear un conjunto de datos de alta calidad utilizando los consejos a continuación. Si necesita soporte adicional, únase al Discord de Kits.ai o póngase en contacto con nosotros.

Cómo crear tu conjunto de datos.

Reúne 5-10 minutos en total de voces secas (sin efectos) y monofónicas (una nota a la vez).

Reúne 5-10 minutos en total de voces secas (sin efectos) y monofónicas (una nota a la vez).

Reúne 5-10 minutos en total de voces secas (sin efectos) y monofónicas (una nota a la vez).

- No hay reverberación, retardo, efectos de coro o instrumentales,
- No armonías, capas, doblaje, efectos estéreo.
- No variación en los estilos vocales. Por ejemplo, solo cantar o solo rapear, pero no ambos.

- No hay reverberación, retardo, efectos de coro o instrumentales,
- No armonías, capas, doblaje, efectos estéreo.
- No variación en los estilos vocales. Por ejemplo, solo cantar o solo rapear, pero no ambos.

- No hay reverberación, retardo, efectos de coro o instrumentales,
- No armonías, capas, doblaje, efectos estéreo.
- No variación en los estilos vocales. Por ejemplo, solo cantar o solo rapear, pero no ambos.

Malas voces

Estéreo, reverberación, retardo

0:00/1:34

Buenas voces

Mono, tono limpio, bajo ruido

Utilice la herramienta de separación vocal Kits.AI para aislar las voces en su conjunto de datos.

Para aislar la voz de una canción, simplemente sube un archivo o pega un enlace de YouTube en la herramienta Separadora Vocal de Kits.AI. Esta es una forma sencilla de crear tu propio conjunto de datos.

Utilice videos de YouTube como su conjunto de datos.

Para los suscriptores de Kits.AI, entrenar una voz es tan simple como pegar un enlace de YouTube. Encuentra algunos videos de tu voz y deja que Kits haga el trabajo de aislar las vocales y entrenar tu modelo de voz.

Técnicas avanzadas de conjunto de datos.

Preprocesa tu audio para obtener una mayor calidad.

Su audio puede ser:

- EQ limpio (sustractivo) para reducir frecuencias lodosas o ásperas en la grabación

- sutilmente corregido en afinación (ataque lento, fuerza moderada) a menos que sea una parte clave del estilo vocal

- des-eseado para reducir cualquier siseo áspero

- ligeramente comprimido para nivelar el rango dinámico/reducir picos (máximo de ~4-5db de reducción de ganancia)

- realzado (EQ aditivo) para que encaje con el estilo vocal

- limitado a un pico de -6db con niveles generales entre -6 y -12db.

- paso alto/paso bajo para eliminar frecuencias por debajo de 40hz–100hz y por encima de 20khz

- re-equilibrado de fase

Graba tus propias voces.

¿Grabar vocales para tu modelo? Aquí tienes algunas configuraciones para comenzar:

- Utiliza un micrófono de calidad con un amplio rango de frecuencia (40 Hz–20 kHz)

- Configura la frecuencia de muestreo de grabación a 48 kHz y el tipo de archivo a sin pérdida (.wav, .aiff, .flac)

- Limita los sonidos de la respiración e intenta capturar un tono limpio (evita los oclusivos, coloca el micrófono fuera del eje y/o usa un protector contra los explosivos si cantas con un estilo susurrante)

- Evita las reflexiones de la habitación (graba en una habitación con superficies suaves como alfombras y muebles para absorber el sonido, coloca los micrófonos lejos de las paredes, acércate y reduce tu ganancia de entrada)

- Supervisa el volumen de tu grabación y evita superar -6 dBFS. Trata de mantener tus niveles entre -12 y -6 dBFS.

- Exporta tu audio como verdadero mono (en lugar de estéreo con canales L + R iguales)

- Evita cualquier corte brusco en el audio (agrega un ligero desvanecimiento para evitar los chasquidos que provienen de cortar el audio antes o después de un cruce por cero)

¿Grabando voces para tu modelo? Aquí tienes algunas configuraciones para comenzar:

- Usa un micrófono de calidad con un amplio rango de frecuencia (40hz-20khz)

- Configura la frecuencia de muestreo de tu grabación a 48khz y el tipo de archivo como sin pérdida (.wav, .aiff, .flac)

- Limita los sonidos de respiración e intenta capturar un tono limpio (evita los plosivos, coloca el micrófono fuera del eje y/o usa un filtro antipop si cantas con estilo de voz susurrante)

- Evita las reflexiones de la habitación (graba en una habitación con superficies blandas como alfombras y muebles para absorber el sonido, coloca los micrófonos lejos de las paredes, acércalos y reduce el nivel de entrada)

- Controla el volumen de tu grabación y evita exceder los -6db dBFS. Intenta mantener tus niveles entre -12 y -6 dBFS.

- Exporta tu audio como verdadero mono (en lugar de estéreo con canales L + R iguales)

- Evita cortes bruscos en el audio (añade un corte de salida corto para evitar los chasquidos que provienen de cortar el audio antes o después de un cruce por cero)

Preguntas frecuentes

P: ¿Cuánto tiempo tarda el entrenamiento del modelo?

¡Dependiendo del tamaño de sus datos, el entrenamiento del modelo podría tomar desde 30 minutos hasta varias horas! ¡Pero no se preocupe, mientras vea 'Entrenamiento' en su panel de control de voces creadas, su modelo terminará pronto.

P: ¡Mi modelo está tardando una eternidad en cargar! ¿Qué está pasando?

Si estás subiendo un archivo grande, lleva mucho tiempo subir los datos en nuestro sistema. Simplemente pulsa 'Subir' y ten paciencia; eventualmente se procesará. Asegúrate de no refrescar la página durante la carga.

P: ¿Qué hago si veo un error?

A: Si ves un error durante la carga, contáctanos en nuestro formulario de errores!

A: Si ves un error durante la carga, contáctanos en nuestro formulario de errores!