INVESTIGACIÓN

Clonación de Voz Instantánea:

9 de diciembre de 2024

por Anastasiia Herus

Estamos emocionados de presentar Instant Voice Cloning (IVC), un sistema de conversión de voz de cero-shot que maximiza la similitud y calidad del cantante mientras solo requiere segundos de audio de referencia.

IVC ofrece a los productores de música un método sin tiempo de inactividad para experimentar con voces clonadas. Con solo 15-30 segundos de voces de prueba como referencia, los productores pueden convertir voces con una similitud y calidad impresionantes.

Estamos emocionados de presentar Clonación de Voz Instantánea (IVC), un sistema de conversión de voz sin muestras que maximiza la similitud y calidad del cantante, requiriendo solo segundos de audio de referencia.

IVC ofrece a los productores musicales un método sin tiempos de inactividad para experimentar con voces clonadas. Con solo 15-30 segundos de voces de ejemplo como referencia, los productores pueden convertir voces con una similitud y calidad impresionantes.

Entrada

0:00/1:34

Referencia del cantante objetivo

0:00/1:34

Salida

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

Un gran paso adelante en la similitud de cantantes

Uno de los desafíos más comunes con la conversión de voz sin entrenamiento previo es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC consigue empujar los límites de la semejanza junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y curado de voces grabadas en estudio y con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos y timbres vocales.

  • Un módulo transformador de difusión para lograr una mayor fidelidad durante la síntesis, especialmente en la reproducción de la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para canto diseñado y entrenado para reproducir las características del canto con mayor detalle y realismo.

Nuestra investigación previa en la conversión de voz sin entrenamiento previo proporciona la base para estas mejoras. La clonación instantánea de voz utiliza el mismo enfoque de incrustación de características en tres partes para separar melodía, contenido y estilo.

Esta arquitectura hace posible transformar la identidad y expresividad vocal de un archivo de entrada con una precisión impresionante, todo con solo segundos de audio de referencia.

Uno de los desafíos más comunes con la conversión de voz sin muestras previas es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC logra empujar los límites de semejanza junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y mejor curado de voces grabadas en estudio con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos y timbres vocales.

  • Un módulo transformador de difusión para lograr una mayor fidelidad durante la síntesis, especialmente en la reproducción de la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para canto diseñado y entrenado para reproducir características de canto con mayor matiz y realismo.

Nuestra investigación previa en conversión de voz sin muestras previas proporciona la base para estas mejoras. La clonación instantánea de voz utiliza el mismo enfoque de incrustación de características en tres partes para desvincular la melodía, el contenido y el estilo.

Esta arquitectura hace posible transformar la identidad vocal y la expresividad de un archivo de entrada con una precisión impresionante, todo con solo segundos de audio de referencia.

Uno de los desafíos más comunes con la conversión de voz sin entrenamiento previo es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC logra expandir los límites de la similitud junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y mejor curado de voces grabadas en estudio y con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos y timbres vocales.

  • Un módulo de transformador de difusión para lograr una mayor fidelidad durante la síntesis, especialmente en la reproducción de la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para el canto diseñado y entrenado para reproducir características de canto con mayor matiz y realismo.

Nuestra investigación previa en conversión de voz sin entrenamiento previo proporciona la base para estas mejoras. El Clon Instantáneo de Voz utiliza el mismo enfoque de incrustación de características en tres partes para desvincular la melodía, el contenido y el estilo.

Esta arquitectura hace posible transformar la identidad vocal y la expresividad de un archivo de entrada con una precisión impresionante, todo con solo segundos de audio de referencia.

Entrenado con datos con licencia y de alta calidad

Como siempre, priorizamos la calidad y el respeto al artista en todo lo que construimos. El sistema de Clonación Instantánea de Voz fue entrenado con un conjunto de datos de voces grabadas en estudio, licenciadas directamente de los artistas. Cada pista de voz fue procesada manualmente por ingenieros de audio profesionales para cumplir con los estándares de calidad a nivel de lanzamiento. Esto asegura que nuestros modelos no solo son técnicamente poderosos, sino también artísticamente confiables.

Como siempre, priorizamos la calidad y el respeto al artista en todo lo que construimos. El sistema de Clonación de Voz Instantánea se entrenó con un conjunto de datos de voces grabadas en estudio, licenciadas directamente por los artistas. Cada pista vocal fue procesada manualmente por ingenieros de audio profesionales para cumplir con estándares de calidad a nivel de lanzamiento. Esto asegura que nuestros modelos no solo sean técnicamente potentes, sino que también sean artísticamente confiables.

Pruébalo ahora

IVC está disponible ahora para los suscriptores de Kits — pruébalo ahora.