INVESTIGACIÓN

Clonación Instantánea de Voz

23 de abril de 2025

por Anastasiia Herus

Estamos emocionados de presentar Instant Voice Cloning (IVC), el primer producto impulsado por la conversión de voz cantada sin entrenamiento previo, ahora disponible en kits.ai. IVC ofrece una similitud y calidad de cantante insuperable con solo 15-30 segundos de audio de referencia y sin tiempo de entrenamiento, lo que hace que sea más fácil que nunca explorar nuevas ideas vocales al instante.

Estamos emocionados de presentar Copiado Instantáneo de Voz (IVC), el primer producto impulsado por la conversión de voz cantada sin necesidad de entrenamiento, ahora disponible en kits.ai. IVC ofrece una similitud y calidad de cantante sin igual con solo 15-30 segundos de audio de referencia y sin tiempo de entrenamiento, facilitando más que nunca la exploración instantánea de nuevas ideas vocales.

Entrada

0:00/1:34

Referencia del cantante objetivo

0:00/1:34

Salida

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

Un gran paso adelante en la similitud de cantantes

Uno de los desafíos más comunes con la conversión de voz zero-shot es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC empuja los límites de la semejanza junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y más curado de voces grabadas en estudio y con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos vocales y timbres.

  • Un módulo transformador de difusión se utiliza para lograr una mayor fidelidad durante la síntesis, especialmente al reproducir la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para canto diseñado y entrenado para reproducir características del canto con mayor matiz y realismo.

Nuestra investigación previa en conversión de voz zero-shot proporciona la base para estas mejoras. La clonación instantánea de voz utiliza el mismo enfoque de incrustación de características en tres partes para desvincular melodía, contenido y estilo.

Esta arquitectura hace posible transformar la identidad vocal y la expresividad de un archivo de entrada con una precisión impresionante, todo con solo segundos de audio de referencia.

Uno de los desafíos más comunes con la conversión de voz zero-shot es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC empuja los límites de la similitud junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y mejor curado de voces grabadas en estudio y con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos y timbres vocales.

  • Un módulo transformador de difusión se utiliza para lograr una mayor fidelidad durante la síntesis, especialmente al reproducir la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para el canto diseñado y entrenado para reproducir características del canto con mayor matiz y realismo.

Nuestra investigación previa en la conversión de voz zero-shot proporciona la base para estas mejoras. Instant Voice Cloning utiliza el mismo enfoque de incrustación de características en tres partes para separar la melodía, el contenido y el estilo.

Esta arquitectura hace posible transformar la identidad y expresividad vocal de un archivo de entrada con una precisión impresionante, todo con solo segundos de audio de referencia.

Uno de los desafíos más comunes con la conversión de voz sin ejemplos previos es lograr un nivel convincente de similitud con el cantante de referencia sin sacrificar la calidad general. Gracias a un trío de innovaciones clave, IVC empuja los límites de la semejanza junto con avances en fidelidad y realismo.

  • Un conjunto de datos más grande y mejor curado de voces grabadas en estudio y con licencia. Hemos ampliado y limpiado el conjunto de datos para mejorar el rendimiento en una gama más amplia de estilos y timbres vocales.

  • Un módulo transformador de difusión se utiliza para lograr una mayor fidelidad durante la síntesis, especialmente al reproducir la expresividad de la voz de referencia.

  • Un nuevo vocoder específico para canto diseñado y entrenado para reproducir características del canto con mayor matiz y realismo.

Nuestra investigación previa en la conversión de voz sin ejemplos previos proporciona la base para estas mejoras. La Clonación Instantánea de Voz utiliza el mismo enfoque de incrustación de características en tres partes para deshacer la melodía, el contenido y el estilo.

Esta arquitectura hace posible transformar la identidad vocal y la expresividad de un archivo de entrada con impresionante precisión, todo con solo segundos de audio de referencia.

Entrenado con datos de alta calidad con licencia

Como siempre, priorizamos la calidad y el respeto al artista en todo lo que construimos. El sistema de Clonación Instantánea de Voz fue entrenado con un conjunto de datos de voces grabadas en estudio, licenciadas directamente de los artistas. Cada pista de voz fue procesada manualmente por ingenieros de audio profesionales para cumplir con los estándares de calidad a nivel de lanzamiento. Esto asegura que nuestros modelos no solo son técnicamente poderosos, sino también artísticamente confiables.

Como siempre, priorizamos la calidad y el respeto al artista en todo lo que construimos. El sistema de Clonación de Voz Instantánea se entrenó con un conjunto de datos de voces grabadas en estudio, licenciadas directamente por los artistas. Cada pista vocal fue procesada manualmente por ingenieros de audio profesionales para cumplir con estándares de calidad a nivel de lanzamiento. Esto asegura que nuestros modelos no solo sean técnicamente potentes, sino que también sean artísticamente confiables.

Pruébalo ahora

IVC está disponible de forma gratuita para todos los usuarios por un tiempo limitado — pruébalo ahora.