RECHERCHE
Présentation de KGV1 : le premier modèle de voix génératives de Kits.AI
18 février 2025
par Kyle Dhillon, Anastasiia Herus, Amantur Amatov
Nous sommes ravis de partager notre premier modèle entièrement génératif de conversion de texte en voix : KGV1 (Kits Generative Vocals 1.0).
Ce modèle combine des éléments issus des techniques de musique générative SOTA et des architectures vocales de Kits pour produire une génération de texte-en-voix de haute qualité.

« Je suis de retour en ville, mets ce disque et monte le son. »
« Des clôtures vieillies / l'été est fini / avec mes amis et jamais mieux. »
« Quelque chose dans la façon dont tu sonnes / quand tu chantes à l'improviste. »
« Alors que je dormais sur ton canapé, tu t'es réveillé pour le voir partir, oh... »
« Nous nous réveillerons avec le soleil, car maintenant nous savons pour qui nous vivons. »
« Ceci est pour l'équipe, sans vous que serais-je ? »
KGV1 s'appuie sur les recherches de pointe concernant les transformateurs de diffusion pour relever le défi du conditionnement des paroles, permettant ainsi à un système basé sur la diffusion de traduire des paroles en un chant cohérent.
Au-delà de cela, nous sommes en mesure d'obtenir une sortie vocale de plus haute fidélité par rapport à d'autres modèles génératifs de texte à audio en tirant parti des modules de Kits Voice Conversion (KVC). L'intégration de l'encodeur de contenu, de la récupération de contenu et de l'extraction de hauteur stable de KVC corrige les artefacts de prononciation et l'incohérence de hauteur qui sont souvent présents dans d'autres sorties vocales génératives.
De plus, cela donne aux utilisateurs le contrôle sur le timbre et le style de leur voix cible.
Le copilote IA pour votre flux de travail musical
KGV1 est un point de départ pour notre prochaine génération de modèles génératifs puissants qui répondent aux besoins pratiques des producteurs de musique. Pour un chanteur, KGV1 pourrait esquisser des idées de mélodies vocales ; pour un producteur, il pourrait créer des extraits vocaux uniques pour l'échantillonnage ou pour une utilisation dans la production finale.
En parlant avec des centaines de producteurs, artistes et vocalistes de la communauté Kits, nous croyons que les outils de musique générative sont les plus puissants lorsqu'ils fonctionnent dans le contexte d'un flux de travail musical. Ainsi, les recherches futures nous orienteront vers des signaux de conditionnement musical supplémentaires tels que des morceaux instrumentaux, des courbes de hauteur, des séquences MIDI, le BPM et des incitations de style. Nous voyons KGV1 comme le premier pas vers une intelligence musicale générative qui s'intègre directement dans le flux de travail créatif.


KGV1 sera bientôt disponible en version bêta privée sur app.kits.ai.
