Entraînement et personnalisation de voix chantées par IA

Écrit par
L'équipe Kits
Publié le
6 novembre 2024
L’un de mes rôles principaux chez Kits consiste à m’assurer que nos modèles libres de droits sont entraînés avec des jeux de données solides et inspirants, qui ne se contentent pas de bien sonner, mais qui donnent envie de créer. Certaines étapes de ce processus sont purement techniques, tandis que d’autres relèvent de choix artistiques qui façonnent la personnalité du modèle. Aujourd’hui, je vous explique comment optimiser vos propres données d’entraînement et faire des choix créatifs intentionnels pour donner une identité unique à vos modèles de voix.
Au cours des dernières semaines, mes articles ont détaillé ma méthode pour créer certaines de nos voix de personnages et les techniques originales que j’ai utilisées. Qu’il s’agisse de chanter à travers un ampli de guitare pour mon modèle Rock Male (English, Overdriven) ou d’utiliser un microphone à ruban pour capter l’un de mes moniteurs de studio pour Jazz Female (English, Vintage, Soprano), les façons de concevoir un jeu de données exceptionnel sont vraiment infinies.
La base d’un bon modèle
Une base solide est l’élément le plus crucial dans la création de tout modèle de voix. Peu importent les caractéristiques spéciales que je souhaite ajouter, je commence toujours par une capture vocale propre. Cela signifie éliminer les bruits de fond (climatisation, ronflement de frigo, ou autre élément perturbateur) qui peuvent dégrader le son de votre modèle et poser des problèmes par la suite. Imaginons que vous ayez enregistré un excellent jeu de données de 30 minutes, mais qu’à la lecture, vous entendiez un léger bourdonnement à peine audible dans la pièce. C’est du vécu ! Je me suis déjà laissé emporter par une prise, pour me rendre compte plus tard qu'un ampli grésillait comme un fou ou que le chauffage fonctionnait en arrière-plan. Consultez notre guide pour savoir comment enregistrer vous-même des voix de haute qualité si vous partez de zéro.
Un outil comme iZotope RX permet de corriger facilement les bourdonnements et grésillements continus. Il vous suffit d’ouvrir le module Spectral De-noise de RX, de sélectionner une section de votre audio contenant uniquement le bruit de fond, de cliquer sur « Learn » (Apprendre) et de lancer la lecture. RX va analyser et ajuster automatiquement sa réduction de bruit. Vous pouvez ensuite affiner les réglages avec les curseurs de seuil (Threshold) et de réduction (Reduction), mais RX simplifie grandement l'élimination de ces artefacts gênants.

L'importance du niveau de gain
Le réglage d’un niveau de gain approprié est également essentiel. Lors de la création de modèles, je vise un niveau constant de -12 dB, avec des pics ne dépassant pas -6 dB. Cela permet à l’audio de rester dynamique tout en offrant au machine learning le volume idéal pour un entraînement efficace. Je vois souvent passer des fichiers dont le volume est soit beaucoup trop bas, soit saturé dans le rouge. La saturation numérique n’apporte pas cette chaleur agréable que l’on recherche parfois sur une voix rock : elle est simplement agressive, et les algorithmes de machine learning n’apprécient pas du tout.

Créer du relief et de la personnalité
Même si un jeu de données propre et neutre constitue généralement la meilleure base de départ (vous permettant de manipuler le son à votre guise une fois importé dans votre DAW), il est parfois amusant d'intégrer du caractère directement dans vos données d'entraînement. Tout son que vous importez avec un effet appliqué conservera automatiquement cette spécificité dans votre modèle final, sans nécessiter de traitement ultérieur dans votre logiciel. C’est idéal pour les créateurs de contenu qui souhaitent obtenir une esthétique vocale bien précise, comme un effet de radio ou de talkie-walkie qui accentue les fréquences médiums-aiguës et ajoute un peu de grain. Appliquez cela à l’ensemble de votre jeu de données, et vous obtiendrez un modèle prêt à l'emploi qui donne instantanément l'impression de passer à la radio.

Ou peut-être est-il temps de dépoussiérer cette vieille pédale de distorsion oubliée dans un coin ! Y faire passer votre jeu de données peut apporter une toute nouvelle dimension au caractère de la voix.

J’aime beaucoup faire passer les voix dans un ampli de guitare, en poussant l’overdrive et en l’ajustant à l’oreille. Pourquoi ne pas pousser votre bon vieux Marshall à fond pour voir combien de temps il faut avant que vos voisins n’appellent la police !

Mais si vous préférez éviter les problèmes de voisinage, vous pouvez essayer l’un de ces petits Marshall fonctionnant sur pile. (Note en passant : ces mini-amplis sont de vrais trésors en studio, ne les sous-estimez pas !)

Une autre astuce ? Une pédale wah-wah. Maintenir une wah bloquée dans une certaine position peut produire une grande variété d’effets de filtrage. Pas besoin de chercher compliqué : une simple Dunlop CryBaby fait parfaitement l’affaire.

Et pour une véritable esthétique lo-fi sans avoir à sortir le magnétophone à bandes, essayez un enregistreur à cassette. Celui-ci dispose d’un micro intégré et d’un port USB 2.0. Utiliser le micro intégré pour enregistrer le son de votre enceinte sur cassette peut donner un son magnifiquement dégradé et chaleureux. Je devrais peut-être m'en procurer un moi-même, c'est l'outil parfait pour expérimenter !

Conclusion
En fin de compte, faire de la musique doit rester un plaisir. Pour moi, cela signifie repousser les limites et chercher de nouvelles sonorités. Ne vous inquiétez pas si votre premier essai d’importation ne donne pas exactement le résultat espéré : chaque tentative fait partie du processus et vous aide à progresser. Kits.AI est là pour vous accompagner dans la création de modèles uniques et inspirants. Alors, lancez-vous, la seule limite est votre imagination !
Commencez, c'est gratuit.
Optimisez votre flux de production vocale avec des outils audio AI de qualité studio
