Kits et Descript : Outils d'IA pour les créateurs audio

Écrit par
L'équipe Kits
Publié le
19 mars 2024
Au cours des dernières années de la révolution de l'intelligence artificielle, l'attention s'est principalement portée sur ce que l'IA peut apporter aux artistes visuels. Des milliards de personnes ont expérimenté des outils comme Dall-E, Midjourney et l'outil de Remplissage Génératif de Photoshop pour créer des images avec l'IA.
Mais saviez-vous qu'il existe des outils similaires pour les projets audio ? Les musiciens, producteurs, podcasteurs, streameurs, monteurs vidéo et bien d'autres peuvent utiliser l'IA pour améliorer chaque étape de leur flux de travail.
Dans cet article, nous allons examiner de près deux des outils audio IA les plus populaires : Kits, une plateforme vocale IA dédiée à la musique, et Descript, un éditeur audio alimenté par l'IA pour les podcasts.
Outils Kits AI pour les voix
Kits est un puissant outil de production musicale qui utilise l'IA pour créer un audio de haute qualité. Avec Kits, vous pouvez convertir la voix d'un chanteur en une autre et cloner la voix d'un interprète. Les opportunités créatives sont infinies.
Conversion de Voix
Kits est articulé autour de Convert, qui transforme la voix d'un chanteur en une voix complètement différente. Alors que d'autres outils d'IA font cela pour la parole, Kits est le premier à le proposer pour le chant. Les résultats sont si convaincants qu'ils peuvent passer pour des chanteurs professionnels enregistrés dans un studio haut de gamme, ce qui en fait un outil extrêmement polyvalent pour les producteurs.
Il vous suffit d'importer un fichier ou de vous enregistrer directement dans l'application web. En quelques secondes, votre morceau aura un tout nouveau chanteur !
Vous pouvez affiner la Conversion grâce à des commandes avancées :
Supprimez les pistes instrumentales, la réverbération et le delay, et/ou les chœurs de votre enregistrement pour obtenir de meilleurs résultats.
Pitch Shift : Augmentez ou diminuez la hauteur de ton jusqu'à 24 demi-tons.
Conversion Strength : Ajoute plus d'accent et d'articulation à la génération, mais peut provoquer des résultats inattendus à des niveaux élevés.
Volume Blend : Contrôlez la balance entre le volume d'entrée et le modèle. Des valeurs plus basses laissent transparaître davantage la dynamique d'origine.
Effets de pré-traitement : Coupez le bruit, les grondements et la dureté, lissez le volume et/ou appliquez un égaliseur avant la génération.
Effets de post-traitement : Appliquez un compresseur, un chorus, une réverbération et/ou un delay au résultat obtenu.
Tutoriel d'Entraînement de la Voix
La fonctionnalité la plus futuriste de Kits est Voice Training (l'entraînement de la voix). Importez simplement un fichier audio et Kits entraîne un modèle d'IA à créer un clone parfait de la voix du chanteur. Cette nouvelle voix peut être utilisée à la place d'une voix standard ou mélangée pour n'importe quelle conversion (plus d'explications ci-dessous).
Kits propose le meilleur outil de clonage de voix disponible pour les chanteurs. D'autres outils d'IA le proposent pour la parole, notamment Descript que nous détaillerons plus bas. Cependant, Descript utilise cette fonction principalement pour corriger des erreurs ou pour de simples générations de synthèse vocale. Kits vous permet d'utiliser sans effort le modèle de voix entraîné pour des conversions, ce qui constitue un avantage majeur.

Pour entraîner la voix, Kits accepte n'importe quel format audio enregistré. Un minimum de 10 minutes est recommandé pour de meilleurs résultats, mais le service accepte jusqu'à une heure d'enregistrement. (À titre de comparaison, Descript vous oblige à lire un script spécifique pour l'utiliser comme modèle de voix.) À partir de là, donnez simplement un nom et ajoutez une photo, puis entraînez votre nouvelle voix ! Elle sera enregistrée dans votre bibliothèque de voix pour vos utilisations futures.
Bibliothèque de Voix
Kits propose plus de 150 voix d'artistes dans sa Voice Library (bibliothèque de voix). Chacune est nommée d'après son genre musical et son genre biologique, comme Afrobeats Male (English, Melodic) ou Pop Female (English, Bedroom). Vous pouvez trier la bibliothèque par tessiture, genre, et style musical, et il existe même des voix pour d'autres langues et styles de musiques du monde. Elles sont toutes entièrement libres de droits, vous pouvez donc les utiliser comme bon vous semble.

Pour personnaliser encore plus votre son, vous pouvez combiner deux voix avec le Voice Blender (mélangeur de voix). Le curseur Blend Ratio contrôle la proportion de chaque voix à utiliser pour l'entraînement du nouveau modèle.

De plus, Kits propose des instruments, notamment la guitare, la basse, le saxophone et le violoncelle. Cela vous permet de créer des pistes instrumentales en toute simplicité : enregistrez-vous rapidement en train de chanter ou de fredonner une partie, puis convertissez-la en une voix instrumentale.
Synthèse Vocale (Text-To-Speech)
Kits propose également une fonction de synthèse vocale dans 14 langues, pour la narration, les voix off et tout autre contenu parlé. Comme la bibliothèque de voix de Kits est calibrée pour le chant, les résultats ont tendance à être plus naturels que ceux d'autres IA. Saisissez votre texte, sélectionnez une tessiture et générez le discours. L'ensemble de la bibliothèque de voix peut être utilisé, en plus des voix mélangées et entraînées.

Améliorateurs Audio IA
Extracteur de Voix (Vocal Remover)
Un autre outil musical basé sur l'IA dans Kits est le Vocal Remover. Importez une chanson et l'extracteur de voix sépare les voix de la partie instrumentale et des autres bruits de fond. Les paramètres avancés vous permettent de supprimer les chœurs et d'activer la réverbération, l'écho et la réduction de bruit. Grâce à son IA intégrée, le Vocal Remover de Kits a tendance à faire un meilleur travail que les logiciels traditionnels pour extraire précisément les voix, même lorsque des sons similaires se chevauchent.

Mastering par IA
Le mastering est la phase finale du flux de production musicale. La compression, la limitation, l'égalisation et d'autres procédés sont appliqués pour parfaire le son final et s'assurer que les différentes pistes s'harmonisent bien. Historiquement, cela a toujours été l'un des éléments les plus difficiles et les plus coûteux de la production, mais Kits AI permet même aux nouveaux producteurs de masteriser des pistes en quelques secondes.
Kits propose six préréglages de mastering :
Light & Bright
Bass Heavy
Punch & Air
Lush
Tape Glue
Analog Warmth
Comme ce processus convivial ne prend que quelques secondes, vous pouvez faire des essais pour voir celui qui fonctionne le mieux. Vous pouvez également importer une piste de référence, dont Kits utilisera le son comme modèle.

Kits n'est pas seulement l'outil de chant IA le plus puissant du marché, c'est aussi un outil essentiel pour les producteurs de musique modernes. Il utilise l'IA pour améliorer chaque étape de la production vocale, vous permettant de produire de meilleures voix en moins de temps, pour moins cher, et avec plus de créativité.
Descript : Éditeur de Podcast IA
Descript est l'un des outils les plus puissants disponibles aujourd'hui pour les podcasteurs, doté d'une suite riche de fonctions audio IA construites autour d'un éditeur de podcast textuel. (Descript propose également des outils pour le contenu vidéo, mais nous ne les aborderons pas ici.)
Attendez, un éditeur audio textuel ? Oui, Descript transcrit automatiquement votre audio afin que vous puissiez l'éditer comme un simple document, vos modifications se répercutant directement sur l'audio. Les longs enregistrements sont transcrits en quelques secondes et stockés en toute sécurité dans le cloud, et chaque interlocuteur est automatiquement identifié. De plus, cela fonctionne dans 22 langues. À cette expérience utilisateur unique s'ajoute une large gamme d'autres outils audio IA pour le montage vidéo :
Voix IA
Tout comme Kits, Descript inclut des voix standards utilisables pour la synthèse vocale. Il y en a 21 au total avec des étiquettes pour décrire leur profil : Masculin ou Féminin, Jeune, Adulte ou Plus âgé, ainsi que les accents et les styles.

Descript dispose également d'une fonction de clonage de voix similaire au Voice Training de Kits. Fait intéressant, Descript ne vous permet de cloner que votre propre voix. Pour vérifier cela, vous devez vous enregistrer en train de lire un script spécial servant de modèle. Votre voix peut être enregistrée pour être utilisée pour de la synthèse vocale, ainsi que pour de futurs Overdubs (doublages) de vos propres paroles.

Régénérer n'importe quelle transcription
La fonction Regenerate (régénérer) crée essentiellement un mini-clone de voix (sans passer par le long processus décrit ci-dessus), puis régénère un extrait de texte sélectionné dans la transcription de l'enregistrement. Cela permet des modifications audio qui seraient impossibles à réaliser sans l'IA - et c'est sans doute la fonctionnalité la plus puissante de Descript.
Par exemple, imaginons que vous enregistriez chez vous et que quelqu'un sonne à la porte. En temps normal, couper ce moment prendrait du temps, et le faire assez proprement pour que les auditeurs ne s'en rendent pas compte pourrait s'avérer impossible. Mais avec Descript, trouvez simplement ce moment dans la transcription, surlignez-le et cliquez sur Remplacer par → Régénérer. Un discours généré par l'IA viendra combler de manière transparente cette section de l'enregistrement original.
Et si vous interpellez votre colocataire pour qu'il aille ouvrir ? Vous pouvez facilement supprimer les mots hors sujet de la transcription, mais cela laissera une coupure évidente que les auditeurs pourront entendre. Il vous suffit de régénérer la phrase autour de la coupe et la voix de l'IA adaptera le ton et l'intonation pour masquer parfaitement la transition.
Overdub (Doublage automatique)
Juste en dessous de l'option Régénérer dans le menu
Commencez, c'est gratuit.
Optimisez votre flux de production vocale avec des outils audio AI de qualité studio
