किट्स और डिस्क्रिप्ट: ऑडियो निर्माताओं के लिए एआई टूल्स

द्वारा लिखा गया
किट्स टीम
प्रकाशित किया गया
19 मार्च 2024
आर्टिफिशियल इंटेलिजेंस (AI) क्रांति के पिछले कुछ वर्षों में, इस बात पर बहुत ध्यान केंद्रित किया गया है कि AI विजुअल आर्टिस्ट के लिए क्या कर सकता है। अरबों लोगों ने AI के साथ इमेज बनाने के लिए Dall-E, Midjourney और Photoshop के जनरेटिव फिल टूल जैसे टूल का उपयोग करके देखा है।
लेकिन क्या आप जानते हैं कि ऑडियो प्रोजेक्ट्स के लिए भी ऐसे ही टूल्स मौजूद हैं? संगीतकार, निर्माता, पॉडकास्टर्स, स्ट्रीमर्स, वीडियो एडिटर्स और बहुत से लोग अपने वर्कफ़्लो के हर कदम को बेहतर बनाने के लिए AI का उपयोग कर सकते हैं।
इस लेख में, हम सबसे लोकप्रिय AI ऑडियो टूल्स में से दो को देखेंगे: संगीत के लिए एक AI वोकल प्लेटफॉर्म Kits, और पॉडकास्ट के लिए AI-संचालित ऑडियो एडिटर Descript।
किट्स AI वोकल्स के लिए टूल्स
किट्स (Kits) एक शक्तिशाली संगीत निर्माण उपकरण (म्यूजिक प्रोडक्शन टूल) है जो उच्च-गुणवत्ता वाले ऑडियो बनाने के लिए AI का उपयोग करता है। किट्स के साथ, आप एक गायक की आवाज़ को दूसरे की आवाज़ में बदल सकते हैं और गायक की आवाज का क्लोन बना सकते हैं। रचनात्मकता की असीमित संभावनाएं हैं।
वॉइस कनवर्ट करना (आवाज बदलना)
किट्स का मुख्य फीचर Convert है, जो एक गायक की आवाज़ को पूरी तरह से अलग आवाज़ में बदल देता है। जबकि अन्य AI उपकरण ऐसा सामान्य बातचीत (स्पीच) के लिए करते हैं, लेकिन किट्स गायन के लिए इसे पेश करने वाला पहला प्लेटफॉर्म है। इसके परिणाम इतने बेहतरीन हैं कि वे किसी हाई-एंड स्टूडियो में रिकॉर्ड किए गए प्रोफेशनल गायकों की तरह लगते हैं, जो इसे निर्माताओं (प्रोड्यूसर्स) के लिए एक बेहद बहुमुखी टूल बनाता है।
बस एक फ़ाइल अपलोड करें या सीधे वेब ऐप में रिकॉर्ड करें। कुछ ही सेकंड में, आपकी धुन को एक नया गायक मिल जाएगा!
आप एडवांस कंट्रोल्स के साथ कनवर्ट करने की प्रक्रिया को बेहतर बना सकते हैं:
बेहतर परिणामों के लिए अपनी रिकॉर्डिंग से इंस्ट्रूमेंटल्स, रीवरब और डिले, और/या बैकिंग वोकल्स को हटा दें।
पिच शिफ्ट (Pitch Shift): पिच को 24 सेमीटोन तक बढ़ाएं या घटाएं।
कन्वर्जन स्ट्रेंथ: जनरेशन में अधिक उच्चारण और स्पष्टता जोड़ता है, लेकिन उच्च स्तरों पर अप्रत्याशित परिणाम दे सकता है।
वॉल्यूम ब्लेंड: इनपुट वॉल्यूम और मॉडल के बीच संतुलन को नियंत्रित करें। कम वैल्यू मूल गतिशीलता को अधिक प्रदर्शित करते हैं।
प्री-प्रोसेसिंग इफेक्ट्स: जनरेशन से पहले शोर (नॉइज़), गड़गड़ाहट और कर्कशता को कम करें, आवाज सुरीली करें, और/या ईक्यू (EQ) करें।
पोस्ट-प्रोसेसिंग इफेक्ट्स: परिणाम पर कंप्रेसर, कोरस, रीवरब, और/या डिले लागू करें।
वॉइस ट्रेनिंग ट्यूटोरियल
किट्स की सबसे भविष्यवादी विशेषता वॉइस ट्रेनिंग (Voice Training) है। बस एक ऑडियो फ़ाइल अपलोड करें और किट्स गायक की आवाज़ का एक आदर्श क्लोन बनाने के लिए एक AI मॉडल को प्रशिक्षित करता है। इस नई वॉइस का उपयोग किसी भी बदलाव के लिए स्टॉक या मिश्रित (Blended) आवाज़ के स्थान पर किया जा सकता है (इनके बारे में नीचे अधिक जानकारी दी गई है)।
किट्स गायकों के लिए उपलब्ध सबसे अच्छा वॉइस क्लोनिंग टूल प्रदान करता है। अन्य AI टूल्स बातचीत के लिए यह सुविधा प्रदान करते हैं, जिसमें डिस्क्रिप्ट (Descript) भी शामिल है जिसे हम नीचे विस्तार से कवर करेंगे। हालाँकि, डिस्क्रिप्ट इस फंक्शन का उपयोग ज्यादातर गलतियों को सुधारने या सामान्य टेक्स्ट-टू-स्पीच के लिए करता है। किट्स आपको बिना किसी परेशानी के कनवर्ट करने के लिए प्रशिक्षित वॉइस मॉडल का उपयोग करने की अनुमति देता है, जो इसका एक बड़ा फायदा है।

आवाज को प्रशिक्षित करने के लिए, किट्स किसी भी रिकॉर्ड किए गए ऑडियो फॉर्मेट की अनुमति देता है। यह सर्वोत्तम परिणामों के लिए 10 मिनट की सलाह देता है, लेकिन एक घंटे तक की फाइल को स्वीकार करता है। (तुलना के लिए, डिस्क्रिप्ट में आपको वॉइस टेम्पलेट के रूप में उपयोग करने के लिए एक विशिष्ट स्क्रिप्ट को पढ़ना होता है।) वहां से, बस एक नाम और फोटो जोड़ें, फिर अपनी नई आवाज को प्रशिक्षित करें! इसे भविष्य में उपयोग के लिए आपकी वॉइस लाइब्रेरी में सहेज लिया जाएगा।
वॉइस लाइब्रेरी
किट्स अपनी वॉइस लाइब्रेरी में 150+ आर्टिस्ट वॉइस प्रदान करता है। प्रत्येक का नाम उसके लिंग और शैली के आधार पर रखा गया है, जैसे कि Afrobeats Male (English, Melodic) या Pop Female (English, Bedroom)। आप लाइब्रेरी को पिच रेंज, लिंग और शैली के अनुसार सॉर्ट कर सकते हैं, और अन्य भाषाओं व विश्व संगीत शैलियों के लिए भी आवाजें उपलब्ध हैं। वे सभी पूरी तरह से रॉयल्टी-मुक्त हैं, इसलिए आप उनका उपयोग जैसे चाहें वैसे कर सकते हैं।

अपनी आवाज को और अधिक अनुकूलित करने के लिए, आप Voice Blender के साथ दो आवाजों को मिला सकते हैं। ब्लेंड रेशियो स्लाइडर यह नियंत्रित करता है कि नए मॉडल को प्रशिक्षित करने में प्रत्येक आवाज का कितना उपयोग किया जाए।

इसके अलावा, किट्स गिटार, बास, सैक्सोफोन और सेलो सहित वाद्ययंत्र (इंस्ट्रूमेंट्स) भी प्रदान करता है। यह आपको सहजता से वाद्ययंत्र संगीत बनाने की अनुमति देता है: बस अपने आप को गाते हुए या गुनगुनाते हुए जल्दी से रिकॉर्ड करें, फिर इसे किसी वाद्ययंत्र की आवाज में बदल दें।
टेक्स्ट-टू-स्पीच
किट्स नरेशन, वॉयसओवर और अन्य बोले जाने वाले कंटेंट के लिए 14 भाषाओं में टेक्स्ट-टू-स्पीच फ़ंक्शन भी प्रदान करता है। चूंकि किट्स की वॉइस लाइब्रेरी गायन के लिए कैलिब्रेटेड है, इसलिए इसके परिणाम अन्य AI की तुलना में अधिक प्राकृतिक होते हैं। अपनी स्क्रिप्ट दर्ज करें, एक पिच रेंज का चयन करें, और भाषण जेनरेट करें। पूरी वॉइस लाइब्रेरी के साथ-साथ मिश्रित (Blended) और प्रशिक्षित (Trained) आवाजों का उपयोग किया जा सकता है।

AI ऑडियो एन्हांसर्स
वोकल्स रिमूवर (वोकल्स हटाना)
किट्स में एक और AI-संचालित संगीत उपकरण वोकल्स रिमूवर (Vocal Remover) है। एक गाना अपलोड करें और वोकल्स रिमूवर मुख्य आवाज (वोकल्स) को संगीत और अन्य बैकग्राउंड नॉइज़ से अलग कर देता है। उन्नत सेटिंग्स आपको बैकिंग वोकल्स को हटाने और रीवरब, इको व नॉइज़ रिडक्शन को चालू/बंद करने की अनुमति देती हैं। अंदर मौजूद AI के साथ, किट्स का वोकल्स रिमूवर पारंपरिक सॉफ़्टवेयर की तुलना में वोकल्स को सटीक रूप से निकालने में बेहतर काम करता है, भले ही समान आवाज़ें आपस में टकरा रही हों।

AI मास्टरिंग
मास्टरिंग संगीत निर्माण वर्कफ़्लो का अंतिम चरण है। अंतिम ध्वनि को एकदम सही बनाने और यह सुनिश्चित करने के लिए कि अलग-अलग ट्रैक एक साथ मिलकर अच्छा काम करें, कंप्रेशन, लिमिटिंग, ईक्यू (EQ) और बहुत कुछ लागू किया जाता है। ऐतिहासिक रूप से यह प्रोडक्शन के सबसे कठिन और महंगे तत्वों में से एक रहा है, लेकिन किट्स AI नए निर्माताओं को भी कुछ ही सेकंड में ट्रैक मास्टर करने की अनुमति देता है।
किट्स छह रेडीमेड मास्टरिंग प्रीसेट प्रदान करता है:
लाइट एंड ब्राइट (Light & Bright)
बास हैवी (Bass Heavy)
पंच एंड एयर (Punch & Air)
लश (Lush)
टेप ग्लू (Tape Glue)
एनालॉग वार्मथ (Analog Warmth)
चूंकि यह उपयोगकर्ता के अनुकूल प्रक्रिया केवल कुछ सेकंड लेती है, आप यह देखने के लिए प्रयोग कर सकते हैं कि कौन सा प्रीसेट सबसे अच्छा काम करता है। आप एक संदर्भ (रेफरेंस) ट्रैक भी अपलोड कर सकते हैं, जिसकी ध्वनि का उपयोग किट्स एक मॉडल के रूप में करेगा।

किट्स केवल बाजार में सबसे शक्तिशाली AI सिंगिंग टूल ही नहीं है, बल्कि आधुनिक संगीत निर्माताओं के लिए एक आवश्यक उपकरण है। यह वोकल प्रोडक्शन के हर चरण को बेहतर बनाने के लिए AI का उपयोग करता है, जिससे आप कम समय, कम पैसे और अधिक रचनात्मकता के साथ बेहतर वोकल्स का निर्माण कर सकते हैं।
डिस्क्रिप्ट: AI पॉडकास्ट एडिटर
Descript आज पॉडकास्टर्स के लिए उपलब्ध सबसे शक्तिशाली उपकरणों में से एक है, जिसमें टेक्स्ट-आधारित पॉडकास्ट एडिटर के इर्द-गिर्द बने AI ऑडियो फ़ंक्शंस का एक समृद्ध संग्रह है। (डिस्क्रिप्ट कुछ वीडियो कंटेंट टूल्स भी प्रदान करता है, लेकिन हम उनके बारे में यहाँ बात नहीं करेंगे।)
रुकिए, टेक्स्ट-आधारित ऑडियो एडिटर? जी हाँ, डिस्क्रिप्ट आपके ऑडियो को स्वचालित रूप से ट्रांसक्राइब (लिखना) करता है ताकि आप इसे दस्तावेज़ की तरह संपादित कर सकें, और आपके बदलाव ऑडियो में भी दिखाई देंगे। लंबी रिकॉर्डिंग कुछ ही सेकंड में ट्रांसक्राइब हो जाती हैं और क्लाउड में सुरक्षित रूप से सेव हो जाती हैं तथा प्रत्येक वक्ता को स्वचालित रूप से चिह्नित (लेबल) किया जाता है। इसके अलावा, यह 22 भाषाओं में काम करता है। इस अनूठे उपयोगकर्ता अनुभव के साथ वीडियो संपादन के लिए कई अन्य AI ऑडियो उपकरण भी शामिल हैं:
AI वॉइस
किट्स की तरह, डिस्क्रिप्ट में स्टॉक आवाज़ें (stock voices) शामिल हैं जिनका उपयोग टेक्स्ट-टू-स्पीच के लिए किया जा सकता है। उनकी आवाज़ का वर्णन करने वाले टैग के साथ कुल 21 आवाज़ें हैं: पुरुष (Masculine) या महिला (Feminine), युवा (Younger), वयस्क (Adult), या बुजुर्ग (Older), साथ ही उनके एक्सेंट और शैलियाँ।

डिस्क्रिप्ट में किट्स पर वॉइस ट्रेनिंग के समान ही एक वॉइस क्लोनिंग (voice cloning) सुविधा भी है। दिलचस्प बात यह है कि डिस्क्रिप्ट आपको केवल खुद की आवाज़ को क्लोन करने की अनुमति देता है। इसे सत्यापित करने के लिए, आपको टेम्पलेट के रूप में एक विशेष स्क्रिप्ट पढ़ते हुए खुद को रिकॉर्ड करना होगा। आपकी आवाज़ को टेक्स्ट-टू-स्पीच के साथ-साथ आपके खुद के भाषण के भविष्य के ओवरडब्स (Overdubs) के लिए उपयोग करने के लिए सहेजा जा सकता है।

किसी भी ट्रांसक्रिप्शन को री-जेनरेट करें
री-जेनरेट (Regenerate) मूल रूप से एक छोटा वॉइस क्लोन बनाता है (ऊपर बताई गई लंबी प्रक्रिया के बिना), फिर रिकॉर्डिंग ट्रांसक्रिप्ट में टेक्स्ट के एक चयनित हिस्से को फिर से जेनरेट करता है। यह उन ऑडियो एडिट्स को संभव बनाता है जो AI के बिना असंभव होते -- और यह शायद डिस्क्रिप्ट की सबसे शक्तिशाली विशेषता है।
उदाहरण के लिए, मान लें कि आप घर पर रिकॉर्डिंग कर रहे हैं और दरवाजे की घंटी बजती है। सामान्य तौर पर, इस हिस्से को काटना समय लेने वाला काम होता है, और इसे इतनी सफाई से करना कि सुनने वालों को पता न चले, शायद असंभव हो। लेकिन डिस्क्रिप्ट के साथ, बस ट्रांसक्रिप्शन में उस क्षण को ढूंढें, उसे हाइलाइट करें, और 'रिप्लेस विद → री-जेनरेट' पर क्लिक करें। मूल रिकॉर्डिंग के उस हिस्से के ऊपर AI द्वारा जेनरेट की गई आवाज़ को सहजता से भर दिया जाएगा।
और क्या होगा यदि आप अपने रूममेट को दरवाजा खोलने के लिए आवाज लगाते हैं? आप ट्रांसक्रिप्ट से उन असंबंधित शब्दों को आसानी से हटा सकते हैं, लेकिन यह एक स्पष्ट कट छोड़ देगा जिसे सुनने वाले महसूस कर सकते हैं। बस उस कट के चारों ओर के वाक्यांश को री-जेनरेट करें और AI आवाज़ इसे पूरी तरह से छिपाने के लिए टोन और उच्चारण से मेल खाएगी।
ओवरडब (Overdub)
रिप्लेस विद मेन्यू में री-जेनरेट के ठीक नीचे ओवरडब (Overdub) है। एडिट्स को सुचारू बनाने के लिए AI आवाज़ का उपयोग करने के बजाय, ओवरडब इसका उपयोग पॉडकास्ट में नए शब्द डालने के लिए करता है। यदि आप किसी शब्द का गलत उच्चारण करते हैं, कोई पंक्ति भूल जाते हैं, या सरलता से अपनी बात को वैसे व्यक्त नहीं कर पाते जैसे आपको करना चाहिए था, तो आप तुरंत अवांछित हिस्से को काट सकते हैं और उसे AI ओवरडब से बदल सकते हैं।
चूंकि डिस्क्रिप्ट स्वचालित रूप से विभिन्न वक्ताओं की पहचान करता है, इसलिए ओवरडब स्वचालित रूप से सही वक्ता से मेल खाएगा। साथ ही, नया ऑडियो आसपास की रिकॉर्डिंग के माइक की गुणवत्ता, बैकग्राउंड नॉइज़ और बोलने के लहज़े से मेल खाएगा।

स्टूडियो साउंड
केवल एक क्लिक के साथ, Studio Sound के एल्गोरिदम किसी भी रिकॉर्डिंग को पेशेवर बना देते हैं। बस ऑडियो इफेक्ट्स के तहत स्विच चालू करें, और स्टूडियो साउंड दोनों को बेहतर बनाने के लिए आवाजों को बैकग्राउंड नॉइज़ से अलग कर देता है। इंटेंसिटी स्लाइडर इस बात को नियंत्रित करता है कि प्रभाव कितने प्रभावी रूप से लागू किया जाए। आवाज़ को बेहतर बनाया जाएगा, जिससे एक त्वरित आईफोन रिकॉर्डिंग भी उच्च गुणवत्ता वाले माइक्रोफ़ोन जैसी सुनाई देगी। अपनी वीडियो फ़ाइल को बेहतर बनाएं और सरल, सहज चरणों में बैकग्राउंड नॉइज़, सरसराहट और कमरे की गूंज को हटा दें।
फालतू शब्दों को हटाना (Filler Word Removal)
हर पॉडकास्टर ने इसका अनुभव किया है: आप एक एपिसोड रिकॉर्ड करते हैं और सोचते हैं कि आपने कमाल कर दिया है। लेकिन जब आप इसे वापस सुनते हैं, तो आपका भाषण "जैसे," "उम," खाली समय (साइलेंस) और अन्य अनचाहे शब्दों से भरा होता है। ये छोटी-छोटी बातें दुर्भाग्य से इस बात पर बहुत बड़ा प्रभाव डाल सकती हैं कि दर्शक आपको कैसे देखते हैं।
फालतू शब्दों को हटाने (Filler Word Removal) की सुविधा डिस्क्रिप्ट में अंतर्निहित है, और इसकी बाकी विशेषताओं की तरह, इसका उपयोग करना अविश्वसनीय रूप से सरल है। जब आपका ऑडियो ट्रांसक्राइब हो जाएगा, तो फालतू शब्द अपने आप अंडरलाइन हो जाएंगे। स्टार आइकन पर क्लिक करें, फिर अपने भाषण को साफ करने के लिए "फालतू शब्द हटाएँ (Remove filler words)" और "शब्दों के बीच की दूरी कम करें (Shorten word gaps)" संपादन उपकरण का उपयोग करें।

आपके लिए सर्वश्रेष्ठ AI टूल खोजना
किट्स और डिस्क्रिप्ट AI-सक्षम ऑडियो प्रोडक्शन में सबसे आगे हैं। उनके उपकरण आपके मौजूदा वर्कफ़्लो को बेहतर बनाने के लिए सरलता और सुगमता से काम करते हैं। किट्स के वॉइस कन्वर्जन व वॉइस ट्रेनिंग और डिस्क्रिप्ट के टेक्स्ट-आधारित संपादक जैसे शक्तिशाली मूल्य निर्धारण वाले शक्तिशाली उपकरण ऐसी रचनात्मक संभावनाएं खोलते हैं जो पहले कभी मौजूद नहीं थीं। इसके अलावा, किट्स में वोकल्स रिमूवर व AI मास्टरिंग और डिस्क्रिप्ट में री-जेनरेट व फिलर वर्ड रिमूवल जैसी विशेषताएं ऑडियो उत्पादन के सबसे समय लेने वाले और थकाऊ पहलुओं को समाप्त करती हैं। AI ऑडियो टूल्स आपको एक बेहतर क्रिएटर कैसे बनाएंगे?
शुरू करें, मुफ्त।
अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं
