एआई गायक आवाज प्रशिक्षण और अनुकूलन

द्वारा लिखा गया
किट्स टीम
प्रकाशित किया गया
6 नवंबर 2024
किट्स (Kits) में मेरी मुख्य भूमिकाओं में से एक यह सुनिश्चित करना है कि हमारे रॉयल्टी-मुक्त मॉडल को ठोस, प्रेरणादायक डेटासेट के साथ प्रशिक्षित किया जाए जो न केवल सुनने में अच्छे लगें, बल्कि उनके साथ काम करना भी प्रेरणादायक हो। इस प्रक्रिया के कुछ हिस्से पूरी तरह से तकनीकी हैं, जबकि अन्य रचनात्मक प्राथमिकताओं पर निर्भर करते हैं जो मॉडल के चरित्र को आकार देती हैं। आज, मैं विस्तार से बता रहा हूँ कि आप अपने खुद के प्रशिक्षण डेटा (training data) को कैसे अनुकूलित कर सकते हैं और अपने वॉयस मॉडल में एक अनूठी छाप जोड़ने के लिए कुछ सोच-समझकर रचनात्मक निर्णय कैसे ले सकते हैं।
पिछले कुछ हफ्तों में, मेरे लेखों में हमारे कुछ अधिक चरित्र-आधारित स्वरों (character-based voices) को बनाने की मेरी प्रक्रिया और मेरे द्वारा उपयोग की जाने वाली अनूठी तकनीकों को शामिल किया गया है। चाहे वह मेरे रॉक मेल (इंग्लिश, ओवरड्राइव्ड) मॉडल के लिए गिटार एम्पलीफायर के माध्यम से गाना हो या जैज़ फीमेल (इंग्लिश, विंटेज, सोप्रानो) के लिए मेरे स्टूडियो मॉनिटरों में से एक को कैप्चर करने के लिए रिबन माइक्रोफ़ोन का उपयोग करना हो, एक शानदार डेटासेट बनाने के तरीके वास्तव में अनंत हैं।
बुनियाद
एक ठोस बुनियाद किसी भी वॉयस मॉडल को बनाने का सबसे महत्वपूर्ण हिस्सा है। किसी भी विशेष विशेषताओं को जोड़ने से पहले, जिन्हें मैं जोड़ना चाहता हूँ, मैं हमेशा एक साफ स्वर कैप्चर (clean vocal capture) के साथ शुरुआत करता हूँ। इसका मतलब है कि पृष्ठभूमि के शोर को हटाना—एयर कंडीशनर, फ्रिज की गुनगुनाहट, या जो कुछ भी छिपा हुआ है—जो आपके मॉडल की आवाज़ को खराब कर सकता है और आगे चलकर समस्याएं पैदा कर सकता है। मान लें कि आपने एक बेहतरीन 30 मिनट का डेटासेट रिकॉर्ड किया है, लेकिन प्लेबैक पर, आपको एक धीमी गुनगुनाहट सुनाई देती है जो कमरे में बमुश्किल ध्यान देने योग्य थी। मेरे साथ ऐसा हो चुका है! मैं टेक (take) में इतना खो गया, कि बाद में ही मुझे पता चला कि एक एम्पलीफायर जोर से गूंज रहा था या पृष्ठभूमि में हीटर चल रहा था। यदि आप बिल्कुल शुरुआत से काम कर रहे हैं तो खुद उच्च-गुणवत्ता वाले स्वर रिकॉर्ड करने के तरीके पर हमारी गाइड देखें।
iZotope RX जैसा टूल लगातार होने वाली गुनगुनाहट और भनभनाहट को ठीक करना आसान बनाता है। बस RX का स्पेक्ट्रल डी-नॉइज़ मॉड्यूल खोलें, अपने ऑडियो के केवल पृष्ठभूमि शोर वाले हिस्से को चुनें, "Learn" पर क्लिक करें और ऑडियो चलाएं। RX विश्लेषण करेगा और अपने शोर में कमी (noise reduction) को स्वचालित रूप से समायोजित करेगा। आप थ्रेशोल्ड और रिडक्शन फ़ेडर्स को समायोजित करके इसे और अधिक ठीक कर सकते हैं, लेकिन RX उन परेशान करने वाली कमियों को दूर करना बेहद आसान बना देता है।

गैन लेवल (Gain Level) मायने रखता है
एक उचित गैन लेवल सेट करना भी महत्वपूर्ण है। मॉडल बनाते समय, मेरा लक्ष्य लगातार -12dB स्तर का होता है, जिसमें पीक्स (peaks) -6dB से अधिक न हों। यह ऑडियो को गतिशील रहने देता है जबकि मशीन लर्निंग को प्रभावी ढंग से प्रशिक्षित करने के लिए आदर्श वॉल्यूम प्रदान करता है। मैं अक्सर ऐसे सबमिशन देखता हूँ जो या तो वॉल्यूम में बहुत कम होते हैं या रेड ज़ोन में क्लिप (clipping) हो रहे होते हैं। डिजिटल क्लिपिंग आपको वह सुखद संतृप्ति (saturation) नहीं देती है जो आप एक रॉक वोकल में चाहते हैं—यह सिर्फ कर्कश होती है, और मशीन लर्निंग एल्गोरिदम भी इसे पसंद नहीं करते हैं।

चरित्र (Character) का निर्माण
यद्यपि एक साफ, ठोस डेटासेट आमतौर पर सबसे अच्छा आधार होता है, जो आपको अपने DAW में आयात करने के बाद चीजों में बदलाव करने की अनुमति देता है, लेकिन कभी-कभी अपने प्रशिक्षण डेटा में ही सीधे कुछ चरित्र जोड़ना मजेदार होता है। कोई भी ध्वनि जिसे आप किसी प्रभाव (effect) के साथ अपलोड करते हैं, वह स्वचालित रूप से आपके मॉडल में उस गुणवत्ता को ले जाएगी—बाद में किसी DAW जादू की आवश्यकता नहीं होगी। यह उन सामग्री निर्माताओं (content creators) के लिए एकदम सही हो सकता है जो एक विशिष्ट स्वर शैली तक पहुंच चाहते हैं, जैसे कि एक रेडियो या वॉकी-टॉकी प्रभाव जो हाई-मिड फ़्रीक्वेंसी पर ज़ोर देता है और थोड़ी सी खुरदरापन जोड़ता है। इसे अपने पूरे डेटासेट पर लागू करें, और आपके पास एक ऐसा मॉडल तैयार है जो तुरंत ऐसा लगता है जैसे रेडियो के माध्यम से आ रहा हो।

या फिर शायद कोने में रखे उस पुराने डिस्टॉर्शन पेडल की धूल साफ करने का समय आ गया है! इसके माध्यम से अपने डेटासेट को चलाने से वोकल चरित्र का एक बिल्कुल नया स्तर जुड़ सकता है।

मुझे अक्सर गिटार एम्पलीफायर के माध्यम से स्वर चलाना पसंद है—ओवरड्राइव को बढ़ाना और इसे स्वादानुसार समायोजित करना। क्यों न अपने मार्शल (Marshall) हाफ-स्टैक के माध्यम से पूरी ताकत से गाएं और देखें कि आपके पड़ोसियों द्वारा पुलिस को बुलाए जाने में कितना समय लगता है!

हालांकि, शायद आप शोर की शिकायत से बचना चाहेंगे और इसके बजाय इन छोटे बैटरी से चलने वाले मार्शल्स में से किसी एक को आज़माना चाहेंगे। (एक छोटी सी बात: ये छोटे एम्पलीफायर्स स्टूडियो के लिए सोने जैसे कीमती हैं—इन्हें अनदेखा न करें!)

एक और तरकीब? एक वाह (wah) पेडल। वाह पेडल को कुछ बिंदुओं पर सेट रखने से कई तरह के फ़िल्टर्ड प्रभाव उत्पन्न हो सकते हैं। यहाँ बहुत अधिक दिखावा करने की आवश्यकता नहीं है; एक मानक डनलप क्राईबेबी (Dunlop CryBaby) बहुत अच्छा काम करता है।

और रील-टू-रील टेप डेक के बिना एक प्रामाणिक लो-फाइ (lo-fi) शैली के लिए, एक कैसेट रिकॉर्डर आज़माएं। इस वाले कैसेट रिकॉर्डर में एक बिल्ट-इन माइक और USB 2.0 पोर्ट है। अपने स्पीकर से कैसेट पर रिकॉर्ड करने के लिए बिल्ट-इन माइक का उपयोग करने से एक सुंदर, गर्म और थोड़ा पुराना साउंड मिल सकता है। मुझे खुद इनमें से एक लेने की ज़रूरत हो सकती है—प्रयोग करने के लिए बिल्कुल सही!

निष्कर्ष
दिन के अंत में, संगीत बनाना मजेदार होना चाहिए, और मेरे लिए इसका मतलब सीमाओं को पार करना और नई आवाजें ढूंढना है। चिंता न करें यदि आपका पहला अपलोड प्रयास आपकी इच्छानुसार नहीं होता है—हर टेक प्रक्रिया का एक हिस्सा है, जो आपके अगले कदम का मार्गदर्शन करता है। कुछ प्रेरणादायक और अद्वितीय बनाने में आपकी सहायता के लिए Kits.AI यहाँ है। तो आगे बढ़ें—आसमान ही सीमा है!
शुरू करें, मुफ्त।
अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं
