एआई गायक आवाज प्रशिक्षण और अनुकूलन

अनुकूलित करने और अपनी आवाज़ों को ट्वीक करने के बारे में अधिक जानें ताकि आप हमारे वॉयस लाइब्रेरी के निर्माता और साउंड इंजीनियर द्वारा निर्देशित एक गाइड के साथ अद्वितीय, आकर्षक वोकल्स बना सकें।

एआई गायक आवाज प्रशिक्षण और अनुकूलन

द्वारा लिखा गया

किट्स टीम

प्रकाशित किया गया

6 नवंबर 2024

लिंक कॉपी करें

कॉपी किया गया

किट्स (Kits) में मेरी मुख्य भूमिकाओं में से एक यह सुनिश्चित करना है कि हमारे रॉयल्टी-मुक्त मॉडल को ठोस, प्रेरणादायक डेटासेट के साथ प्रशिक्षित किया जाए जो न केवल सुनने में अच्छे लगें, बल्कि उनके साथ काम करना भी प्रेरणादायक हो। इस प्रक्रिया के कुछ हिस्से पूरी तरह से तकनीकी हैं, जबकि अन्य रचनात्मक प्राथमिकताओं पर निर्भर करते हैं जो मॉडल के चरित्र को आकार देती हैं।  आज, मैं विस्तार से बता रहा हूँ कि आप अपने खुद के प्रशिक्षण डेटा (training data) को कैसे अनुकूलित कर सकते हैं और अपने वॉयस मॉडल में एक अनूठी छाप जोड़ने के लिए कुछ सोच-समझकर रचनात्मक निर्णय कैसे ले सकते हैं। 

पिछले कुछ हफ्तों में, मेरे लेखों में हमारे कुछ अधिक चरित्र-आधारित स्वरों (character-based voices) को बनाने की मेरी प्रक्रिया और मेरे द्वारा उपयोग की जाने वाली अनूठी तकनीकों को शामिल किया गया है। चाहे वह मेरे रॉक मेल (इंग्लिश, ओवरड्राइव्ड) मॉडल के लिए गिटार एम्पलीफायर के माध्यम से गाना हो या जैज़ फीमेल (इंग्लिश, विंटेज, सोप्रानो) के लिए मेरे स्टूडियो मॉनिटरों में से एक को कैप्चर करने के लिए रिबन माइक्रोफ़ोन का उपयोग करना हो, एक शानदार डेटासेट बनाने के तरीके वास्तव में अनंत हैं।  

बुनियाद

एक ठोस बुनियाद किसी भी वॉयस मॉडल को बनाने का सबसे महत्वपूर्ण हिस्सा है। किसी भी विशेष विशेषताओं को जोड़ने से पहले, जिन्हें मैं जोड़ना चाहता हूँ, मैं हमेशा एक साफ स्वर कैप्चर (clean vocal capture) के साथ शुरुआत करता हूँ। इसका मतलब है कि पृष्ठभूमि के शोर को हटाना—एयर कंडीशनर, फ्रिज की गुनगुनाहट, या जो कुछ भी छिपा हुआ है—जो आपके मॉडल की आवाज़ को खराब कर सकता है और आगे चलकर समस्याएं पैदा कर सकता है। मान लें कि आपने एक बेहतरीन 30 मिनट का डेटासेट रिकॉर्ड किया है, लेकिन प्लेबैक पर, आपको एक धीमी गुनगुनाहट सुनाई देती है जो कमरे में बमुश्किल ध्यान देने योग्य थी। मेरे साथ ऐसा हो चुका है! मैं टेक (take) में इतना खो गया, कि बाद में ही मुझे पता चला कि एक एम्पलीफायर जोर से गूंज रहा था या पृष्ठभूमि में हीटर चल रहा था। यदि आप बिल्कुल शुरुआत से काम कर रहे हैं तो खुद उच्च-गुणवत्ता वाले स्वर रिकॉर्ड करने के तरीके पर हमारी गाइड देखें।

iZotope RX जैसा टूल लगातार होने वाली गुनगुनाहट और भनभनाहट को ठीक करना आसान बनाता है। बस RX का स्पेक्ट्रल डी-नॉइज़ मॉड्यूल खोलें, अपने ऑडियो के केवल पृष्ठभूमि शोर वाले हिस्से को चुनें, "Learn" पर क्लिक करें और ऑडियो चलाएं। RX विश्लेषण करेगा और अपने शोर में कमी (noise reduction) को स्वचालित रूप से समायोजित करेगा। आप थ्रेशोल्ड और रिडक्शन फ़ेडर्स को समायोजित करके इसे और अधिक ठीक कर सकते हैं, लेकिन RX उन परेशान करने वाली कमियों को दूर करना बेहद आसान बना देता है। 

iZotope RX's de-noise module

गैन लेवल (Gain Level) मायने रखता है

एक उचित गैन लेवल सेट करना भी महत्वपूर्ण है। मॉडल बनाते समय, मेरा लक्ष्य लगातार -12dB स्तर का होता है, जिसमें पीक्स (peaks) -6dB से अधिक न हों। यह ऑडियो को गतिशील रहने देता है जबकि मशीन लर्निंग को प्रभावी ढंग से प्रशिक्षित करने के लिए आदर्श वॉल्यूम प्रदान करता है। मैं अक्सर ऐसे सबमिशन देखता हूँ जो या तो वॉल्यूम में बहुत कम होते हैं या रेड ज़ोन में क्लिप (clipping) हो रहे होते हैं। डिजिटल क्लिपिंग आपको वह सुखद संतृप्ति (saturation) नहीं देती है जो आप एक रॉक वोकल में चाहते हैं—यह सिर्फ कर्कश होती है, और मशीन लर्निंग एल्गोरिदम भी इसे पसंद नहीं करते हैं। 

gain level of audio

चरित्र (Character) का निर्माण

यद्यपि एक साफ, ठोस डेटासेट आमतौर पर सबसे अच्छा आधार होता है, जो आपको अपने DAW में आयात करने के बाद चीजों में बदलाव करने की अनुमति देता है, लेकिन कभी-कभी अपने प्रशिक्षण डेटा में ही सीधे कुछ चरित्र जोड़ना मजेदार होता है। कोई भी ध्वनि जिसे आप किसी प्रभाव (effect) के साथ अपलोड करते हैं, वह स्वचालित रूप से आपके मॉडल में उस गुणवत्ता को ले जाएगी—बाद में किसी DAW जादू की आवश्यकता नहीं होगी। यह उन सामग्री निर्माताओं (content creators) के लिए एकदम सही हो सकता है जो एक विशिष्ट स्वर शैली तक पहुंच चाहते हैं, जैसे कि एक रेडियो या वॉकी-टॉकी प्रभाव जो हाई-मिड फ़्रीक्वेंसी पर ज़ोर देता है और थोड़ी सी खुरदरापन जोड़ता है। इसे अपने पूरे डेटासेट पर लागू करें, और आपके पास एक ऐसा मॉडल तैयार है जो तुरंत ऐसा लगता है जैसे रेडियो के माध्यम से आ रहा हो।

A radio effect machine

या फिर शायद कोने में रखे उस पुराने डिस्टॉर्शन पेडल की धूल साफ करने का समय आ गया है! इसके माध्यम से अपने डेटासेट को चलाने से वोकल चरित्र का एक बिल्कुल नया स्तर जुड़ सकता है।

DS-1 distortion pedal

मुझे अक्सर गिटार एम्पलीफायर के माध्यम से स्वर चलाना पसंद है—ओवरड्राइव को बढ़ाना और इसे स्वादानुसार समायोजित करना। क्यों न अपने मार्शल (Marshall) हाफ-स्टैक के माध्यम से पूरी ताकत से गाएं और देखें कि आपके पड़ोसियों द्वारा पुलिस को बुलाए जाने में कितना समय लगता है!

Marshall cabinet amp

हालांकि, शायद आप शोर की शिकायत से बचना चाहेंगे और इसके बजाय इन छोटे बैटरी से चलने वाले मार्शल्स में से किसी एक को आज़माना चाहेंगे। (एक छोटी सी बात: ये छोटे एम्पलीफायर्स स्टूडियो के लिए सोने जैसे कीमती हैं—इन्हें अनदेखा न करें!) 

A smaller Marshall amplifier

एक और तरकीब? एक वाह (wah) पेडल। वाह पेडल को कुछ बिंदुओं पर सेट रखने से कई तरह के फ़िल्टर्ड प्रभाव उत्पन्न हो सकते हैं। यहाँ बहुत अधिक दिखावा करने की आवश्यकता नहीं है; एक मानक डनलप क्राईबेबी (Dunlop CryBaby) बहुत अच्छा काम करता है। 

Dunlop Crybaby wah pedal

और रील-टू-रील टेप डेक के बिना एक प्रामाणिक लो-फाइ (lo-fi) शैली के लिए, एक कैसेट रिकॉर्डर आज़माएं। इस वाले कैसेट रिकॉर्डर में एक बिल्ट-इन माइक और USB 2.0 पोर्ट है। अपने स्पीकर से कैसेट पर रिकॉर्ड करने के लिए बिल्ट-इन माइक का उपयोग करने से एक सुंदर, गर्म और थोड़ा पुराना साउंड मिल सकता है। मुझे खुद इनमें से एक लेने की ज़रूरत हो सकती है—प्रयोग करने के लिए बिल्कुल सही!

A retro 39-BT cassette recorder

निष्कर्ष

दिन के अंत में, संगीत बनाना मजेदार होना चाहिए, और मेरे लिए इसका मतलब सीमाओं को पार करना और नई आवाजें ढूंढना है। चिंता न करें यदि आपका पहला अपलोड प्रयास आपकी इच्छानुसार नहीं होता है—हर टेक प्रक्रिया का एक हिस्सा है, जो आपके अगले कदम का मार्गदर्शन करता है। कुछ प्रेरणादायक और अद्वितीय बनाने में आपकी सहायता के लिए Kits.AI यहाँ है। तो आगे बढ़ें—आसमान ही सीमा है! 


विषय-सूची

शीर्षक

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

आपके लिए अनुशंसित ब्लॉग पोस्ट