अनुसंधान

KGV1 का परिचय: Kits.AI का पहला जनरेटिव वोकल्स मॉडल

18 फरवरी, 2025

काइल ढिल्लों, अनास्तासिया हेरस, अमानतुर अमातोव द्वारा

हम अपना पहला पूरी तरह से जेनरेटिव टेक्स्ट-टू-वोकल्स मॉडल साझा करते हुए प्रसन्न हैं: KGV1 (Kits Generative Vocals 1.0)।

यह मॉडल उच्च गुणवत्ता वाले टेक्स्ट-टू-वोकल जनरेशन को प्रदान करने के लिए एसओटीए (SOTA) जनरेटिव म्यूजिक तकनीकों और किट्स (Kits) वोकल आर्किटेक्चर के तत्वों को जोड़ता है।

“मैं वापस शहर आ गया हूँ, वह रिकॉर्ड चलाओ और आवाज़ तेज़ करो।”

0:00/1:34

“बारिश से भरी बाड़ें / गर्मी का अंत / मेरे दोस्तों के साथ और कभी बेहतर नहीं।”

0:00/1:34

“आपकी आवाज़ के बारे में कुछ / जब आप अचानक गाते हैं।”

0:00/1:34

“जब मैं आपकी सोफे पर सो रहा था, तो आप उसे बाहर जाते हुए देखने के लिए जाग गए, ओह...”

0:00/1:34

"हम सूरज के साथ जागेंगे, क्योंकि अब हमें पता है कि हम किसके लिए जी रहे हैं"

0:00/1:34

"यह एक टीम के लिए है, आपके बिना मैं क्या होता"

0:00/1:34

KGV1 डिफ्यूजन ट्रांसफॉर्मर्स पर आधारित प्रमुख शोध का लाभ उठाता है ताकि गीत कंडीशनिंग (lyric conditioning) की चुनौती का सामना किया जा सके — जिससे एक डिफ्यूजन-आधारित सिस्टम गीतों (lyrics) को सुसंगत गायन में अनुवादित करने में सक्षम हो सके।

इसके अलावा, हम किट्स वॉयस कन्वर्जन (KVC) से मॉड्यूल का लाभ उठाकर अन्य टेक्स्ट-से-ऑडियो जनरेटिव मॉडल्स पर उच्च फिडेलिटी वोकल आउटपुट प्राप्त करने में सक्षम हैं। KVC से कंटेंट एनकोडर, कंटेंट रिसर्च और स्थिर पिच निकालने को एकीकृत करना उच्चारण के दोषों और पिच की असंगति को ठीक करता है जो अक्सर अन्य जनरेटिव वोकल आउटपुट में मौजूद होते हैं।

इसके अतिरिक्त, यह उपयोगकर्ताओं को उनके लक्षित स्वर की स्वरूप और शैली पर नियंत्रण प्रदान करता है।

आपके संगीत वर्कफ़्लो के लिए एआई कोपायलट (AI Copilot)

KGV1 हमारी अगली पीढ़ी के शक्तिशाली जेनेरेटिव मॉडल्स की शुरुआत है, जो संगीत निर्माताओं की व्यावहारिक ज़रूरतों को पूरा करते हैं। एक गायक के लिए, KGV1 टॉप लाइन्स के विचारों का रफ़ स्केच तैयार कर सकता है; एक निर्माता के लिए, यह सैंपलिंग या फाइनल प्रोडक्शन में उपयोग के लिए अनोखे वोकल क्लिप बना सकता है।

किट्स समुदाय में सैकड़ों निर्माता, कलाकारों और गायक-गायिकाओं के साथ बात करने के बाद, हमें विश्वास है कि जनरेटिव म्यूजिक टूल्स सबसे शक्तिशाली होते हैं जब वे संगीत कार्यप्रवाह के संदर्भ में काम करते हैं। इसलिए, भविष्य का शोध हमें अतिरिक्त संगीत संवेदनात्मक संकेतों की ओर ले जाएगा जैसे कि वाद्य ट्रैक्स, पिच वक्र, MIDI अनुक्रम, BPM, और शैली सुझाव। हम KGV1 को एक जनरेटिव संगीत बुद्धिमत्ता की ओर पहला कदम मानते हैं जो सीधे रचनात्मक कार्यप्रवाह में फिट बैठता है।

KGV1 जल्द ही app.kits.ai पर प्राइवेट बीटा में उपलब्ध होगा.