अनुसंधान

त्वरित वॉयस क्लोनिंग

23 अप्रैल, 2025

अनास्तासिया हेरस द्वारा

हम इंस्टेंट वॉयस क्लोनिंग (IVC) को पेश करने के लिए बेहद उत्साहित हैं, जो जीरो-शॉट सिंगिंग वॉयस कन्वर्शन द्वारा संचालित पहला प्रोडक्ट है, जो अब kits.ai पर उपलब्ध है। IVC केवल 15-30 सेकंड के संदर्भ ऑडियो के साथ और बिना किसी ट्रेनिंग समय के बेजोड़ सिंगर समानता और गुणवत्ता प्रदान करता है, जिससे नए वोकल विचारों को तुरंत तलाशना पहले से कहीं अधिक आसान हो जाता है।

इनपुट

0:00/1:34

लक्ष्य गायक संदर्भ

0:00/1:34

आउटपुट

0:00/1:34

गायक की समानता में एक बड़ा कदम आगे

ज़ीरो-शॉट वॉयस कन्वर्शन (Acious voice conversion) के साथ सबसे आम चुनौतियों में से एक है, कुल गुणवत्ता से समझौता किए बिना संदर्भ गायक (रेफरेंस सिंगर) के साथ एक आकर्षक समानता प्राप्त करना। तीन प्रमुख नवाचारों (इनोवेशंस) की बदौलत, IVC फिडेलिटी और यथार्थवाद में प्रगति के साथ-साथ समानता की सीमाओं को आगे बढ़ाता है।

  • स्टूडियो-रिकॉर्डेड, लाइसेंस प्राप्त वोकल्स का एक बड़ा और अधिक क्यूरेटेड डेटासेट। हमने वोकल शैलियों और टिम्बर्स की एक विस्तृत श्रृंखला में प्रदर्शन को बेहतर बनाने के लिए डेटासेट का विस्तार और सफाई की है।

  • सिंथेसिस के दौरान अधिक सटीकता (फिडेलिटी) प्राप्त करने के लिए एक डिफ्यूजन ट्रांसफॉर्मर मॉड्यूल का उपयोग किया जाता है, विशेष रूप से संदर्भ आवाज (रेफरेंस वॉयस) की अभिव्यक्ति को पुनरुत्पादित करते समय।

  • एक नया, गायन-विशिष्ट (सिंगिंग-स्पेसिफिक) वोकोडर जिसे अधिक बारीकियों और यथार्थवाद के साथ गायन की विशेषताओं को पुनरुत्पादित करने के लिए डिजाइन और प्रशिक्षित किया गया है।

ज़ीरो-शॉट वॉयस कन्वर्शन में हमारा पिछला शोध इन सुधारों की नींव प्रदान करता है। इंस्टेंट वॉयस क्लोनिंग (Instant Voice Cloning) मेलोडी, कंटेंट और स्टाइल को अलग करने के लिए उसी तीन-भाग वाले फीचर एम्बेडिंग दृष्टिकोण का उपयोग करता है।

यह आर्किटेक्चर केवल कुछ सेकंड के संदर्भ ऑडियो (रेफरेंस ऑडियो) के साथ, प्रभावशाली सटीकता के साथ इनपुट फ़ाइल की वोकल पहचान और अभिव्यक्ति को बदलना संभव बनाता है।

उच्च गुणवत्ता वाले लाइसेंस प्राप्त डेटा पर प्रशिक्षित

हमेशा की तरह, हम जो कुछ भी बनाते हैं उसमें गुणवत्ता और कलाकारों के सम्मान को प्राथमिकता देते हैं। इंस्टेंट वॉयस क्लोनिंग सिस्टम को कलाकारों से सीधे लाइसेंस प्राप्त, स्टूडियो-रिकॉर्डेड वोकल्स के डेटासेट पर प्रशिक्षित किया गया था। रिलीज़-स्तर के गुणवत्ता मानकों को पूरा करने के लिए पेशेवर ऑडियो इंजीनियरों द्वारा हर वोकल स्टेम को मैन्युअल रूप से प्रोसेस किया गया था। यह सुनिश्चित करता है कि हमारे मॉडल न केवल तकनीकी रूप से शक्तिशाली हैं — बल्कि वे कलात्मक रूप से भी भरोसेमंद हैं।

अभी आज़माएं

IVC सीमित समय के लिए सभी उपयोगकर्ताओं के लिए मुफ्त में उपलब्ध है — इसे अभी आज़माएं