AI 음성 모델 생성

아래의 팁을 사용하여 고품질 데이터셋을 만들어 가능한 최상의 음성 모델을 생성하세요.

기능

디자인된 용도

가격

데스크톱 앱

연구

블로그

Select Language

Log in

시작하기

시작하기

데이터 세트를 만드는 방법입니다.

건조한(효과 없이) 모노포닉(한 번에 하나의 음표) 보컬을 총 30-60분 모으세요.

리버브, 딜레이, 코러스, 또는 악기 연주는 없습니다.
하모니, 레이어링, 더블 트래킹, 스테레오 효과가 없습니다.
보컬 스타일의 변화가 없습니다. 예를 들어, 노래만 하거나 랩만 하지만 둘 다는 아닙니다.

리버브, 딜레이, 코러스, 또는 악기 없음,
하모니, 레이어링, 더블 트래킹, 스테레오 효과 없음.
음성 스타일에 변형 없음. 예: 단순한 노래 또는 랩만, 둘 다 아님.

리버브, 딜레이, 코러스 또는 기악이 없습니다.
화음, 레이어링, 더블 트래킹, 스테레오 효과가 없습니다.
보컬 스타일의 변형이 없습니다. 예를 들어, 단순히 노래 부르기 또는 단순히 랩만 할 수 있지만 둘 다는 아닙니다.

나쁜 보컬

스테레오, 리버브, 딜레이

0:00/1:34

좋은 보컬

모노, 깨끗한 음색, 낮은 소음

파일을 준비 중입니다.

정적 음성 및 일정한 볼륨으로 파일을 16-bit 의 무손실 오디오 파일 (.wav 선호)로 내보내세요.

이전: 침묵, 일관되지 않은 음량 수준

이후: 줄임말되어 있는 조용함, 일정한 볼륨

당신의 보컬을 컴파일한 후, 다음 단계는 교육을 위한 파일을 준비하는 것입니다:

여분의 침묵을 제거하십시오 (우리는 이를 Audacity를 사용하여 자동으로 수행하는 것을 권장합니다)
진정한 모노로 내보내기 (왼쪽과 오른쪽 채널이 같은 스테레오 대신)
16비트 .wav 형식으로 내보내기 (오디오 길이 요구 사항 없음, 하나의 15분 파일 또는 15개의 1분 파일이 될 수 있습니다)

여분의 침묵을 제거하세요 (우리는 Audacity를 사용하여 자동으로 수행하는 것을 권장합니다)
진정한 모노로 내보내기 (L + R 채널이 동일한 스테레오가 아닌)
16 비트 .wav로 내보내기 (오디오 길이 요구 사항 없음, 15분 파일 하나 또는 1분 파일 15개가 될 수 있음)

여분의 침묵을 제거합니다 (자동으로 Audacity로 수행하는 것을 권장합니다)
진정한 모노로 내보냅니다 (왼쪽 및 오른쪽 채널이 동일한 스테레오가 아닌)
16비트 .wav로 내보냅니다 (오디오 길이 요구 사항 없음, 15분 파일 하나 또는 15개의 1분 파일로 가능)

오디오디티를 사용하여 모노로 변환하고 침묵을 제거하는 방법

데이터셋에서 보컬을 분리하는 Kits.AI 음성 분리 도구를 사용하세요.

노래에서 보컬을 분리하려면 파일을 Kits.AI 보컬 분리기 도구에 업로드하면 됩니다. 이것은 나만의 데이터 세트를 만드는 쉬운 방법입니다.

Advanced dataset techniques.

고음질을 위해 오디오를 사전 처리하십시오.

귀하의 오디오는 다음과 같을 수 있습니다:

녹음에서 흐릿하거나 거친 주파수를 줄이기 위해 클린 EQd (감쇄)
음성이 스타일의 주요 부분이 아닌 경우 미세하게 음정 보정 (느린 공격, 적당한 강도)
거친 시빌런스를 줄이기 위해 De-essed
다이나믹 범위를 평준화/정점 줄이기 위해 약간 압축 (~4-5db의 감률이 최대)
보컬 스타일에 맞게 부스트 (가산 EQd)
전체 레벨이 -6과 -12db 사이에서 -6db의 피크로 제한
40hz~100hz 이하 및 20khz 이상의 주파수를 제거하기 위해 고역/저역 통과
위상 재조정

귀하의 오디오는 다음과 같습니다:

녹음에서 흐릿하거나 거친 주파수를 줄이기 위해 깨끗한 EQ 처리(감소형)
음성 스타일의 주요 부분이 아닌 경우 미묘한 피치 보정(느린 공격, 중간 강도)
거친 시비언스를 줄이기 위해 디-에셋 처리
다이나믹 레인지를 고르게 하거나 피크를 줄이기 위해 약간 압축(~최대 4-5db의 게인 감소)
개빈 스타일에 맞게 부스트(추가형 EQ 처리)
-6db의 피크와 -6db에서 -12db 사이의 전체 레벨로 제한됨.
40hz–100hz 이하와 20khz 이상의 주파수를 제거하기 위해 하이/로우 패스 처리됨
위상 재조정됨

귀하의 오디오는 다음과 같습니다:

녹음에서 흐릿하거나 harsh한 주파수를 줄이기 위해 클린 EQ 처리됨 (감소형)
조용한 공격, 적당한 강도로 섬세하게 피치 보정됨, 이는 보컬 스타일의 핵심 부분이 아닐 경우에 한함
거친 시빌란스를 줄이기 위해 De-essed 처리됨
다이나믹 범위를 고르게 하고 피크를 줄이기 위해 부드럽게 압축됨 (~최대 4-5db의 이득 감소)
보컬 스타일에 맞게 부스트됨 (추가형 EQ 처리됨)
전체 레벨이 -6과 -12db 사이가 되도록 -6db의 피크로 제한됨.
40hz–100hz 이하와 20khz 이상 주파수를 제거하기 위해 하이/로우 패스 처리됨
위상 재조정됨

당신 자신의 보컬을 녹음하세요.

모델을 위한 보컬 녹음 중인가요? 시작하는 데 도움이 될 몇 가지 설정이 있습니다:

광범위한 주파수 범위(40hz–20khz)의 고품질 마이크를 사용하세요.
녹음 샘플 레이트를 48khz로 설정하고 파일 유형을 무손실(.wav, .aiff, .flac)로 설정하세요.
호흡 소음을 제한하고 깨끗한 톤을 포착하려고 노력하세요(폭발음 피하고, 마이크를 비스듬히 놓거나 호흡이 많이 들어간 스타일로 노래할 경우 팝 필터 사용)
방 반사를 피하세요(소리를 흡수하는 카펫과 가구가 있는 방에서 녹음하고, 마이크를 벽에서 멀리 두고, 가까이 가서 입력 이득을 줄이세요)
녹음 볼륨을 모니터링하고 -6db dBFS를 초과하지 않도록 하세요. 레벨을 -12와 -6 dBFS 사이로 유지하도록 하세요.
오디오를 진정한 모노로 내보내세요(균등한 L + R 채널을 가진 스테레오 대신)
오디오의 하드 컷을 피하세요(오디오를 제로 크로싱 전에 또는 후에 자르기 전에 팝이 나오는 것을 피하기 위해 짧은 페이드 아웃을 추가하세요)

모델을 위한 보컬 녹음 중인가요? 시작하는 데 도움이 되는 몇 가지 구성 요소가 있습니다.:

넓은 주파수 범위(40hz–20khz)의 품질 좋은 마이크를 사용하세요.
녹음 샘플 속도를 48khz로 설정하고 파일 유형을 무손실(.wav, .aiff, .flac)로 설정하세요.
호흡 소음을 제한하고 깨끗한 톤을 포착하도록 시도하세요(폭발음을 피하고, 마이크를 비스듬히 배치하거나 호흡이 있는 스타일로 노래할 경우 팝 필터를 사용하세요).
방 반사를 피하세요(소리를 흡수할 수 있는 카펫과 가구 같은 부드러운 표면이 있는 방에서 녹음하고, 마이크를 벽에서 멀리 두고, 더 가까이 이동하여 입력 게인을 줄이세요).
녹음 볼륨을 모니터링하고 -6db dBFS를 초과하지 않도록 하세요. 레벨을 -12와 -6 dBFS 사이로 유지하도록 하세요.
오디오를 진정한 모노로 내보내세요(좌우 채널이 동일한 스테레오 대신).
오디오에 하드 컷을 피하세요(오디오를 제로 크로싱 전후에 자르기 전에 팝 소음을 피하기 위해 짧은 페이드 아웃을 추가하세요).

모델을 위한 보컬 녹음이 필요하신가요? 시작하는 데 도움이 될 수 있는 몇 가지 설정이 있습니다.:

광범위한 주파수 범위(40hz–20khz)를 갖춘 고품질 마이크 사용
녹음 샘플 속도를 48khz로 설정하고 파일 형식을 손실 없는 형식(.wav, .aiff, .flac)으로 설정
호흡 소음을 줄이고 깨끗한 음색을 포착하려고 노력하세요 (폭발음 피하기, 마이크를 오프 축으로 배치 및/또는 숨고르기 스타일로 노래할 경우 팝 필터 사용)
실내 반향을 피하세요 (소리를 흡수할 수 있는 카펫 및 가구와 같은 부드러운 표면이 있는 방에서 녹음하고, 마이크를 벽에서 멀리 두고, 더 가까이 가고 입력 게인을 줄이세요)
녹음 볼륨을 모니터링하고 -6db dBFS를 초과하지 않도록 하세요. -12와 -6 dBFS 사이의 레벨을 유지하세요.
오디오를 진정한 모노로 내보내세요 (L + R 채널이 같은 스테레오가 아닌)
오디오에서 단단한 컷을 피하세요 (오디오의 제로 교차점 앞이나 뒤에서 잘라내기 전에 팝 소음을 피하기 위해 짧은 페이드 아웃 추가)

콘텐츠

더 많은 다양성이 좋습니다.

전체 음역대를 커버하는 예시가 가장 좋습니다. 가슴음, 혼합음, 펠셋토; 넓고 짧은 간격; 격조와 깨끗한 음; 등이 필요합니다. 다양성이 더 많을수록 좋습니다.

동일한 가사를 다른 음으로 불러볼 수도 있고, 레퍼토리에서 여러 곡, 자작곡 등도 노래할 수 있습니다. 음원은 여러 파일에 나누어 저장되어도 되고, 하나의 연속된 녹음으로도 상관 없습니다 — 노래하는 시간만 10–15분이 되면 됩니다.

Techniques

참 모노로 변환하는 방법

무료 프로그램 오디시티를 사용하여 스테레오 파일을 진정한 모노로 변환하세요.

침묵을 제거하는 방법

무료 Audacity 프로그램을 사용하여 아카펠라에서 고요한 부분을 빠르게 제거하세요.

(이 비디오의 설정을 복사하지만 자유롭게 실험해보세요. 아카펠라의 소음 수준에 따라 -20db에서 -40db 사이의 임계값을 선택하세요.)

자주 묻는 질문

Q: 모델 훈련에는 얼마나 시간이 걸리나요?

데이터 크기에 따라 모델 교육에는 30분에서 몇 시간이 걸릴 수 있습니다! 걱정하지 마세요. 자신의 목소리 만들기 대시보드에서 교육 중이라면 곧 모델이 완료될 것입니다.

Q: 내 모델이 업로드하는 데 영원히 걸리고 있어요! 무슨 일이죠?

만약 큰 파일을 업로드하는 경우, 백엔드에서 데이터를 업로드하는 데 시간이 오래 걸립니다. 그냥 “업로드”를 누르고 참으면 결국 처리될 거에요. 업로드하는 동안 페이지를 새로고치지 않도록 주의하세요.

Q: 에러를 발견했을 때 어떻게 해야 하나요?

A: 만약 업로드 중에 오류를 발견하면 버그 양식으로 연락해주세요!

A: 만약 업로드 중에 에러를 보게 되면, 저희에게 연락해주세요. 버그 제보 양식으로 연락해주세요!

A: 만약 업로드 중에 오류가 발생하면 저희 버그 제보 양식으로 연락해주세요!

시작하세요, 무료로.

스튜디오 품질의 AI 오디오 도구로 음성 제작 워크플로를 간소화하세요.

시작하기

AI 음성 모델 생성

기능

디자인된 용도

가격

데스크톱 앱

연구

블로그

Log in

데이터 세트를 만드는 방법입니다.

데이터 세트를 만드는 방법입니다.

파일을 준비 중입니다.

오디오디티를 사용하여 모노로 변환하고 침묵을 제거하는 방법

데이터셋에서 보컬을 분리하는 Kits.AI 음성 분리 도구를 사용하세요.

Advanced dataset techniques.

고음질을 위해 오디오를 사전 처리하십시오.

당신 자신의 보컬을 녹음하세요.

콘텐츠

Techniques

참 모노로 변환하는 방법

침묵을 제거하는 방법

자주 묻는 질문

Q: 모델 훈련에는 얼마나 시간이 걸리나요?

Q: 내 모델이 업로드하는 데 영원히 걸리고 있어요! 무슨 일이죠?

Q: 에러를 발견했을 때 어떻게 해야 하나요?

제품

기능

법적인

자원