연구
KGV1을 소개합니다: Kits.AI 최초의 생성형 보컬 모델
2025년 2월 18일
Kyle Dhillon, Anastasiia Herus, Amantur Amatov 작성
당사의 첫 번째 완전 생성형 텍스트-음성 변환 모델인 KGV1(Kits Generative Vocals 1.0)을 공유하게 되어 기쁩니다.
이 모델은 SOTA 생성 음악 기술과 Kits 보컬 아키텍처의 요소를 결합하여 고품질의 텍스트 투 보컬(text-to-vocals) 생성을 지원합니다.

“나 동네로 돌아왔어, 그 레코드판 올리고 볼륨 좀 키워봐.”
"낡은 울타리 / 여름이 끝난 / 친구들과 함께하며 그 어느 때보다 좋았어."
“너의 목소리에는 뭔가 있다 / 네가 불쑥 불러낼 때.”
“내가 너의 소파에서 자고 있는 동안, 너는 그를 밖으로 보내는 걸 보며 깼어, 오…”
“우리는 태양과 함께 일어날 것이며, 이제 우리는 누구를 위해 살아가고 있는지를 알게 되었습니다”
“이것은 팀에게 바치는 것입니다. 당신이 없었다면 나는 무엇이었을까요”
KGV1은 확산 트랜스포머(diffusion transformers)에 대한 선도적인 연구를 활용하여 가사 조건화(lyric conditioning)라는 과제를 해결함으로써, 확산 기반 시스템이 가사를 일관된 노래로 변환할 수 있도록 합니다.
그 외에도, 우리는 Kits Voice Conversion (KVC)의 모듈을 활용하여 다른 텍스트-오디오 생성 모델에 비해 높은 충실도의 음성 출력을 달성할 수 있습니다. KVC의 콘텐츠 인코더, 콘텐츠 검색 및 안정적인 피치 추출 기능을 통합함으로써, 우리는 다른 생성된 음성 출력에서 자주 나타나는 발음 아티팩트와 피치 불일치를 수정합니다.
또한, 이는 사용자가 목표 음성의 음색과 스타일을 조정할 수 있도록 합니다.
당신의 음악 워크플로우를 위한 AI 코파일럿
KGV1은 음악 프로듀서들의 실질적인 요구를 충족하는 당사의 차세대 강력한 생성형 모델을 위한 시작점입니다. 보컬리스트에게 KGV1은 탑라인(멜로디 라인)을 위한 아이디어를 스케치해 줄 수 있고, 프로듀서에게는 샘플링이나 최종 제작에 사용할 독창적인 보컬 클립을 만들어 줄 수 있습니다.
수백 명의 제작자, 아티스트, 보컬리스트와 Kits 커뮤니티에서 이야기하면서 우리는 생성적 음악 도구가 음악 작업 흐름의 맥락에서 가장 강력하다고 믿습니다. 따라서 향후 연구는 기악 트랙, 피치 곡선, MIDI 시퀀스, BPM 및 스타일 프롬프트와 같은 추가적인 음악적 조건 신호로 나아갈 것입니다. 우리는 KGV1을 창의적 작업 흐름에 직접 들어맞는 생성적 음악 지능을 향한 첫 번째 단계로 보고 있습니다.


KGV1은 곧 app.kits.ai.에서 개인 베타 버전으로 제공될 예정입니다.
