KGV1을 소개합니다: Kits.AI 최초의 생성형 보컬 모델

2025년 2월 18일

Kyle Dhillon, Anastasiia Herus, Amantur Amatov 작성

당사의 첫 번째 완전 생성형 텍스트-음성 변환 모델인 KGV1(Kits Generative Vocals 1.0)을 공유하게 되어 기쁩니다.

이 모델은 SOTA 생성 음악 기술과 Kits 보컬 아키텍처의 요소를 결합하여 고품질의 텍스트 투 보컬(text-to-vocals) 생성을 지원합니다.

“나 동네로 돌아왔어, 그 레코드판 올리고 볼륨 좀 키워봐.”

0:00/1:34

"낡은 울타리 / 여름이 끝난 / 친구들과 함께하며 그 어느 때보다 좋았어."

0:00/1:34

“너의 목소리에는 뭔가 있다 / 네가 불쑥 불러낼 때.”

0:00/1:34

“내가 너의 소파에서 자고 있는 동안, 너는 그를 밖으로 보내는 걸 보며 깼어, 오…”

0:00/1:34

“우리는 태양과 함께 일어날 것이며, 이제 우리는 누구를 위해 살아가고 있는지를 알게 되었습니다”

0:00/1:34

“이것은 팀에게 바치는 것입니다. 당신이 없었다면 나는 무엇이었을까요”

0:00/1:34

KGV1은 확산 트랜스포머(diffusion transformers)에 대한 선도적인 연구를 활용하여 가사 조건화(lyric conditioning)라는 과제를 해결함으로써, 확산 기반 시스템이 가사를 일관된 노래로 변환할 수 있도록 합니다.

그 외에도, 우리는 Kits Voice Conversion (KVC)의 모듈을 활용하여 다른 텍스트-오디오 생성 모델에 비해 높은 충실도의 음성 출력을 달성할 수 있습니다. KVC의 콘텐츠 인코더, 콘텐츠 검색 및 안정적인 피치 추출 기능을 통합함으로써, 우리는 다른 생성된 음성 출력에서 자주 나타나는 발음 아티팩트와 피치 불일치를 수정합니다.

또한, 이는 사용자가 목표 음성의 음색과 스타일을 조정할 수 있도록 합니다.

당신의 음악 워크플로우를 위한 AI 코파일럿

KGV1은 음악 프로듀서들의 실질적인 요구를 충족하는 당사의 차세대 강력한 생성형 모델을 위한 시작점입니다. 보컬리스트에게 KGV1은 탑라인(멜로디 라인)을 위한 아이디어를 스케치해 줄 수 있고, 프로듀서에게는 샘플링이나 최종 제작에 사용할 독창적인 보컬 클립을 만들어 줄 수 있습니다.

수백 명의 제작자, 아티스트, 보컬리스트와 Kits 커뮤니티에서 이야기하면서 우리는 생성적 음악 도구가 음악 작업 흐름의 맥락에서 가장 강력하다고 믿습니다. 따라서 향후 연구는 기악 트랙, 피치 곡선, MIDI 시퀀스, BPM 및 스타일 프롬프트와 같은 추가적인 음악적 조건 신호로 나아갈 것입니다. 우리는 KGV1을 창의적 작업 흐름에 직접 들어맞는 생성적 음악 지능을 향한 첫 번째 단계로 보고 있습니다.