목소리 패턴·억양까지 구현
[ 이정호 기자 ] KT는 특정 인물 목소리로 음성을 합성할 수 있는 ‘개인화 음성합성(P-TTS)’ 기술을 인공지능(AI) 스피커 기가지니에 적용했다고 22일 밝혔다.
P-TTS 기술은 딥러닝 기술을 이용해 며칠간 수집한 음성 데이터만으로 특정 인물의 목소리를 합성해 낼 수 있다. 이 기술을 활용하면 단순히 문장을 발음하는 수준을 넘어 개인별 발화 패턴이나 억양까지 학습해 사람처럼 자연스럽게 말할 수 있다. AI 스피커에 P-TTS 기술을 상용화한 것은 국내 처음이라는 게 회사 측 설명이다.
KT 관계자는 “그동안 나온 기술은 제한된 문장만을 합성하거나 음성을 합성한 뒤 데이터를 정제하는 후처리 과정이 필요했다”며 “KT가 개발한 P-TTS 기술은 어떤 문장이라도 합성해 낼 수 있고 문장당 1초 안에 합성이 가능해 후처리 과정이 필요하지 않다”고 설명했다. KT는 P-TTS 기술을 활용해 기가지니 목소리를 연예인 음성으로 바꿀 수 있도록 하거나 부모 목소리로 동화구연을 할 수 있는 서비스도 제공할 방침이다.
KT는 오는 25일 기가지니에서 P-TTS 기술을 적용한 ‘박명수를 이겨라’ 퀴즈 게임을 선보인다.
이정호 기자 dolph@hankyung.com
기업의 환율관리 필수 아이템! 실시간 환율/금융서비스 한경Money
[ 무료 주식 카톡방 ] 국내 최초, 카톡방 신청자수 38만명 돌파 < 업계 최대 카톡방 > --> 카톡방 입장하기!!
관련뉴스