대화 '뉘앙스' 읽어내는 AI 등장

입력 2021-10-11 18:00 수정 2021-10-12 01:25

대화 '뉘앙스' 읽어내는 AI 등장

음성 인공지능(AI) 학습 절차를 확 줄인 기술이 개발돼 업계 이목을 끌고 있다. 사람의 실제 말하기에 묻어나는 뉘앙스와 억양을 정확히 이해하고, 대화 맥락을 읽어내 웃음이나 분노 등 감정까지 이해하는 음성 인식 AI 고도화가 앞당겨질 것이란 기대감이 커지고 있다.

11일 정보기술(IT)업계에 따르면 페이스북 AI 연구 조직은 최근 공식 블로그와 논문 공유 사이트를 통해 ‘문자 없는 자연어처리(Textless NLP)’ 기술 프로토타입을 공개했다. 신규 언어 생성모델 ‘GSLM’은 자연어처리 과정에서 수반되는 문자 변환 절차를 없애 학습 데이터 확보를 용이하게 만든 것이 특징이다. 페이스북은 “문자 의존에서 벗어난 최초의 고성능 NLP 모델”이라고 전했다.

통상 음성 AI 학습에 쓰이는 NLP 기술은 다량의 데이터 변환 과정을 필수로 거친다. 일상에서 쉽게 접하는 AI 스피커를 예로 들면 내부에 장착한 AI 모델은 우리 말을 곧바로 배우고 이해하는 것이 아니다. 상당수 학습은 대량 음성 데이터를 재가공(라벨링)해 문자로 변환하고, 이를 AI 모델에 다시 가르쳐 완성한다. 인력과 시간이 대거 소모되는 과정이다.

페이스북이 고안한 새 방식은 이런 틀을 깼다. 음성 발화 과정에서 나타나는 파동을 쪼개 분석한 뒤 꼭 필요한 영역만 재합성하는 기술이 기반이다. 소리 최소 단위인 ‘음소’와 실제 문자 사이의 인식 괴리에 대해서도 실마리를 제시했다. 이는 유아들이 언어를 배워내는 과정과도 비슷하다.

GSLM이 상용화하면 현재 영어에 치중된 음성 AI 생태계 구조도 전환시킬 수 있을 것이란 분석이다. 원시 음성 데이터를 그대로 학습시킬 수 있다면 비영어권 국가 언어도 인프라에 구애받지 않고 기술 고도화가 가능할 전망이다.

풍부한 표현력을 갖춘 음성 AI도 만들 수 있다는 설명이다. 페이스북은 GSLM 구현 목표로 “구어체의 완전한 표현”을 제시했다. 뉘앙스와 억양, 대화 중간 발생하는 웃음이나 하품 등 세밀한 감정까지도 나타낼 수 있다고 했다.

이시은 기자 see@hankyung.com