인공지능 기술 고도화에 따라 기계가 사람의 대화를 정확하게 이해할 수 있는 시대가 가까워지고 있다.
한국전자통신연구원(ETRI)은 인공지능이 구어체를 이해하는 과정에서 발생하는 오류를 줄인 구어체 엑소브레인 언어분석 API를 공개했다고 6일 밝혔다.
ETRI에 따르면 이번에 공개한 구어체 엑소브레인 언어분석 API는 문어체를 주로 이해하는 기존 언어분석 기술의 확장판으로 사람의 대화 분석오류를 최대 41% 줄였다.
구어체 언어분석은 크게 형태소분석 기술과 개체명 인식 기술 두 가지로 나뉘며 TTA 표준 가이드라인에 따라 47개의 형태소 태그와 146개의 개체명 태그로 분류된다.
형태소분석은 뜻을 가진 가장 작은 말의 단위인 형태소를 분석하는 기술로 기존 형태소분석 기술로는 구어체를 이해하는데 한계가 존재했다.
예를 들어 `경상도인데`를 `경상돈데`라고 구어체로 축약 표현하는 경우 기존 형태소분석 기술은 이를 인식하지 못하고 `경상돈+데`라고 분석했다.
또 문장 내 고유 대상과 그 의미를 인식하는 개채명 인식 기술은 방대한 양의 학습데이터가 필요함에도 불구하고 데이터 확보조차 어려운 상황이었다.
실제 개체명 인식 학습데이터의 경우 문어체는 약 27만 건의 데이터가 존재하지만 구어체는 10분의 1 수준인 2만 5천 건만 확보가 가능했다.
연구진은 학습데이터 부족 한계를 극복하기 위해 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용했다.
전이학습과 데이터 증강 기법은 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용 해 학습하는 방식이다.
이에 따라 본 구어체 언어분석 API는 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선되었으며, 41.74%, 39.38%에 달하는 오류감소율을 나타냈다.
구어체 언어분석 기술이 크게 개선됨에 따라 연구진은 AI비서, 챗봇 등 AI 서비스 개발이 한층 가속화될 것으로 내다봤다.
임준호 ETRI 언어지능연구실 박사는 "기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발되었음에도 구어체 분야에 많이 적용되고 있었다"며 "이번 구어체 언어분석 API 공개로 언어분석의 정확도 및 신뢰도를 제고해 국내 인공지능 시장이 더욱 활성화되길 기대한다"고 밝혔다.
한편 ETRI 엑소브레인 연구진은 구어체 언어분석 API와 더불어 기존 대비 성능을 개선한 문어체 언어분석 API도 추가로 공개했다.
추가로 공개된 API는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 높은 정확도를 보였다.
ETRI 엑소브레인 사업단은 최근 3년간 기술이전 22건과 사업화 17건을 달성하여 외산 인공지능 솔루션의 국내시장 잠식을 막는 동시에 응용 서비스의 폭을 넓히는 데 힘쓰고 있다.
추후 딥러닝 언어모델의 지속적인 성능 개선 및 추가 공개를 통해 AI 기술 고도화 및 플랫폼 개발에 기여할 계획이다.
관련뉴스