‘모두의 말뭉치’ 설명자료에 따르면 “자료를 선별할 때 비속어 사용이 포함된 대화는 자연스러운 언어 습관의 한 부분으로 간주해 수집 대상에 포함했으나, 지나치게 선정적이거나 반사회적인 내용, 범죄 모의, 혐오나 차별 등의 내용이 다수 포함돼 논란이 될 여지가 있는 메신저 대화는 수집 대상에서 제외했다”고 설명하고 있다. 또한 실명도 비식별화를 했다고 밝혔다.
‘모두의 말뭉치’ 사업은 국립국어원이 정부 예산 204억원을 배정받아 진행했다. 국내 AI업계가 활용할 수 있도록 한국어 관련 빅데이터를 구축하기 위한 사업이다. 챗봇이나 AI 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 한국어 말뭉치로 학습해야 한다. 이 자료는 지난해 8월부터 국립국어원 ‘모두의 말뭉치’ 웹사이트에 공개돼 AI를 연구하는 사람이면 누구나 신청해 다운로드할 수 있다. 국립국어원 관계자는 “사업을 진행할 때 최대한 문제 소지가 있는 표현을 배제하라고 지침을 내보냈다”며 “거르긴 했지만 한계가 있었을 것 같다”고 해명했다.
최근 개인정보 유출, 혐오 표현 등의 논란을 빚고 있는 AI 챗봇(채팅로봇) ‘이루다’가 대표적이다. 이 서비스의 개발사 스캐터랩은 이날 개인정보보호위원회·한국인터넷진흥원(KISA) 합동 조사가 종료되는 즉시 이루다 데이터베이스(DB)와 딥러닝 대화 모델을 폐기하기로 발표했다. 그러나 문제가 된 ‘연애의 과학’ 데이터의 전량 폐기가 아니어서 이용자들의 반발은 계속될 것으로 보인다. 이광석 서울과학기술대 IT정책전문대학원 교수는 “AI에 잘못된 정보를 주는 차별, 혐오 표현 등이 데이터에 계속해서 섞이고 있는 것이 문제”라며 “현장에서 AI 윤리를 중요하게 여기지 않거나 인지하고 있지 못한다는 의미”라고 말했다.
김남영 기자 nykim@hankyung.com
관련뉴스