스캐터랩이 자사 서비스에서 수집한 메신저 대화를 기반으로 한 연구 결과물을 오픈소스 플랫폼에 올린 것으로 드러났다. 수집된 개인정보를 충분히 필터링하지 하지 않았을 것이라는 지적이 제기되고 있다.
12일 관련 업계에 따르면 스캐터랩은 오픈소스 플랫폼 ‘깃허브’에 카카오톡 대화 데이터로 학습한 ‘인공신경망 모델 파일’을 올린 것으로 확인됐다. 인공신경망은 인간 뇌세포를 모방한 머신러닝 기법으로, 이 파일을 활용하면 다른 사람도 ‘이루다’와 유사한 AI 챗봇(채팅로봇)을 만들 수 있다. 이 파일은 지난해 9월에 업로드돼 오픈소스 플랫폼 특성상 상당수 공유됐을 것으로 파악된다.
스캐터랩은 지난해 8월 자사 블로그를 통해 이 모델을 소개한 바 있다. 스캐터랩 측은 블로그에서 “저희 핑퐁팀은 '연애의 과학' 어플리케이션을 통해 수집한 대량의 대화 데이터를 학습 데이터로 이용했다”고 밝혔다.
정보기술(IT) 업계 관계자는 “이 파일 자체에서 개인정보를 탈취하긴 어렵다”며 “다만 파일이 개인정보가 필터링되지 않은 채로 학습됐을 가능성을 업체 측이 부정하긴 어려울 것”이라고 했다.
한편 이날 스캐터랩은 입장문을 통해 “이루다의 경우, 연애의 과학 텍스트 데이터를 기반으로 학습이 진행됐다”며 이용자 데이터 사용을 인정했다. AI 챗봇 서비스 이루다를 운영한 스캐터랩은 자사의 다른 서비스인 ‘연애의 과학’ 이용자들의 대화 데이터 100억건을 사용해 AI를 학습시킨 것으로 알려졌다.
김남영 기자 nykim@hankyung.com
관련뉴스