데도무문 1장 완벽한 데이터는 없다

데도무문 : 데이터의 길엔 문이 없다
데이터 전문가 연작 인터뷰 1화

'맞춤법 검사기' 권혁철 부산대 교수
한 수 배우겠습니다

[편집자 주] '데이터로 돌아가는 세상(data-driven world)'이다. 모두 데이터를 이야기한다. 굴지의 글로벌 기업도, 정부도, 학교도, 병원도, 언론사도, 배달업체도, 스타트업(startup)도, 미래를 선점코자 하는 모든 진영이 데이터를 갈구한다.

바야흐로 '데도무문*'의 시대.

*데도무문: 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있다. '데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워본다.

그러나 여전히 '데이터'의 실체는 모호하다.

<ol> <li>도대체 데이터란 무엇인가. </li> <li>그 데이터로 어떤 황금알을 낳을 수 있기에 이리도 난리인가. </li> <li>각 진영은 어떤 데이터를 수집하고, 분석하고 있는가. </li> <li>데이터를 제대로 알고 있는 전문가는 누군가.</li> <li>데이터 인력이 추구해야 할 가치는 무엇일까. </li></ol>

이 5가지 미스테리를 풀기 위해 문(門)이 없는 거대한 데이터의 길을 뉴스래빗이 걸어 가보고자 한다. 데이터 고수를 꿈꾸는 강종구 뉴스래빗 데이터 에디터(기자)가 직접 말이다 !.!

부산대학교 한국어 맞춤법·문법 검사기(이하 부산대 검사기)는 많은 사람이 이용하는 '생활 필수품' 중 하나다. 한국어 문장을 입력하면 맞춤법과 문법을 검사해 틀린 부분을 알려준다. 이용자만 하루 5만여 명. 처리하는 문서 수는 하루 20만여 건이다.

데도무문 1장에선 이 검사기를 만든 권혁철 부산대학교 전기컴퓨터공학부 교수를 만났다. 권 교수는 지난 1990년부터 부산대 검사기를 고도화하고 있다. 30년 가까이 데이터 분야에서 산전수전을 겪은 은둔 고수다. 그가 28년간 쌓은 '맞춤법·문법 수제 데이터' 20만여 건에 스민 내공을 조금이라도 배우고 싶어 부산까지 내려갔다. 그 일문일답을 공개한다.

1수(手). 맞춤법 검사기는 28년치 '데이터'

- 부산대 맞춤법 검사기는?

1990년 발표해 올해로 28주년을 맞았다. 하루 5만여 명이 접속하고 20만건 정도의 검색 문서를 처리한다.

- 하루 이용자가 그 정도 되면 인프라가 작지 않을텐데.

일반 PC 1대를 서버로 사용한다. 90년 당시부터 IBM PC XT 모델의 256KB(킬로바이트) RAM(주 기억 장치)에 한국어 사전 10만건을 모두 넣었다. 한국과학기술원(KAIST) 물리학 교수의 도움으로 저장 방식을 개선해 가능했다. 현재 부산대 검사기 소프트웨어 또한 50MB(메가바이트) 정도의 작은 용량을 차지한다.

- 한 소프트웨어를 27년씩이나 개발하는 이유가 있나.

이유는 두 가지다. 새로운 용어가 계속 나오기 때문이고, 정확도를 높이기 위해서다. 200자 문장이 있다고 치자. 문장 내 오류 중 90%는 1년 안에 잡게 할 수 있다. 나머지 10% 중 5%를 잡게 하는 덴 10년이 걸린다. 나머지 5%는 평생 해도 안 된다. 마지막 5%를 위해 검사기를 28년째 계속 고도화하고 있다. 틀린 부분을 최대한 찾아내 알려주는 게 검사기의 역할 아닌가. 100%는 불가능하지만 항상 100%를 추구해나가고 있다.

- 듣다보니 검사기의 핵심은 '데이터'다.

그렇다. 부산대 검사기의 약점을 굳이 꼽자면 띄어쓰기인데, 통계만 쓰면 우리도 띄어쓰기 잘 할 수 있다. 기술은 우리가 네이버보다 십몇 년 전에 먼저 개발해 놨다. 네이버는 쓰고 있는데 우리가 안 쓰는 이유는 서버 비용이 많이 들고 아래아한글 같은 소프트웨어에 붙이기도 힘들기 때문이다. 용어 사전 데이터 20만건이 있기 때문에 가벼운 소프트웨어로 정확도 높은 서비스를 제공할 수 있다.

2手. 소프트웨어와 '철학'

- 부산대 검사기 내 '강한 규칙' 기능이 눈에 띈다.

강한 규칙을 적용하면 외래어나 어투까지 교정한다. 예를 들어 외래어인 '디렉터스 컷'같은 경우 '감독 편집판'으로 바꾼다. 어투도 교정한다. '~에 있어서'를 '~의'로, '~위해서'는 '~려고'로 고치는 식이다.

- 기계를 통해 더 빼어난 한글을 꿈꾸는 것인가.

그렇다. 사람들이 "언어는 시대에 따라 변하는 건데 왜 당신의 철학을 받아들여야 하냐"고 많이 묻는다. 언어학자인 아내도 "왜 언어를 화석화시키려 하냐"고 타박한다. 그래도 가능하다면 순우리말을 살려 쓰면 좋지 않겠나.

- 소프트웨어 만드는데 철학까지 필요한가.

필요하다. 옛날엔 마니아가 많았는데 자꾸 사라진다. 레디 메이드(ready made)에 사람들이 익숙해가는 게 아닌가 싶다. 동네 빵집, 철학 있는 음식점보다 표준화, 상품화한 프랜차이즈를 해야 돈 벌 수 있다는 요구가 생긴다. 조금만 유명해지면 프랜차이즈화되는 문화가 팽배하다.

지난해 부산대 검사기와 네이버·다음 검사기 간 있었던 논란도 마찬가지다. 구글은 'don't be evil(악해지지 말자)'는 철학을 내세우고 지키기 위해 노력한다. 네이버는 과연 그런 (생태계를 위한) 철학 가지려고 노력할까. 만약 있었다면 30여 년 유지해온 부산대 검사기를 두고 그런 식으로 접근하진 않았을 것이다. 소프트웨어를 만드는 기업이 최소한의 철학은 가지고 있어야 하지 않겠나.

3手. 기계는 기계요, 인간은 인간이다

- '용어 사전'에 기계 학습을 적용해도 수작업이 필요한가.

언어는 지금도 수많은 요소에 의해 바뀌어가고 있다. 문재인 대통령을 예로 들자. 한 달 전엔 지지율이 90%대였는데 지금은 70%대다. 문 대통령에 대한 대중의 생각이 계속 바뀌어가고 있다는 뜻이다. 언어도 마찬가지다. 시시각각 변하는 걸 (기계 학습으로) 어떻게 헤쳐가나.

기계 학습(machine learning)이 작업 시간 단축에 도움이 될 순 있다. 많은 부분을 자동화할 수 있다. 이를테면 텍스트 안에서 (맥락에 맞지 않는 단어가) 계속 나타난다면 사람 이름일 가능성이 높다. 한 사람이 똑같은 철자 오류를 한 텍스트 안에서 100번 씩은 안 낸다. 이런 식으로 생각하면 맥락 상 맞지 않는 단어까지 찾아낼 수 있다.

- 맞춤법 검사기는 기계 학습 적용이 불가능한가.

아니다. 우리 연구실은 하고 있다. 우리는 구글 데이터를 썼다. 영어는 꽤 정확한데 한국어는 데이터가 모자라다. 틀리는 유형 자체도 너무 많다. 영어에 비해 의미 변화가 많아서 데이터 양도 너무 많다. (적용은 가능하지만) 아직 부족하다.

한국어와 외국어 간 페어(pair) 데이터 만드는 일이 굉장히 어렵다. 작년 쯤 일본 문학작품을 영어로 번역했더니 완벽했다고 세계적 이슈가 됐다. 보자마자 비웃었다. 무라카미 하루키와 같은 유명 작가 작품은 기계 학습 적용이 무의미하다. 기계가 학습한 내용에 이미 그 작품이 들어가 있을 가능성이 크기 때문이다. 언어 분야에서 기계 학습은 아직 갈 길이 멀다.

- '데도(데이터의 길)'를 걸어온 입장에서,
기계 학습 시대에도 인간의 역할은 유효할 것이라 생각하는가.

그렇다. 기계 학습엔 항상 한계가 있기 때문이다. 알파고는 인간을 넘어설 수 있다. 다만 주어진 데이터 안에서일 뿐. 처리 능력이 인간보다 뛰어나기 때문에 범위가 넓을 뿐이다. 인간에겐 그만큼 처리할 능력이 없을 뿐이다. 인간과 기계 사이엔 능력의 차이가 아니라 데이터 처리 능력의 차이가 있을 뿐이다. 기계가 알지 못하는 세상은 영원히 존재할 것이다.

4手. 컴퓨터 능력 경계 넘으면 모두 AI

- AI가 맞춤법 검사기에 적용되는 날이 올까.

언어 분야에선 AI(인공지능)가 이룬 게 거의 없다. 기계 번역이 조금 적용됐을 뿐이다. AI가 할 수 있는 건 아직 퀴즈 문제 푸는 정도다. 법령의 모순 같은 건 찾기 어렵다. 아직 문장 인식도 제대로 못 하는 수준이다. 구글 같은 곳도 아직 기초 단계에 있다.

- AI를 '유사인간' 말고도 자동화, 효율화 기술 정도로 생각할 수도 있겠다.

컴퓨터 분야 학생들에게 "AI가 어떤 분야냐"고 자주 묻는다. 국내에선 AI라 하면 너무 '인간다운 지능'으로만 생각한다. 1956년 다트머스 컨퍼런스(dartmouth conference)에서 처음 이야기한 AI의 개념은 '사람은 해결하는데 컴퓨터는 못 해온 일을 할 수 있도록 만드는 기술'이다. 컴퓨터가 해결할 수 있어왔던 문제와 그렇지 않은 문제가 있다. 그 경계에서 연구하는 사람은 모두 인공지능 연구자라고 생각한다. 옛날엔 체스였던 게 지금은 알파고(바둑)까지 온 거다.

그런 의미에서 컴퓨터 분야의 관계형 데이터베이스(relational database), 객체 지향 프로그래밍(object-oriented programming)도 모두 AI의 개념에서 나온 것이라고 볼 수 있다. 컴퓨터가 못 하던 일을 가능하게 만든 개념들이다.

- AI도, 기계 학습도 데이터를 활용해 결과를 조금이라도 낫게 하려는 시도지 않나. 100%는 없다고 했지만 그럼에도 불구하고 최선의, 최적의 데이터는 있지 않을까.

동의한다. 예를 들어 영어로 'is' 대신 'id'라고 오타를 냈다고 치자. 'id' 자체가 있는 단어이기 때문에 'he is'를 'he id'로 오타내면 지금은 잡지 못한다.

완벽한 데이터는 없다. 인간도 판단이 항상 완벽하진 않다. 브라운 코퍼스(brown corpus)라고 전 세계에서 가장 정확하다는 말뭉치가 있다. 1TB(테라바이트) 분량의 구글 데이터를 브라운 코퍼스로 확인했지만 'he id'를 찾지 못했다. 반면 우리 연구실은 그 데이터의 10% 내에서만 12개를 찾았다. 1TB에 달하는 구글 데이터에도 오류가 엄청 많다는 뜻이다.

- 대용량 데이터로 맞춤법 검사기를 만든다면 어떨까.

1TB 구글 데이터를 활용해 마이크로소프트 워드보다 훨씬 좋은 영어 맞춤법 검사기를 일주일이면 만들 수도 있다. 다만 한계가 있다. 정제된 데이터가 아니기 때문에 덩치가 커진다. 또한 지금 부산대 검사기가 제공하는 '도움말' 같은 서비스도 불가능하다. 인간은 '이런 이유로 잘못됐구나'를 아는데 기계는 전혀 아닐 수 있기 때문이다.

- 기계가 정확도를 높여가더라도 인간만이 줄 수 있는 가치가 있다는 건가.

그렇다. 굉장히 복잡하고 어려운 맞춤법은 기계가 현재 기술로 못 하는 부분도 있다. 맞춤법 교정을 위해 좌우 2개 단어 보는 수준이면 괜찮은데 더 많이 봐야 하는 경우도 있다. 이런 부분은 기계가 아직 하기 어렵지 않을까. 물론 그런 경우까지도 극복할지 모른다. 더 잘 만들 사람이 언제든 등장할 수 있다. 영원히 나와 같은 방식으로만 만들리라는 법은 없다.

5手. 장인정신, 영원하진 않을 것

- 부산대 맞춤법 검사 기술은 얼마나 유효할까.

최소한 내가 아는 방법이 앞으로 10년은 유효하리라 생각한다. 지금 기계 학습으로 맞춤법 검사기 만든다 해도 (부산대 검사기의) '도움말'은 못 나온다. 언젠간 나올 수도 있다. 하지만 사용자마다 틀리는 패턴이 전혀 다르고 시대에 따라 철자 틀리는 유형도 계속 달라진다.

- 어떤 분야에서든 인간의 수작업 같은 게 필요 없어질 수도 있는 걸까

딥 뉴럴 네트워크(deep neural network) 등을 이용해 시스템을 잘 만드는 것도 장인정신 아닐까. 장인정신이란 걸 너무 과거에 얽맬 필요는 없다. 시대의 변화에 따라 변해야 한다. 나는 나대로의 신성함을 유지할 뿐이다. 다음 세대는 전혀 다른 세상에서 살게 될 것이다. 현재 40대인 교수들 아이디어도 20년 뒤 정년퇴임할 때쯤이면 다음 세대에겐 이미 고루할지도.

역사적으로 위대한 인물을 존경하는 이유는 그의 삶과 그 시대를 존경하는 것 아닌가. 그 역사가 메시지를 주는 것이지 꼭 그대로 해야만 하는 건 아니다. 나로서는 지난 20여년의 성과가 자랑스럽지만 영원히 존경받아야 한다고는 생각하지 않는다.

- 한 분야를 30년 가까이 해서 국내 최고의 결과를 낸 인물 치곤 겸손한 생각 아닐까.

딥 뉴럴 네트워크만 해도 국내에서 잘 하시는 분들은 대부분 5~10년씩 하신 분들이다. 자기만의 노하우가 있다. (연구를) 한 번 시작했으면 10년은 책임지고 해야 한다고 본다. 뉴스래빗도 기사마다 데이터 뽑으며 수많은 노하우를 쌓았으리라 생각한다. 10년 쯤 지나고 나면 (데이터 저널리즘 기사를 만드는) 소프트웨어가 나올 수도 있다. 거기에도 분명 (뉴스래빗이) 미리 쌓아온 노하우가 스며있을 것이다.

- 수작업 경험으로 쌓은 데이터 노하우를 기계나 자본 등에 따라잡히는 날이 온다면.

지금까지 해왔던 경험을 가지고 그 시절에 못 했던 새로운 걸 찾을 수 있지 않을까.

일주일 전으로만 돌아가도, 데이터 질은 분명 다를꺼다. 그러다 내년엔 또 다른 노하우가 생긴다. 이를 도와줄 소프트웨어도 점점 늘어날 것이다. 통계값을 구하더라도 이전 부정확성을 아는 만큼 더 정확히 만들 수 있다. 수작업 경험이 쌓일수록 데이터 분석 기술도 발전한다. 더 많은 데이터를 커버할 수 있게 되면 10년, 아니 20년도 가리라 믿는다.

책임= 김민성, 연구= 강종구 한경닷컴 기자 jonggu@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com