“측정할 수 없으면 관리가 불가능하고, 관리가 안 되면 개선할 수 없다.”
평가와 측정의 중요성을 강조한 세계적 경영학자 피터 드러커의 통찰은 여러 산업군의 혁신을 촉발했다. 인공지능(AI)도 예외가 아니다. “한국어를 잘 배웠는지, 제대로 구사하는지를 평가하는 명확한 기준 없이는 AI 생태계 성장이 불가능하다”는 토종 연구자들의 절실함이 의미심장한 결과물을 냈다.
클루는 국내 연구자들이 개발한 일종의 사회공헌형 ‘AI용 한국어능력시험’이다. 김성훈 홍콩과기대 교수가 창업한 AI 스타트업 업스테이지가 주도했고, 네이버 카카오엔터프라이즈 구글 서울대 KAIST 등 17개 민간과 기관이 ‘드림팀’에 힘을 보탰다. 하정우 네이버 AI랩 소장, 오혜연 KAIST 교수와 지난달 현대자동차그룹이 자문위원으로 영입한 세계적인 AI 전문가 조경현 뉴욕대 교수 등도 프로젝트에 참여해 고문 역할을 했다. 언론사 중엔 한국경제신문사가 기획기사 데이터 5만 건을 제공했다. 안현실 한경 AI경제연구소장은 “뉴스 데이터를 제공한 이유는 클루가 산업 생태계에 미칠 의미와 장기적 가치 때문”이라며 “한국어 AI의 새로운 시작점이 될 것”이라고 말했다.
AI는 사람을 돕거나 대신하는 역할을 한다. 한국어와 한글을 알아듣고 말하며 쓸 줄 아는 자연어 소통능력이 필수다. 클루는 AI가 어느 정도의 실력을 갖췄는지 시험해 점수를 매긴다. 자연어는 인간이 일상에서 사용하는 언어로, 컴퓨터가 사용하는 ‘인공어’와 반대되는 개념이다. 인공어를 기반으로 탄생한 AI가 사람의 언어를 얼마나 잘 이해하고 말할 수 있느냐는 AI 진화의 척도로 간주될 만큼 중요한 분야다. 사람처럼 시와 기사, 연애편지를 써내며 세계적 명성을 떨치는 ‘GPT-3’(오픈AI) ‘BERT’(구글) 등의 AI 언어 모델은 모두 고도의 학습으로 인간 언어를 말할 수 있게 된 AI다.
이런 언어 모델들은 ‘글루(GLUE)’ 등의 영어 기반 벤치마크를 기반으로 진화했다. 객관적인 품질 측정을 받으며 점차 성능을 강화해 글로벌 AI업계를 평정했다. ‘AI 패권’을 둘러싸고 중국어 프랑스어 등 비영어권 벤치마크가 잇따라 개발되는 가운데 클루의 탄생이 한국어 기반 AI 생태계를 한 차원 더 진화시킬 기대주로 평가받는 이유다. 단일 언어가 AI용 언어 테스트 체계로 완성되기는 이번이 세계에서 여덟 번째다.
클루 개발을 이끈 문지형 업스테이지 AI 엔지니어는 “평가 데이터가 영어 기반이다 보니 어색한 번역과 부족한 자료가 항상 걸림돌이었다”며 “100% 한국어 데이터셋 기반인 클루는 수능시험처럼 공신력 있는 평가 기준을 제시하고, 한국어 AI 모델끼리 서로 경쟁하며 발전할 수 있는 토대로 자리잡을 것”이라고 말했다.
클루는 벤치마크 개발에 쓰인 데이터를 민간에 모두 개방할 예정이다. AI 학습 데이터 부족에 시달려온 국내 연구기관과 기업, 학계를 위해서다. 지금까지 국내 AI 데이터셋은 국립국어원, AI허브 같은 공공부문 공급에 주로 의존해 활용에 어려움이 많았다. 하정우 소장은 “구축 기간이 짧고 인력이 부족해 데이터 품질 문제가 일부 있었고 저작권 이슈로 인해 연구에 한계가 있었다”고 했다. 클루는 이번에 참여한 단체, 기업, 전문가들의 재능·기술·데이터 제공에 힘입어 상대적으로 높은 데이터 질을 보유했다는 평가다. 재배포와 재가공뿐만 아니라 상업적 이용도 자유롭다. 기업이 직접 클루를 발전시켜 ‘클루2’ ‘클루3’를 개발해나가는 것도 가능하다. 박성준 업스테이지 AI 엔지니어는 “민간 기업의 우수 연구자들이 AI 생태계를 이끌 계기가 마련됐다”고 평가했다.
이시은 기자 see@hankyung.com
관련뉴스