문체부·국립국어원, 2018~2022년 '2차 세종계획' 추진
(서울=연합뉴스) 이웅 기자 = 4차 산업혁명의 기반인 인공지능(AI)의 핵심 중 하나는 사람과 기계의 자유로운 의사소통이다.
컴퓨터가 인간의 말이나 글을 제대로 이해하고 반응하려면 인간이 말하고 쓰는 자연언어를 처리할 수 있는 방대한 언어 데이터베이스가 필요하다.
이러한 언어 데이터베이스를 말뭉치(corpus)라고 한다. 최근 빠르게 보급되는 음성인식 인공지능의 정확도는 이러한 말뭉치가 얼마나 풍부하게 정교하게 구축돼 있느냐에 달려있다.
문화체육관광부와 국립국어원은 한국어 인공지능 기술의 발전을 위해 2018~2022년 총 154억7천만 어절의 말뭉치를 구축하는 국어 정보화사업 계획을 마련했다고 9일 밝혔다.
이를 위해 5년 동안 총 175억원의 예산을 투입하기로 했으며, 우선 내년도 예산 11억5천700만원을 편성했다.
이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3천700만 어절을 구축·보급하는 것이 골자다.
언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐다.
아울러, 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했다.
이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4천권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼다.
국립국어원 관계자는 "이번 사업을 통해 한국어 언어처리 기술개발을 위한 기반을 다지는 것은 물론, 외국의 왜곡된 한국어 자료 활용을 차단하고 언어자원 공동 구축으로 사회적 비용도 절감할 수 있을 것으로 기대한다"고 말했다.
abullapia@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스