도메인 특화 데이터 중요도 높아지자 의료기관·법무법인 다수 참여
음성으로 영상 검색 '멀티 모달' 데이터 구축도 시동
(서울=연합뉴스) 조성미 기자 = 생성형 인공지능(AI) 학습에 투입되는 고품질 데이터의 중요성이 커지며 각국과 글로벌 AI 업계가 데이터 확보에 사활을 건 가운데 정보통신(IT) 당국이 진행 중인 AI 학습용 데이터 구축 사업에 국내 대형 병원과 로펌들이 다수 참여한 것으로 파악됐다.
30일 AI 업계와 당국에 따르면 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 지원하는 인공지능 학습용 데이터 구축 사업자로 의료계에서는 서울아산병원, 삼성서울병원, 고려대의료원, 가톨릭대병원, 경북대병원, 충남대병원 등이 이름을 올렸다.
서울대 치과병원, 한양대병원, 원광대 치과병원, 경북대 치과병원 등이 구성한 컨소시엄은 입 안(구내) 임상 사진을 판별해 충치를 진단하는 AI 모델 고도화 학습용 데이터를 연내 10만건 구축한다는 목표를 내놨다.
충남대병원 컨소시엄은 치매 등 노인 정신건강 진단용 AI 모델 학습에 활용되는 눈 깜빡임, 머리 기울기, 입술 떨림과 같은 안면 영상 데이터를 구축하기로 했다.
기존 데이터 구축 사업에서도 AI 학습용 데이터 구축 사업을 통해 고막 내시경 검사 이미지, 피부질환 병리 검사 이미지, 암 환자 방사선 치료 데이터, 흉부 청진음 데이터 등을 축적하고 있는데, 올 초부터 생성형 AI 붐이 일며 데이터 구축 사업에서 의료기관 참여가 활발해졌다는 후문이다.
의료뿐 아니라 법률 분야에서 생성형 AI 활용에 대한 관심이 높아지며 대형 로펌의 데이터 구축 사업 참여도 눈에 띈다.
올해 사업 대상자로 법무법인 율촌·원, 법률사무소 진선 등이 선정됐는데, 타임게이트를 주관사로 한 율촌·진선 등의 컨소시엄은 저작권 이슈 없는 법률 문서를 확보해 판결문, 결정문, 조서 등의 말뭉치 데이터를 구축하기로 했다.
한국지능정보사회진흥원 관계자는 대형 병원·법무법인 등이 데이터 구축 사업에 참여한 현황을 전하며 "내년 AI 학습용 데이터 구축 과제에서도 기업들이 분야별로 활용할 수 있는 도메인 특화 데이터를 중점적으로 기획하고 있다"고 말했다.
법률·의료 등 특정 분야의 데이터 구축과 더불어 텍스트·음성·이미지·영상 등을 넘나드는 '멀티 모달' 데이터 구축에도 시동이 걸렸다.
AI 데이터 기업 솔트룩스[304100]는 이번 공모에서 '음성 인식에 의한 영상 요약 데이터' 구축 사업자로 선정됐다.
솔트룩스는 음성 발화가 70% 이상 포함된 3천 시간 분량 방송 콘텐츠에서 장소, 행동, 감정, 관계 등을 추출해 데이터를 구축하는 한편 검색을 위한 질의어 20만건을 생성할 계획이다.
csm@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스