하지만 개인이 이런 데이터를 구하긴 쉽지 않다. 원천 데이터 확보에만 상당한 시간과 자금이 필요해서다. 개인 자격으로는 접근이 어려운 데이터도 적잖다. 이럴 때 필요한 게 무료 데이터 도구다.
국내에선 정부가 구축해 운영 중인 AI 인프라 통합 플랫폼 ‘AI허브’의 규모가 가장 크다. 작년엔 공개 데이터 수가 약 5억 건이었지만 1년 만에 규모가 두 배 이상으로 늘었다. 지난 7월 기준 한국어·영상 이미지·헬스케어 등 381종에 걸쳐 데이터 약 11억 건을 공개하고 있다.
민간에선 대규모로 구축하기 어려운 데이터를 정부와 기업·기관 등이 협업해 모은 게 특징이다. 서울대, KAIST 등 대학 118곳과 서울대병원·국립암센터 등 병원 50곳을 비롯해 총 811개 기업·기관이 참여했다. 개인 자격으로 참여한 이들도 4만3000여 명에 달했다. 이들 데이터는 AI 연구 개발 목적으로 인가받은 기관·개인이 다운로드해 쓸 수 있다.
무슨 데이터를 어디서 얻어야 할지 감이 잡히지 않는다면 ‘통합데이터 지도’를 활용할 수 있다. AI허브를 비롯해 국내 16대 빅데이터 플랫폼 등에 퍼져 있는 데이터를 검색할 수 있는 플랫폼이다. 데이터셋 분석 사례도 공개해 특정 모델에 필요한 데이터를 제시한다.
예컨대 통합데이터 지도로 ‘서울열린데이터광장’을 검색하면 서울시 지하철호선·역·시간대별 승하차인원 데이터를 확인하고, ‘금융빅데이터플랫폼’의 수도권 지하철 이용통계 데이터도 분석할 수 있다.
글로벌 정보기술(IT)기업 구글도 ‘데이터셋 검색’을 지원한다. 사전에 공유된 데이터셋 중 약 2500만 개를 미리 분류해 간단한 키워드만으로도 검색할 수 있게 했다. 구글의 AI 경진대회 플랫폼 ‘캐글’도 데이터 검색 기능을 지원한다.
선한결 기자 always@hankyung.com
관련뉴스