관계형DB 등 기술 활용해
SNS·웹문서 등서 정보 수집
빅데이터 시장 32% 성장
미래의 핵심 자원 될 것
개인정보 안전하게 처리하는
관련 기술 연구 절실
데이터는 ‘수집→저장·관리→분석→시각화’ 단계를 거쳐 분석·활용되며, 단계별로 다양한 세부 기술이 적용된다. 빅데이터 수집은 다양한 소스로부터 데이터를 일괄 또는 실시간으로 수집하는 과정이다. 소셜데이터와 웹 문서 등을 수집하는 크롤링, 각종 로그를 수집하는 수집기, 정형데이터를 수집하는 관계형데이터베이스(RDB) 수집기, 그 외 오픈애플리케이션프로그래밍인터페이스(API), 단순화배급(RSS) 기술 등이 활용되고 있다. 빅데이터 수집은 지식을 추출하기 위한 가장 중요한 초기 업무다. 개인정보 체크와 수집가능 여부, 품질수준, 수집주기(실시간성 등) 및 데이터량, 비용 등을 고려해야 한다.
빅데이터 저장관리는 수집된 데이터를 활용하기 쉽게 가공하고 저장관리하는 작업으로 추출·변환·적재(ETL), NoSQL(Not Only SQL), 분산파일시스템 등의 기술이 활용된다. ETL은 수집된 데이터에서 오류를 제거하고 분석하기 쉽게 변환, 저장하거나 분석을 위한 시스템에 전송 또는 적재하는 기술로 풀룸, 스쿱 같은 오픈 소프트웨어 툴이 있다. NoSQL은 정형, 비정형 데이터를 쉽게 다룰 수 있도록 제공하는 방식으로 빅테이블, 에이치베이스, 카산드라, 몽고디비 등 다양한 솔루션이 제공되고 있다. NoSQL을 사용하면 정형, 비정형 데이터 종류에 상관없이 데이터에 유일한 이름(Key)을 부여해 쉽게 저장하고 관리할 수 있다. 분산파일시스템은 수많은 서버에 데이터를 나눠 저장하고 관리하는 파일시스템으로 구글 파일시스템, 하둡 분산파일시스템, 아마존 S3 파일시스템 등이 있다.
# 데이터 처리 솔루션 어떤 것들이 있나
빅데이터 처리 기술은 말 그대로 엄청난 양의 데이터를 처리하는 기술이다. 요즘 대세인 소셜데이터만 보아도 트위터는 사용자 간 주고받는 데이터가 하루 7테라바이트에 이르며, 페이스북은 매일 10테라바이트 이상의 데이터를 생산한다. 이런 빅데이터를 모아 놓고 일괄 처리하기 위해 하둡이 활용된다. 오픈 소프트웨어인 하둡은 대규모 자료를 처리하기 위해 여러 대의 컴퓨터를 마치 하나인 것처럼 묶어주는 기술이다. 수십~수백대의 서버에 데이터를 분산 저장하고 분석 처리하는 데 필요한 다양한 기술을 묶음으로 제공한다. 하둡이 산업체 사실표준으로 부상하면서 호튼웍스, 맵알, 클라우데라와 같은 글로벌 기업들이 시장에서 활동 중이다. 한국도 하둡을 자체 솔루션화한 그루터, 넥스알, 클루닉스, 클라우다인과 같은 하둡 전문기업들이 잇달아 출현하고 있다. 그중 클라우다인에서는 하둡을 활용해 빅데이터를 쉽게 분석할 수 있는 웹 관리 도구 플라밍고 하둡 매니저를 오픈 소스로 개방해 일반인도 조금만 공부하면 빅데이터를 다룰 수 있는 환경을 제공하고 있다. 그 외 빅데이터 처리 기술로 폐쇄회로TV(CCTV)와 같이 실시간 스트림을 분석해 활용할 수 있는 실시간 스트림 처리기술도 있지만 아직은 활용도가 낮은 수준이다.
빅데이터 분석은 수집 저장된 데이터를 분석해 지식을 끌어내는 작업으로, 인터넷과 소셜네트워크서비스(SNS), 센싱데이터, 동영상 등 비정형 데이터를 효과적으로 분석하는 것이 무엇보다 중요한다. 현재 하둡, NoSQL 등의 빅데이터 기술을 활용해 그 위에서 통계처리, 마이닝 등의 분석기법을 활용한 통계 및 소셜 분석이 보편화돼 있다. 하지만 몇몇 글로벌 우수 기업은 기계학습, 인공지능 기법 등을 적용한 컴퓨터 비서(IBM의 왓슨, 애플의 시리) 등 앞선 기술도 선보이고 있다. 분석 및 시각화 도구로는 알(R)이 가장 보편적으로 활용되며 자바(Java), C, C++, 파이선(Python) 등 다양한 언어와 쉽게 연동할 수 있다. 분석 결과를 그래프, 차트, 애니메이션 그래프 등으로 시각화해 보여 줄 수 있어 기업 및 학교는 물론 구글, 페이스북, 아마존 등 선진기업들까지 활용할 정도로 유용한 분석 도구다.
# 빅데이터 기술 어디까지 발전할까
빅데이터 기술은 센싱(IoT), 스트림(음성·영상) 등 실시간 데이터 처리 분석은 물론 다양한 데이터소스 간 융합분석, 미래예측 분석까지도 가능한 수준으로 발전해 나갈 전망이다. 세부 기술로는 다양한 유형의 데이터를 쉽게 연계활용할 수 있도록 NoSQL과 RDB 융합형 DB가 필요하며, CCTV 등 대규모의 스트림 데이터를 실시간 분석처리하기 위해 컴퓨팅 인프라는 물론 인메모리 컴퓨팅 기술의 발전이 요구된다. 기존 통계 및 텍스트 마이닝 중심의 분석에서 미래예측이 가능한 기계학습, 예측형 시뮬레이션 등 지능화된 분석알고리즘의 개발도 활성화될 것이다. 이 밖에도 폭증하는 데이터에 대한 저장과 유통을 위해 클라우드 컴퓨팅 기술의 적용이 중요하다. 대형 데이터가 이동하지 않아도 원격지에 분산돼 있는 데이터 자원을 상호 연계해 분석할 수 있는 데이터 가상화 기술이 개발 적용될 것이다. 빅데이터 활용에 있어 가장 큰 이슈가 되고 있는 개인정보를 안전하게 처리할 수 있는 관련 기술의 연구 개발도 필요하다.
빅데이터 관련 세계시장은 연평균 31.7%, 국내의 경우 31.1% 성장할 것으로 전망된다. 세계경제포럼, 가트너, 맥킨지, 이코노미스트는 앞으로 사물인터넷(IoT) 확산과 시각데이터(이미지·비디오 등)의 증가에 따라 빅데이터가 미래의 핵심 자원이 될 것으로 예측하고 있다. 한국은 미국, 유럽 등 선진국에 비해 아직 기술력 차이가 있지만 정보통신기술(ICT)·제조·의료 등 데이터 생산량이 많은 산업이 발달해 있다. 빅데이터 기술개발 및 활용에 대한 열정과 관심도 어느 나라보다 높다. 좋은 예로 국내 개발자들이 주축이 돼 만든 빅데이터 오픈소스 프로젝트 ‘타조’가 아파치재단에서 ‘톱레벨’ 프로젝트로 선정됐다. 타조는 현재 그루터 소속 개발자와 미국 및 유럽 지역의 개발자들이 참여하고 있으며, 하둡에서 SQL을 활용할 수 있도록 지원하는 오픈소스 개발 프로젝트다. 보통 아파치 프로젝트에는 톱레벨 프로젝트가 100여개 넘게 있는데, 아시아 지역에서 만들어진 프로젝트는 거의 없는 상황이다. 타조 프로젝트는 국내 빅데이터의 잠재력을 보여주는 사례다. 지난 3월 미래창조과학부가 빅데이터를 3대 미래성장동력 산업 중 하나로 선정한 것도 빅데이터 시장을 더욱 확대하는 촉매제가 될 것으로 전망된다.
김진철 < 한국정보화진흥원 빅데이터전략센터 수석연구원 >
[한경+ 구독신청] [기사구매] [모바일앱] ⓒ '성공을 부르는 습관' 한국경제신문, 무단 전재 및 재배포 금지
관련뉴스