2015년 한국관광공사는 할랄(이슬람 율법에 의해 무슬림이 먹고 쓸 수 있도록 허용된 제품) 음식점의 최적 입지를 찾고 있었다. 이슬람 관광객을 확대하기 위한 프로젝트의 일환이었다. 이들이 한국에 오면 주로 어디에 가는지 파악해야 했다. 고민 끝에 통신 빅데이터를 활용하기로 했다. SK텔레콤에 이슬람 국적 입국자의 로밍 데이터를 분석해달라고 요청했다. SK텔레콤은 자체 빅데이터 분석 서비스인 ‘지오비전’으로 이 데이터를 분석해 최적 입지를 찾아냈다.
통신 빅데이터는 관광지와 상권 분석, 인구통계 작성 등 다양한 분야에서 활용된다. 국민 대부분이 휴대폰을 이용하는 데다 휴대폰과 기지국 간 통신을 기반으로 이동경로 추적이 가능하기 때문이다. 통신사들은 공공, 민간 등 다양한 분야에서 통신 빅데이터를 활용한 분석을 사업화하고 있다.
처리 속도 높이는 ‘인메모리’
빅데이터 분석은 ‘데이터 수집-정제-분석-시각화’ 과정을 거친다. 위치, 금융, 지형 등 다양한 데이터를 모아 분류하는 게 ‘수집’ 단계다. 날것 그대로의 데이터는 분석이 가능한 형태로 표준화하는 ‘정제’ 단계를 거친다. 이를 목적에 맞게 ‘분석’해 보기 쉽게 ‘시각화’한다.
통신사들은 이런 과정을 통합해 관리하는 ‘공간 빅데이터 플랫폼’을 운영하고 있다. SK텔레콤은 ‘지라프(GIRAF)’, KT는 ‘빅사이트’를 운영하고 있다.
빅데이터 분석에서 가장 중요한 경쟁력은 데이터 처리 속도다. 막대한 양의 데이터를 분석해내야 하기 때문이다. 연산을 담당하는 프로세서가 중요한 이유다. 공간 데이터 분석에는 그래픽처리장치(GPU)가 중앙처리장치(CPU)보다 유리하다. CPU는 연산을 순차적으로 한다. 반면 GPU는 동시에(병렬) 처리하기 때문에 속도가 10배 이상 빠르다.
문제는 가격이다. 엔비디아 등이 주도하고 있는 GPU는 CPU보다 가격이 3~10배 비싸다. CPU 강자 인텔은 GPU에 대응하기 위해 속도를 개선하고 가격은 GPU보다 낮춘 ‘제온’을 내놨다. 인공지능(AI) 기술을 적용해 속도를 높였다.
속도 개선을 위해 데이터 처리 기술도 중요하다. 기업들은 데이터를 빠르게 처리하는 ‘인메모리’ 기술 개발에 박차를 가하고 있다. 마이크로소프트(MS)를 비롯해 SAP, SAS 등 글로벌 기업들이 인메모리 시장에 뛰어들었다. SK텔레콤은 자체 인메모리 기술인 ‘라이트닝DB’를 개발해 이용하고 있다.
인메모리는 램(RAM) 등 메모리에 기존보다 많은 데이터를 통째로 옮겨 연산 처리하는 기술이다. 기존에는 데이터를 저장고인 하드디스크드라이브(HDD)와 솔리드스테이트드라이브(SSD)에서 그때그때 램으로 옮겨와 작업해야 했다. 데이터를 옮기는 데 걸리는 시간이 길었다. 인메모리 기술을 적용하면 하드디스크에서 메모리로 데이터를 옮겨오는 과정을 기존보다 단축해 데이터 처리 속도를 높일 수 있다.
촘촘한 분석엔 ‘확률 배분’ 적용
데이터 처리 속도만큼이나 중요한 게 정확도다. 실제와 동떨어진 분석 결과가 나오면 소용 없기 때문이다. 통신사의 이동통신 기지국은 통상 반경 300~500m의 신호를 주고받는다. 신호가 이 구역 내에서 움직이면 위치와 이동경로를 파악하기 어렵다. 한 건물에서 바로 옆 건물로 이동하는 것은 파악할 수 없다는 얘기다. 신호가 기지국과 기지국 간 이동할 때에야 동선을 대략적이나마 파악할 수 있다.
이런 문제를 보완하는 데 확률 배분 방식을 활용한다. SK텔레콤은 한 기지국의 통신 반경을 10m 단위로 잘개 쪼개 조각(픽셀)별로 관리하는 피셀(pCell) 기술을 적용했다. 빅데이터 분석에도 이 기술을 활용한다. 픽셀별로 건물 위치와 도로 정보, 해당 지역의 성격, 시간대를 고려해 다른 가중치를 준다. 낮시간 업무 지역에서는 사무실에 높은 가중치를 주는 식이다. 이렇게 통신 반경 내에서 잡힌 신호가 실제 어떤 분포로 놓여 있을지를 가장 그럴듯하게 추정한다.
각 픽셀에 적용한 가중치의 검증 과정도 중요하다. SK텔레콤은 정확도 검증을 위해 직접 조사, 통계 활용 등 다양한 작업을 거친다. 특정 지역에 인력을 투입해 유동인구 분포를 조사한 뒤 빅데이터로 추정한 분포와 비교한다. 예컨대 행사가 열리는 지역에서는 티케팅 데이터와 분석 결과를 대조한다.
지난달 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)이 국회를 통과해 통신 빅데이터의 활용도는 더 높아질 전망이다. 개인을 알아볼 수 없도록 비식별화한 ‘가명정보’를 통계 작성이나 연구에 사용할 수 있게 됐다. 여러 기업에서 수집한 정보를 ‘데이터 결합 전문기관’에서 조합해 분석하는 것도 가능해졌다.
통신업계 관계자는 “그동안은 세 명 이상의 데이터를 평균화한 수치만 활용할 수 있어 제약이 많았다”며 “데이터 3법 통과로 다양한 서비스를 개발할 수 있게 됐다”고 설명했다.
■ 인메모리 기술
컴퓨터가 데이터를 처리하는 기술의 일종이다. 기존에는 하드디스크드라이브에 저장된 데이터를 램(RAM)으로 호출하고 이를 다시 중앙처리장치(CPU)로 옮겨 처리하는 방식을 주로 사용했다. 인메모리 기술을 활용하면 하드디스크가 아니라 램에 데이터를 저장한다. 기존 방식보다 속도를 크게 높일 수 있다.
홍윤정/최한종 기자 yjhong@hankyung.com
관련뉴스