2004년 이후 한국·미국 대선 6차례서 적중
제3후보 포함시 전혀 안 맞아…단기 급등락 무의미
(서울=연합뉴스) 임화섭 기자 = 몇 년 전부터 '빅데이터'라는 말이 유행하면서 구글·네이버 등 포털의 검색어 트렌드로 대통령선거 결과를 예측할 수 있다는 얘기가 나돈다. 과연 사실일까?
연합뉴스가 2004년 이후 치러진 한국과 미국의 대선에 출마한 각국 양대 정당 후보 이름의 네이버와 구글 검색 빈도를 6일 분석한 결과 이런 얘기에 어느 정도 근거는 있는 것으로 확인됐다. 지지도 자체보다 당선 가능성 전망이 반영된 것으로 보인다.
하지만 한국 대선에서는 양대 정당 후보 외의 '제3 후보'를 비교 대상에 포함할 경우 이런 공식이 전혀 들어맞지 않았다. 양대 정당 후보가 아닌 한, 이름 검색 빈도가 높더라도 유리하다고 판단하기는 무리라는 뜻이다.
또 검색 빈도의 단기 급등락은 당선 여부와 별다른 연관이 없는 것으로 보인다. 사용자들이 후보에 대해 적어도 수 개월 이상 지속하는 '꾸준한 관심'이 인지도와 당선 가능성을 더 정확히 반영한다는 해석이 가능하다.
◇ 네이버·구글의 검색어 트렌드 조회 기능
세계 최대 인터넷 검색서비스 구글은 '구글 트렌드'(https://www.google.com/trends/?hl=ko), 한국 최대 포털 네이버는 '데이터랩 검색어 트렌드 조회'(http://datalab.naver.com/ca/step1.naver) 기능을 일반에 공개하고 있다.
이런 서비스는 어떤 기간에 어떤 관심사가 어떤 지역과 계층에서 얼마나 관심을 끌었는지 추적해 줌으로써 마케팅·영업·광고 등에 활용되는 사례가 많다. 공개 대상 기간은 구글은 2004년부터 일 단위로, 네이버는 2007년부터 주 단위로 돼 있다.
복수의 검색어를 입력해서 트렌드를 비교할 수도 있다. 한꺼번에 비교할 수 있는 주제어 수는 구글이 최대 5개, 네이버가 최대 3개다.
이 두 서비스의 그래프나 목록에 나오는 검색 빈도 표시 수치는 그 값 자체로는 의미가 전혀 없다. 해당 기간 비교대상으로 입력한 검색어들을 통틀어 검색 빈도가 최대인 경우를 100으로 놓고 따진 상대적 수치다. 똑같은 검색 화면 내에 나타나는 그래프나 목록끼리도 '100'의 기준이 다르다. 기간·지역·검색어 유형 설정·카테고리·범위·비교대상 등이 일점일획의 차이도 없이 정확히 똑같을 때만 수치로 비교할 수 있다.
◇ 한국 대선 양대정당 후보 비교
제17대 대선은 2007년 12월 19일 치러져 한나라당 이명박 후보가 48.7%를 득표해 2위 득표자(26.1%)인 대통합민주신당 정동영 후보를 큰 차로 누르고 당선됐다.
양대 정당 후보가 확정된 후인 투표 8주 전(10월 하순)부터 구글과 네이버의 검색 빈도에서 '이명박'이 '정동영'을 계속 크게 앞섰다.
'정동영' 검색 빈도는 정 후보가 당내 경선에서 이긴 투표 9주 전(10월 중순)에 '반짝 효과'로 잠깐 올라 네이버에서는 '이명박' 검색 빈도를 앞서기도 했으나, 그 후로는 일방적으로 밀렸다.
제18대 대선은 2012년 12월 19일 치러져 새누리당 박근혜 후보가 2위 득표자인 민주통합당 문재인 후보를 득표율 51.6% 대 48.0%로 누르고 당선됐다.
이 경우 네이버와 구글의 검색 빈도는 약간 다른 양상을 보였다.
구글에서는 양대 정당 후보가 확정된 후인 투표 12주 전(9월 하순)부터 주 단위로 검색 빈도를 따지면 매주 '박근혜'가 '문재인'을 앞섰다. 차이가 한동안 근소했으나, 11월 말부터 격차가 벌어져 선거 당일까지 지속됐다.
네이버에서는 막판 3개월간 두 후보의 검색빈도 순위가 엎치락뒤치락했다. 문 후보가 9월 16일 당내 경선 승리를 확정한 후 한동안 '컨벤션 효과'가 지속되면서 투표 11주 전(10월 초)까지 '문재인'이 '박근혜'보다 더 높았다. 이어 한동안 '박근혜'가 근소한 차로 앞서다가 문재인-안철수 후보단일화 효과로 투표 4∼5주 전(11월 중하순)에는 '문재인' 검색이 박빙의 차로 더 많았다. 그러나 투표 3주 전(11월 말)부터는 검색 빈도에서 '박근혜'가 '문재인'을 다시 앞질러 투표시까지 리드를 유지했다.
사례가 2007년과 2012년 뿐이어서 일반화하기 어렵지만, 두 차례 대선 모두 양대 정당 후보가 당내 경선 승리를 확정한 후 시점부터 이름 검색 빈도에서 우위를 차지한 쪽이 당선됐다.
특히 범여권이나 범야권에서 후보단일화 여부가 결론이 나고 공식 후보자 등록이 이뤄진 후 선거 막바지 약 3주간에는 여야 주요 후보 2명 중 검색 빈도가 높은 후보가 확연히 드러났다.
여기까지만 보면 마치 검색 빈도에 따른 선거결과 점치기가 가능한 것처럼 보인다.
◇ '제3후보' 포함시 완전히 어긋나
그러나 양대 정당 후보 외에 이른바 '제3 후보'를 포함해 비교하거나, 양대 정당 후보가 확정되기 전 시점에서 비교하면 이런 점치기는 들어맞지 않았다.
2007년 8월 말부터 10월 말까지 매주 네이버에서는 창조한국당 문국현 후보의 이름이 '이명박'보다 더 많이 검색됐다. 또 10월 하순부터 11월 초순까지 매주 무소속 이회창 후보의 이름도 '이명박'보다 네이버 검색 빈도가 높았으며, 한때는 3배에 이르기도 했다.
2007년 구글 검색 빈도는 10월 말부터 11월 초까지 '이회창'이 '이명박'보다 높았고, 8월 말부터 10월 초까지, 그리고 10월 중순에는 '문국현'이 '이명박'보다 더 높았다.
2012년의 경우도 무소속 안철수 예비후보와 통합진보당 이정희 후보(등록 후 사퇴)의 이름을 비교 대상에 포함하면 박근혜 후보의 이름이 검색 빈도에서 밀리는 시기가 많았다.
네이버에서 '안철수' 검색빈도는 8월 말부터 10월 중순까지 '박근혜'보다 훨씬 높았으며, 한때는 5배에 이르기도 했다. 또 '이정희' 검색 빈도는 11월 말부터 급상승해 투표 2주 전(12월 3∼9일)에는 똑같은 시점 '박근혜'의 8배였다.
투표 2주 전 '이정희'의 네이버 검색 빈도는 2012년 전체 모든 대선후보 이름 중 단연 최고 기록이었다. 투표가 실시된 주에 박근혜 후보 당선 확정으로 '박근혜' 검색 빈도가 급등했으나, 그 2주 전 '이정희'가 세운 기록의 절반에 그쳤다.
구글에서도 '안철수' 검색빈도가 8월 말부터 11월 하순까지 매주 꾸준히 '박근혜'보다 높았으며, '이정희' 검색 빈도는 투표 2주 전인 12월 4∼5일에 '박근혜'를 앞지르기도 했다.
◇ 반기문 전 총장의 경우
네이버와 구글에서 반기문 전 유엔사무총장의 이름 검색 빈도는 지난해부터 관련 뉴스가 나올 때마다 치솟았고, 귀국을 앞둔 작년 말부터 최근까지 1개월여간은 다른 대선주자들보다 높았다. 특히 귀국 시점(1월 12일)을 전후한 1월 둘째주(9∼15일)에는 '반기문' 검색어에 대한 네이버 검색 빈도가 정점에 달했다.
그러나 검색엔진 사용자들이 반 전 총장에 대해 보인 엄청난 '관심'은 '지지'와 전혀 달랐다. 올해 대선에서 가장 중요한 '제3 후보' 중 하나로 꼽히던 반 전 총장은 결국 이달 1일 대선 불출마를 선언했다. 불출마 선언의 주요 이유는 지지율 정체라는 게 일반적인 시각이다.
그리고 검색 빈도로 나타난 반 전 총장에 대한 관심이 작년 말 이후 최근까지 꽤 높았던 것은 사실이지만, 대권 주자로서 특별하다고 할 정도는 전혀 아니다.
다른 대권 주자들은 스스로 이슈를 제기하면서 그보다 훨씬 더 강한 관심을 더욱 오래 받은 경우도 많다. 최근의 예를 들면, 네이버에서 이재명 성남시장의 이름 검색 빈도는 작년 10월 하순에 급등해 지금까지 꽤 높은 상태가 지속되고 있다. 각각 최고로 급등한 시점을 놓고 검색 빈도를 견주면 '이재명'이 '반기문'의 2배에 가깝다. 또 대통령 권한대행을 맡고 있는 황교안 국무총리의 이름은 작년 12월 초순에 네이버 검색 빈도가 정점에 올랐는데, 이 경우도 '반기문' 검색어의 최고치 기록보다 더 높았다.
'반기문' 검색 빈도가 치솟긴 했지만 다른 대권주자들 역시 당연히 그런 때가 있었을뿐만 아니라 반 전 총장보다 오히려 더 가파르게 상승세를 타기도 했다. 이름 검색 빈도의 단기 급등락은 이슈에 따른 관심을 반영하는 것이며, 당선 가능성을 예측하는 데는 별로 의미가 없다는 뜻도 된다.
◇ '관심도'는 '민심'이나 '지지도'가 아니다
검색업체 관계자들은 검색어 트렌드를 통해 선거 결과를 예측하는 것에 대해 조심스럽게 부정적인 반응을 보였다.
이들은 공통적으로 "검색 빈도가 보여 주는 것은 '관심도'이며, 이는 '민심'이나 '지지도'와 다른 것"이라는 점을 가장 먼저 지적했다. 최근 반기문 전 총장의 사례를 드는 경우도 많았다.
한 검색업계 관계자는 "검색 빈도가 높다고 민심이 쏠린다고 여기는 것은 큰 착각이며 단기간 급등은 오히려 악재의 영향이 큰 경우가 흔하다"고 설명했다.
다른 검색업계 관계자는 "검색 트렌드를 선거 판세 분석에 일부 사용할 수는 있겠지만 해석할 때 매우 주의해야 할 것"이라며 "직원들이 개인적 흥미로 검색해 보는 경우는 있지만 회사 차원에서 그런 흐름을 알아보는 경우는 없다"고 말했다.
게다가 올해 대선은 2007·2012년과 달리 대통령 탄핵소추안 가결과 그에 따른 대통령 권한 정지라는 매우 특수한 상황이 발생한 후에 치러지기 때문에 과거 두 차례 선거에서 나타난 패턴에 기반을 둔 예측이 들어맞지 않을 가능성이 더욱 크다. 헌법재판소가 심리중인 탄핵심판의 결과에 따라서는 대선 일정도 예년과 크게 달라질 수 있다.
다만 지지하는 후보의 동향에 대해 유권자들이 꾸준한 관심을 가진다는 점, 그리고 후보 인지도가 선거에 큰 영향을 준다는 점은 부인할 수 없는 사실이다. 따라서 장기간 검색 빈도에서 경쟁 후보에 크게 앞서 있다면 유리한 위치를 차지하고 있다는 방증이 될 수는 있다.
2007년과 2012년 한국 대선에서 당선된 후보와 막판까지 남은 경쟁 후보들을 비교하면, 검색 빈도가 높은 상태가 본선 몇 달 전부터 장기간 꾸준히 지속된 후보들이 당선됐다. 2007년 이명박 후보와 2012년 박근혜 후보 모두 그랬다. 이들과 맞선 본선 경쟁 후보들은 뉴스 이슈에 따라 검색 빈도가 급등하는 경우도 종종 있었으나, '꾸준한 관심'이라는 면에서는 당선된 후보에 비해 현격히 처졌다.
구글과 네이버의 검색빈도 결과는 큰 흐름이 비슷하지만 네이버 검색 빈도가 뉴스 이슈에 매우 민감하게 반응하는 반면 구글 검색 빈도는 그 정도가 덜하다는 차이가 있다.
네이버 사용자들은 뉴스 실시간 검색어 목록 등을 보고 검색을 하는 사례가 꽤 많은 것과 달리, 구글 사용자들은 대개 스스로 검색어를 입력한다는 차이가 영향을 미치는 것으로 보인다.
◇ 미국 2004·2008·2012·2016년 대선의 경우
구글이 검색 트렌드 서비스를 제공하는 2004년 이후 치러진 4차례 미국 대선에서는 공화·민주 양대 정당 후보 중 상대방보다 미국 전역에서 구글 검색빈도가 높은 쪽이 모두 승리했다. 2004년 공화당 조지 워커 부시, 2008·2012년 민주당 버락 오바마, 2016년 공화당 도널드 트럼프 대통령은 선거가 치러진 연도 대부분에 걸쳐 상대 당 후보보다 검색 빈도에서 앞섰다.
특히 2016년 트럼프의 경우 선거 전 몇 주간 거의 모든 여론조사에서 민주당 힐러리 클린턴 후보에 뒤지는 것으로 나왔으나, 구글의 검색 빈도는 오히려 앞서 있었다.
이런 현상의 원인은 쉽게 단정할 수 없다. 유권자들이 선거 판세의 '분위기'를 직감해 우세한 후보에 대한 관심이 늘어나는 것일 수도 있고 다른 요인이 작용했을 수도 있다. 또 호재든 악재든 유권자들의 관심을 지속적으로 끄는 데 성공한 후보가 결국 승리한 것일 수도 있다.
다만 유권자들의 지지도가 직접 반영된 결과가 아니라는 점은 확실하다. 주(州)별로 보면 4차례 미국 대선에서 두 후보 이름의 검색 빈도 순위를 따지면 거의 모든 경우 그 주의 지지 성향과 무관하게 미국 전역과 똑같은 방향으로 기울었던 점을 보면 알 수 있다.
solatido@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스