"포털뉴스에 많이 등장한 후보가 실제 당선됐을까"
'장미 대선' 빅5 후보, 포털뉴스 배열 빅데이터 분석
네이버-다음 PC·모바일 4가지 뉴스 9만2596건
'장미 대선' 2달, 포털 배열 '문>안>홍>유>심'
노출 시간 상위 20%, 네이버·다음 '문재인' 최다
네이버는 문·안 집중, 다음은 안·홍·유·심 골고루
선거 막판 포털 노출 추이, 대선 결과와 일치
[편집자 주] 로이터저널리즘연구소는 지난해 말 '아시아국가 뉴스 소비 연구보고서'를 발표했습니다. 온라인 뉴스 소비가 가장 많은 아시아 국가로 한국을 꼽았습니다. 한국 뉴스 소비자의 55%가 뉴스를 온라인에서 본다고 답했죠. 그 1위는 포털 사이트였습니다. 60% 비중이었죠. 즉 한국인은 신문, 방송보다 포털에서 뉴스를 더 많이 본다는 뜻입니다.
뉴스 콘텐츠 트래픽이 많다보니 국내 양대 포털인 네이버와 다음(카카오)은 첫 메인페이지 상단, 금싸라기 땅에 실시간 뉴스를 빼곡히 노출하고 있습니다. 핵심 뉴스인 '주요 뉴스'는 배치 이력도 공개합니다. 어떤 기사를 언제 배치했는지에 관한 기록입니다. 포털 뉴스가 여론 형성에 막강한 영향을 미치는만큼 공정성 시비에 늘 시달리는 탓이죠.
뉴스래빗은 문재인 더불어민주당 후보 당선으로 끝난 제 19대 대통령 선거 기간, 네이버와 다음의 대선 후보 노출 이력을 분석합니다. 후보별 뉴스 언급 수를 따져, 실제 득표 순위와 비교합니다. 포털 뉴스 소비가 여론 형성에 어떤 영향을 미쳤는지 알 수 있는 단서라고 판단합니다. '포털에 많이 노출된 대선 후보가 실제 대통령에 당선됐을까'에 대한 답을 찾는 과정이기도 합니다 !.!
# 이렇게 분석했습니다
우선 헌법재판소가 박근혜 전 대통령을 파면한 지난 3월 10일부터 문재인 대통령 당선 직후인 5월 10일까지 양대 포털의 주요 뉴스 배열 이력 9만2596건을 전수 수집했습니다. 네이버 데스크톱(1만7001건)·모바일(1만9499건), 다음 데스크톱(2만7907건)·모바일(2만8189건) 등 4가지 버전 뉴스 노출 이력을 모두 수집한 결과입니다. 빅데이터를 바탕으로 제19대 대통령 선거 '빅5 대선후보(문재인·홍준표·안철수·유승민·심상정)' 여론 흐름을 알아봅니다.
#1. '장미 대선' 2달, 포털 배열 '문>안>홍>유>심'
뉴스래빗은 양대 포털이 지난 2개월간 배열한 기사 제목 전수를 형태소 분석했습니다. 그 중 이름, 한글·한자 약자 등 빅5 후보 관련 형태소를 제목에 포함한 1만1191건을 추렸습니다. 전체 배열 이력 9만2596건 중 약 12.1%에 해당하는 분량입니다.
▽ 빅5 후보별 배열 이력 수 https://goo.gl/g6Mizi
▽ 네이버 데스크톱, 네이버 모바일, 다음 데스크톱, 다음 모바일
△ 크롬·파이어폭스·사파리 브라우저 전용
'문재인(4058건, 문·文 포함)'이 배열 이력에 가장 많이 등장했습니다. 네이버·다음 뉴스 데스크톱·모바일 모두에서 다른 네 후보를 앞섰죠. '안철수(3330건, 안·安 포함)'가 뒤를 바짝 좇았습니다. '문재인'과 '안철수'의 차이는 728건. 문재인 대통령 당선 후인 5월 10일자 데이터('문재인' 375건, '안철수' 33건)를 제외하면 둘의 차이는 386건에 불과합니다. '홍준표(2099건, 홍·洪 포함)', '유승민(1130건, 유·劉 포함)', '심상정(574건, 심·沈 포함)'의 비중은 상대적으로 작았습니다. 세 후보 관련 키워드 수를 모두 합해도 '문재인'에 못 미칩니다.
#2. 날짜별 빅5 포털 노출 수 보여드립니다
▽ 빅5 날짜별 배열 이력 수 https://goo.gl/g6Mizi
▽ 문재인, 홍준표, 안철수, 유승민, 심상정
△ 크롬·파이어폭스·사파리 브라우저 전용
날짜별로 살펴볼까요. 뉴스래빗은 전체 배열 이력 수를 날짜별로 쪼개 막대 그래프를 그렸습니다. 각 날짜 막대를 후보별로도 나누고 상징색을 적용했습니다. 인터랙티브(interactive) 그래프 오른쪽 필터(filter)를 조정하면 네이버·다음, 데스크톱·모바일을 구분해 볼 수도 있습니다.
우선 네이버·다음, 데스크톱·모바일 4가지 뉴스 버전을 모두 합한 결과부터 살펴봅니다. 빅5 후보 관련 기사 배열 변화는 5월 10일 481건으로 가장 잦았습니다. 그 중 '문재인'의 빈도가 375건으로 압도적입니다. 이날 '안철수(33건)', '홍준표(31건)', '유승민(26건)', '심상정(16건)' 후보 관련 배열 이력을 모두 합한 것보다도 3배 이상 많습니다. 문재인 대통령 당선 소식으로 양대 포털 '주요 뉴스'가 쉴 틈 없이 교체됐기 때문입니다.
5월 10일 다음으로 배열 변화가 많았던 날은 4월 25일입니다. 빅5 후보 관련 배열 이력이 329건에 달했죠. 이날은 JTBC·중앙일보·한국정치학회가 공동 주최한 4차 TV 토론회가 열린 날입니다. 홍준표 자유한국당 후보, 안철수 국민의당 후보, 유승민 바른정당 후보 간 단일화 논의도 이날 정점을 찍었죠. 4월 19일(320건), 4월 28일(318건), 4월 21일(313건), 5월 9일(280건)이 뒤를 이었습니다.
#2-1. 초반 문재인·안철수 2강, 후반 홍준표 3강
후보별로 살펴보면 2개월 간 '문재인'과 '안철수'의 2파전 양상이 뚜렷했습니다. 적어도 4월 말까진 그랬습니다. '문재인'은 '안철수'보다 다소 우세였습니다. 62일 중 39일은 '문재인'이, 22일은 '안철수'가 높았죠. 3월 10일은 '문재인'과 '안철수'의 배열 이력이 7회로 같았습니다.
뉴스래빗은 포털별, 페이지 유형(데스크톱·모바일)별로 빅5 배열 이력 추이를 자세히 살피기 위해 꺾은선 그래프를 그렸습니다. 날짜별 상대적 높이를 비교해 후보간 배열 이력 차이를 살펴볼 수 있습니다. 배열 이력 증감 추이를 후보별로 비교할 수도 있죠. 그 중 양대 포털 모두 구체적 배열 이력을 제공하는 모바일에 주목합니다. 두 포털 모두 데스크톱 화면과 모바일 화면의 배열은 대동소이합니다.
▽ 빅5 배열 이력 빈도 추이 (네이버 모바일) https://goo.gl/g6Mizi
▽ 문재인, 홍준표, 안철수, 유승민, 심상정
△ 크롬·파이어폭스·사파리 브라우저 전용
네이버에선 '문재인'과 '안철수'가 2파전을 벌였습니다. 네이버가 다음에 비해 두 후보 관련 소식을 다른 세 후보보다 세세히 다뤘단 뜻입니다.
각 당 후보가 윤곽을 드러내기 시작한 4월부터 '문재인'·'안철수'와 다른 세 후보간 격차가 본격적으로 벌어지기 시작했습니다. '문재인' 관련 기사와 '안철수' 관련 기사가 4월 1일부터 후보 등록 완료일인 16일까지 3일이 멀다 하고 엎치락뒤치락했죠.
4월 16일 이후로 네이버 모바일 주요 뉴스에 '홍준표'가 가세했습니다. 네이버가 홍준표 후보 소식을 문재인·안철수 후보만큼 세세히 다루기 시작한 것이죠. 공식 선거운동 시작 이후로 서서히 따라붙은 '홍준표'는 4월 29일, 5월 8일과 9일 빅5 후보 중 최다 배열 이력을 기록했습니다.
▽ 빅5 배열 이력 빈도 추이 (다음 모바일) https://goo.gl/g6Mizi
▽ 문재인, 홍준표, 안철수, 유승민, 심상정
△ 크롬·파이어폭스·사파리 브라우저 전용
상대적으로 다음은 빅5 후보 관련 기사 배열 이력이 역동적이었습니다. '문재인', '안철수'와 더불어 '홍준표' 관련 기사도 네이버와 비교해 자주 교체 배열했습니다. 4월 중순 전까지 '홍준표' 관련 배열 이력 수는 약 보름 주기로 급상승했습니다. '문재인', '안철수'와 비슷한 수준까지 올라가곤 했죠. 각 후보가 공식 선거운동을 시작한 4월 17일 이후 네이버와 마찬가지로 '문재인', '안철수'와 백중세를 이룹니다.
다음은 네이버에 비해 후보별 그래프 방향성이 제각각인 점도 눈에 띕니다. 그날 그날 이슈(issue)량에 따라 각 후보 배열 이력 수가 대체적으로 나란히 오르내리는 네이버와 비교됩니다. 네이버가 후보별 배열 교체 횟수를 일정한 비중으로 유지한 반면, 다음은 당일 후보별 이슈량에 충실했음을 알 수 있는 대목입니다.
#3. 후보별 기사 노출 시간 보여드립니다
## 노출 시간 상위 20%, 네이버·다음 '문재인' 최다
포털 '주요 뉴스' 노출 수가 많다고 해서 해당 후보가 가장 많이 주목받았다고 단정할 순 없습니다. 배열 기사 수가 적더라도 기사 노출 시간이 길다면 독자가 더 많이 봤을 수 있기 때문이죠.
뉴스래빗은 빅5 후보 기사의 배열 이력 당 노출 시간 그래프도 그렸습니다.
▽ 빅5 배열 이력 당 노출 시간 (네이버 모바일) https://goo.gl/g6Mizi
▽ 문재인, 홍준표, 안철수, 유승민, 심상정
△ 크롬·파이어폭스·사파리 브라우저 전용
네이버는 장시간 노출 기사 비중이 상대적으로 적었습니다. 빅5 후보 관련 모바일 배열 기사 전체 2357건 중 노출 시간 상위 20% 지점이 191분(3시간11분)이었죠. 배열 이력 중 80%는 3시간11분 전에 교체된다는 뜻입니다. 그래프를 보면 배열 기사 대부분이 200분 기준 아래에 대다수 포진한 걸 확인할 수 있습니다.
노출 시간 상위 20%(191분 이상) 기사 중 각 후보의 비중은 어떨까요. 네이버는 '문재인(176건)'과 '안철수(151건)' 관련 기사를 주로 장시간 노출했습니다. 상위 20% 기사 471건 중 69.4%에 달하는 327건이 두 후보 관련 기사입니다. '홍준표(96건)'·'유승민(34건)'·'심상정(14건)' 관련 기사는 상위 20%에서 찾기 어려웠습니다. 세 후보 관련 기사 수를 모두 합해도 '안철수' 관련 기사 수에 못 미칠 정도입니다.
#3-1. 네이버 문·안 집중, 다음 안·홍·유·심 골고루
▽ 빅5 배열 이력 당 노출 시간 (다음 모바일) https://goo.gl/g6Mizi
▽ 문재인, 홍준표, 안철수, 유승민, 심상정
△ 크롬·파이어폭스·사파리 브라우저 전용
다음 역시 '문재인(213건)' 관련 기사를 가장 많이 길게 유지했습니다. 다만 '안철수(175건)', '홍준표(148건)', '유승민(73건)', '심상정(54건)' 기사도 노출 시간 상위에 종종 발견된다는 점이 다릅니다. 노출 시간 상위 20%(258분 이상) 내 후보별 기사 수도 네이버에 비해 고른 편입니다.
다음은 네이버에 비해 장시간 노출 기사 비중이 컸습니다. 빅5 후보 관련 모바일 배열 기사 전체 3291건 중 노출 시간 상위 20% 지점이 258분(4시간18분) 입니다. 네이버보다 67분 깁니다. 한 기사를 '주요 뉴스' 화면에 더 오래 유지한다는 뜻이죠. 그래프를 육안으로 확인해봐도 기사가 250분 아래부터 대거 몰려있습니다. 200분 선 근처였던 네이버보다 높죠.
#4. 포털에 많이 노출된 후보가 실제 당선됐을까
## 선거 막판 포털 추이, 대선 결과와 일치
빅5 후보 양대 포털 뉴스 배열 이력과 최종 득표 순위를 비교해보면 1등 문재인의 당선 결과와 일치합니다. 양대 포털이 가장 많이, 길게 다룬 '문재인'이 41.1% 득표해 대통령에 당선됐습니다. 득표율 6.8%로 4위를 차지한 '유승민', 6.2%로 5위를 차지한 '심상정'도 배열 이력에서 각각 4번째, 5번째 비중을 차지합니다.
'홍준표'와 '안철수'의 순서만 바뀌었습니다. 홍준표 자유한국당 후보는 최종 득표율 24%를 기록하며 2위를 차지했죠. '홍준표'는 포털 노출에서 '안철수'에 뒤졌지만 실제 표심을 달랐습니다.
다만 4월 말부터 5월 초까지 대선 막바지 기간을 보면 포털 배열 이력에서 '홍준표''가 '안철수'를 역전하는 추이가 뚜렷해집니다. 뉴스래빗의 분석 기간 2달을 보면 '안철수'가 '홍준표'에 우세였지만 정작 선거 막판은 포털 노출 이력도 '홍준표'가 '안철수'를 앞질렀다는 점이 분명해집니다. 홍 후보가 각종 이슈 메이킹(issue making)으로 상승세를 굳힌 4월 중·하순 이후로 양대 포털이 배열 빈도와 지속시간을 늘렸기 때문입니다.
포털 배열 추이는 빅5 후보의 대선 실제 득표 순위와 결국 일치했습니다. 뉴스래빗이 이번 포털 배열 이력 데이터저널리즘을 준비하는 내내 궁금했던 질문은 '포털에 많이 노출된 대통령 후보가 실제 당선됐을까'입니다. 19대 대선만큼은 '사실(fact)' 입니다 !.!
※ 기사에 사용한 양대 포털 배열 이력 데이터는 관점에 따라 다양하게 해석할 수 있습니다. 활용 범위도 무궁무진하죠. 뉴스래빗은 이 방대한 데이터의 존재를 알리고 보기 쉽게 시각화했을 뿐입니다. 이 데이터가 궁금한 독자, 업계 및 학계 미디어 전문가 누구든 뉴스래빗에 말해주세요. 이 데이터가 활발히 활용돼 더 좋은 분석 결과가 많이 나오길 바랍니다. !.!
# DJ 래빗 ? 뉴스래빗이 고민하는 '데이터 저널리즘(Data Journalism)' 뉴스 콘텐츠입니다. 어렵고 난해한 데이터 저널리즘을 줄임말, 'DJ'로 씁니다. 서로 다른 음악을 디제잉(DJing)하듯 도처에 숨은 데이터를 분석하고, 발견한 의미들을 신나게 엮여보려고 합니다.
책임= 김민성, 연구= 강종구 한경닷컴 기자 jonggu@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com
관련뉴스