구글 검색 알고리즘과 관련한 기밀문서 수천 개가 통째로 유출돼 전 세계가 술렁이고 있다. 구글이 사용자에게 약속한 콘텐츠 추천 알고리즘 원칙이 지켜지지 않았다는 증거가 담겨 있어서다.
9일 정보기술(IT) 매체 더버지에 따르면 지난 3월 말부터 5월 초까지 개발자가 코드를 공유하기 위해 활용하는 커뮤니티 깃허브에 2500여 개에 이르는 구글 내부 문서가 유출됐다. 이 문서는 구글이 웹사이트 순위에 영향을 미치지 않는다고 밝혀온 데이터를 콘텐츠 배치에 활용하고 있다는 내용을 담고 있다. 검색엔진 최적화(SEO) 전문가인 랜드 피시킨은 “구글이 대외적으로 밝힌 검색 원칙과 실제 작동 메커니즘이 다르다는 증거가 나타난 것”이라고 설명했다.
업계에서 주목하는 활용 항목은 ‘사용자 클릭 데이터’다. 내용이 부실하거나 완전히 엉뚱한 내용을 담은 사이트라도 사람들이 많이 클릭한 기록이 있다면 검색 상위에 노출된다는 게 업계의 의심이었는데 그것이 사실로 드러났다는 설명이다. 한 광고업계 종사자는 “경품 제공 등의 방식으로 사용자를 많이 끌어모은 사이트를 사들인 다음 사이트 내용만 광고주가 원하는 대로 바꾸는 전략이 효과가 있다는 점이 확인됐다”고 지적했다.
크롬 브라우저를 통해 수집한 이용자의 클릭스트림 데이터도 검색 결과에 반영한 것으로 드러났다. 클릭스트림은 이용자가 어떤 사이트의 어떤 항목을 클릭했는지를 순차적으로 정리한 데이터다.
구글 검색 메커니즘이 모두 밝혀진 것은 아니다. 결과에 어떤 요소를 고려하는지만 설명돼 있을 뿐 각 요소를 얼마나 중요하게 반영하는지(가중치)에 대한 내용이 없어서다.
전문가들은 이번 내부 문서 유출 사태가 빅테크 알고리즘에 대한 불신을 키울 것으로 보고 있다. 사람들의 관심보다 수익을 기준으로 콘텐츠를 추천한다는 속설이 사실로 드러났다는 평가도 나온다.
어떤 콘텐츠를 볼지, 어떤 물건을 살지, 어떤 뉴스를 들을지 판단할 때 빅테크의 역할은 절대적이다. 사용자는 수없이 많은 콘텐츠를 보지만 ‘추천’되지 않은 상품과 콘텐츠가 사용자에게 닿을 방법은 거의 없다. 추천이 곧 클릭이고 관심이며 돈이라는 얘기가 나오는 이유다.
구글 내부문건 유출…클릭 패턴·체류시간, 검색결과 반영 확인
정보의 생산자와 소비자를 이어주는 값으로 중간에서 막대한 수수료를 떼어가는 빅테크 중심 사회를 가리키는 ‘디지털 봉건주의’라는 표현도 등장했다.
빅테크 알고리즘이 사회의 권력과 부(富)를 나누는 주체로 자리 잡았지만 기존 사회 시스템은 알고리즘을 통제하는 데 어려움을 겪고 있다. 초특급 영업기밀로 다뤄지기 때문이다. 일부 빅테크는 자사 알고리즘의 주요 원칙을 공개하지만 사용자가 체감하는 결과물과는 거리가 멀다. 알고리즘을 공개해도 일반인이 이해하기 쉽지 않은 측면이 있다. 알고리즘의 구조가 복잡한 데다 내용도 방대하기 때문이다.
일부 전문가가 빅테크의 알고리즘을, 중요하지만 아무도 보지 않는 보험 약관에 빗대 설명하는 것은 이런 이유에서다.
이상은/고은이 기자 selee@hankyung.com
관련뉴스