"'국민 메신저' 카카오톡 서비스가 주말 수시간 불통됐다. 인터넷데이터센터에 전력장애가 발생한 탓이다."
어제부터 독자님들이 여러차례 보신 기사 내용일 겁니다. 하지만 이번 얘기가 아닙니다. 딱 10년6개월 전인 2012년 4월 말 한국경제 웹사이트에 나갔던 기사의 요약본입니다.
10년이 넘게 지난 일이지만, 당시 카카오톡 중단 사건은 이번 사태와 같은 점이 여럿입니다. △카카오톡 서비스가 중단됐습니다. △인터넷데이터센터(IDC) 전력장애가 일어났기 때문입니다. △카카오는 사과했습니다. △'4000만명이 넘게 쓰는 서비스가 데이터센터를 하나만 쓰느냐'는 지적이 잇따랐습니다.
카카오는 2012년 당시 막 적자를 벗어난 중견기업에 가까웠습니다. 지금은 시총 10위 안팎을 오가는 국내 대표급 IT 기업입니다. 하지만 데이터센터 한 곳에 서비스 가동 자체가 영향을 받는 것은 10년 전과 달라지지 않았습니다.
게다가 이번엔 문제가 더 심각합니다. 당시 서너시간 지속된 장애가 이번엔 스무시간을 넘어가고 있기 때문입니다.
서비스 장애의 범위도 엄청나게 늘었습니다. 데이터센터 전력 장애로 인한 서비스 장애 사태 이후 카카오는 관련해 별다른 조치를 하지 않았습니다. 대신 덩치 키우기에는 열중했습니다. 카카오 계열사 수는 2014년 26개, 2018년 72개에서 올해 136개(각 해 5월 기준)로 늘었습니다.
이렇게 흡수한 서비스가 여럿이다보니 카카오톡 말고도 사회 전반에 '카카오 장애'가 영향을 줬습니다. 돈이 오가는 결제서비스(카카오페이)부터 교통(카카오맵·카카오버스), 콘텐츠(카카오페이지·각종 게임), 커뮤니티(다음카페) 등 각 분야 서비스가 그대로 멈췄습니다. 전국 택시기사의 93%가 가입한 '생업 플랫폼' 카카오T도 마찬가지였고요.
이쯤되면 카카오의 비상 재해복구(DR) 대책이 미흡했다는 지적이 나오지 않을 수 없습니다. 데이터센터 운영사의 관리 탓을 하기도 어렵습니다. 같은 데이터센터를 쓰는 다른 기업들은 심각한 문제가 없었고, 있었더라도 빠르게 대응해 당일 중 대부분 서비스를 복구했기 때문입니다.
똑같은 데이터센터에 입주해 있는 네이버와 SK텔레콤 등의 서비스는 대부분 정상적으로 운영됐습니다. SK텔레콤은 아예 대고객 서비스에 차질이 없었습니다.
네이버는 쇼핑 검색 등 일부 서비스에 장애가 났으나 서비스 중 일부 항목만 이용이 원활치 않았던 정도입니다. 뉴스의 경우 일부 기사에서 뉴스 댓글 기능이 제한된 식입니다. 결제 서비스인 네이버페이 등은 결제·구매 등에 대해 아예 기능 문제가 없이 평소처럼 운영됐습니다.
같은날 카카오의 결제 서비스 카카오페이가 멈추면서 배달의민족 등 각종 연계 서비스까지 영향을 받은 것과는 정반대입니다.
이는 네이버와 SK텔레콤 등이 데이터를 분산해 서비스를 운영하고 있기 때문입니다. 네이버는 메인 서비스 서버를 춘천에 있는 자체 데이터센터 '각'에 두고, 일부 서비스 서버는 판교 등에 분산해 두고 있습니다. 반면 카카오는 판교의 한 데이터센터에 주요 서비스 대부분을 의존했습니다. 10년전과 같이 말입니다.
카카오가 데이터센터 다각화 노력을 아예 하지 않은 것은 아닙니다. 카카오 관계자는 "카카오는 경기 안양 등에도 데이터센터를 두고 서버를 가동 중이지만, 이번에는 메인 센터에 불이 나는 바람에 피해가 컸던 것"이라며 "현재 문제가 된 데이터센터의 장비에 전원이 절반 이하로 들어오고 있음에도 대부분 서비스를 정상화할 수 있는 이유는 다른 곳의 서버도 이용 중이기 때문"이라고 말했습니다.
하지만 이번 사고로 볼 땐 예비 조치가 충분치 않았던 것이 분명합니다. 메신저부터 결제, 즐길거리, 생활서비스 등을 온통 아우르는 플랫폼 기업의 서비스가 멈춰섰을 때 영향받는 이들이 너무나 많기 때문입니다.
이 점에 대해 카카오는 남궁훈·홍은택 각자대표 공동성명을 통해 "이원화 시스템을 두고 있고, 화재 사실을 인지한 즉시 조치 적용을 시작했으나 적용에 예상보다 오랜 시간이 소요되고 있다"고 설명했습니다. 요약하자면 '이원화는 했는데, 이원화가 되지 않았다'는 주장입니다.
이를 두고 IT업계에선 '술을 마시고 운전은 했는데, 음주운전은 하지 않았다' 정도로 받아들이는 분위기입니다. 정작 이원화 가동이 되지 않은 채 서비스 장애가 계속되고 있는데, 이원화 시스템이 있다고 주장하는 것은 어불성설이란 얘기입니다.
한 IT업계 관계자는 "재해 발생 즉시 가동이 되지 않는 조치는 아무런 의미가 없다"며 "이원화 시스템이 있는데 적용이 늦어지고 있다는 것은 결국 이원화 체제를 갖추지 못했다는 것"이라고 지적했습니다.
선한결 기자 always@hankyung.com
관련뉴스