"서비스 장애 재발방지 대책을 세우면서 '이랬더라면 이런 불상사가 일어나지 않았을텐데..'라는 생각을 여러 번 했습니다. 지금이라도 반성하고 개선하겠습니다."
남궁훈 "서비스 안정은 최우선 과제…이중화 미흡해 장애 발생"
남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 7일 오전 카카오가 개최한 개발자 행사 '이프카카오 데브 2022'(이하 이프카카오)에서 기조연설을 통해 이같이 밝혔다. 남궁 소위원장은 "앞으로는 이런 사고가 발생하지 않도록 최선을 다할 것"이라며 "카카오 서비스의 안정화는 최우선 과제이자 사회적 책임이라는 것을 항상 명심하겠다"고 말했다.카카오의 연례 개발자 행사 이프카카오는 원래 카카오의 기술 성과와 노하우를 외부에 소개하는 행사지만, 올해는 부족했던 부분을 돌아보고 '기술로 더 나은 세상'을 만들기 위해 다시 새롭게 나아간다는 내용에 초점을 맞췄다.
남궁 소위원장은 향후 서비스를 안정적으로 제공하기 위해 과거 원인 분석, 현재 재발방지책, 미래 투자의 크게 3가지 관점에서 실천과제를 세우겠다고 강조했다. 그는 "본질을 놓치고 있었다는 것을 깨달았다. 카카오 ESG(환경·사회·지배구조)의 최우선 과제는 '우리의 서비스를 안정적으로 제공하는 것' 그 자체였는데, 부족한 이중화가 역할을 다하지 못했고 결국 장애를 막지 못했다"고 설명했다.
남궁 소위원장은 고우찬 재발방지 공동 소위원장을 필두로 인프라 조직을 대폭 강화해 안정적인 서비스 환경을 조성하겠다고 강조했다. 이를 위해 카카오 내에 기존 개발조직과 분리된 별도의 정보기술(IT) 엔지니어링 전문가들로 구성된 전담조직을 신설해 운영할 계획이다.
"회사 차원에서 이중화 준비했어야…컨트롤타워도 부재"
두번째 연사로 나선 이확영 원인조사 소위원장(그렙 CEO)은 '1015 장애원인 분석' 키노트에서 카카오 서비스 장애 원인을 객관적으로 분석했다. 데이터센터와 운영 관리 도구들의 이중화 미흡, 가용 자원 부족 등을 주요 원인으로 꼽았고 서비스 복구에 시간이 소요된 이유를 자세히 설명했다.이 소위원장은 "데이터센터 전체에 문제가 생겼더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 금방 복구가 가능했을텐데, 일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 복구가 늦어졌다"면서 "또한 데이터센터 장애시 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데, 이 시스템마저 판교데이터 센터에만 설치돼 있어 수동으로 작업을 진행하게 됨에 따라 복구가 지연됐다"고 덧붙였다.
또한 "카카오와 공동체 및 개별 조직 등이 동시 다발적으로 장애에 대응했으나 전체적인 조율을 지원하는 전사 조직이 사전에 마련되지 았았다"며 "장애 대응을 위한 커뮤니케이션 채널 역시 혼선 빚으며 복구가 늦어졌다"고 설명했다.
이채영 재발방지대책소위원회 부위원장은 서비스 장애 '재발방지를 위한 기술적 개선' 주제로 발표에 나섰다. 데이터센터와 데이터, 서비스, 플랫폼, 운영 도구 등의 이중화 조치부터 서비스 앱(애플리케이션)에 이르기까지 철저한 이중화를 적용하겠다고 강조했다.
이 부위원장은 "데이터센터 장애 탐지가 잘 작동할 수 있도록 모니터링 시스템을 다중화할 것"이라면서 "메인 백본 센터를 현재 두곳에서 세곳으로 확대하고, 데이터센터 간 늘어날 트래픽에 대응할 수 있도록 설비 투자 진행하겠다"고 밝혔다. 이어 "모든 형태의 데이터를 다중 복제 구조로 구성하고, 장애 발생 시 복구 조치를 즉각 실행할 수 있는 환경 구축하겠다"고 전했다. 아울러 서비스 장애 대비 훈련도 강화할 것이라고 덧붙였다.
"안산 데이터센터, '극단적' 재해도 대응 가능하도록 설계"
고우찬 재발방지대책 공동 소위원장은 '미래 투자와 혁신 계획' 키노트 발표를 통해 자체 데이터센터 방재 대책 및 향후 5년간의 IT 엔지니어링 혁신 방안을 공개했다.
카카오는 현재 경기 안산 한양대 에리카캠퍼스 내에 서버 12만대를 수용할 수 있는 규모의 자체 데이터센터 건립을 진행 중이다. 카카오는 안산 데이터센터 건립에 4600억원을 투자했다. 2024년 1월 개소 예정이다.
고 소위원장은 "안산 데이터센터는 24시간 무중단 운영을 위해 이중화 인프라 구축은 전력, 냉방, 통신 각각에 모두 적용하려 한다"며 "UPS실과 배터리실은 방화 격벽으로 각각 분리 시공해 배터리실에 화재가 발생하더라도 나머지 시설 작동에 영향을 주지 않게끔 설계했다"고 전했다. 배터리실에서 화재가 발생할 경우 소화 가스를 사용하고, 소화 가스가 부족하면 화재 발생 구간을 차단하고 냉각수를 채워 방염 및 방열이 가능하도록 대비책을 마련했다. 이 외에도 침수, 해일, 강풍, 지진 등 극단적인 재난 재해에 대한 대응책도 갖춘다.
그는 "사건 사고로 서비스가 중단되는 상황을 최소화하기 위해 현재 대응 계획의 취약성을 진단하고 정확한 처방을 받는 작업을 진행할 것"이라며 "외부 파트너와 협력해 상시위기대응전략(BCP)을 마련하겠다"고 덧붙였다.
카카오는 이프 카카오 둘째날에도 '1015 회고' 특별 세션 5개를 별도로 열고 데이터센터, 인프라 설비, 데이터, 서비스 플랫폼, 어플리케이션 등 다섯 개 영역에 적용하는 다중화 기술에 관해 개별적으로 설명하는 자리를 이어갈 계획이다.
이번 이프카카오는 오는 8일까지 카카오 공동체 소속 개발자 120여 명이 연사로 나서 △1015 데이터센터 화재 회고 △AI △백엔드 △클라우드 △데브옵스 △블록체인 △데이터 △프론트엔드 △모바일 △ESG △문화 등으로 이루어진 12개 트랙에서 총 106개 발표 세션을 진행할 예정이다. 기술 외에도 접근성이나 기술윤리 등 디지털 책임을 높이기 위한 카카오의 실천적 활동을 소개한 콘텐츠가 공개된다.
조아라 한경닷컴 기자 rrang123@hankyung.com
관련뉴스