네이버 개발자들 "3분에서 1분 안팎으로 탐지 시간 줄여"
(서울=연합뉴스) 임성호 기자 = 네이버는 작년 9월 출시한 '차세대 검색 모니터링 시스템'을 통해 트래픽 급증 등으로 빚어지는 장애를 탐지하는 시간을 기존 3분에서 1분 안팎으로 단축했다고 28일 밝혔다.
네이버 서치CIC 소속 조문형·조영준 SRE(검색 안정성 공학) 엔지니어는 이날 서울 강남구 코엑스에서 열린 네이버 기술 콘퍼런스 '데뷰(DEVIEW) 2023'에서 이런 내용을 발표했다.
조문형 엔지니어는 "기존 모니터링 시스템은 검색 장비에서 지표를 수집하는 데 30초 정도의 대기시간이 발생했고, 데이터 가공에도 1분이 걸렸으며 가공된 지표를 바탕으로 경보 규칙을 위반했는지 평가하는 데 또 1분이 소요돼 대기에만 최소 3분 이상이 걸렸다"고 설명했다. 이런 지연 시간이 장애 관제·해결에 치명적인 영향을 미쳤다는 것이다.
조 엔지니어는 "기존 시스템의 파이프라인 구조를 변경해 이상 징후를 빨리 탐지하고, 전체 장애 지속 시간을 줄이는 방향으로 대응할 수 있었다"고 했다.
이렇게 만들어진 신규 모니터링 시스템은 지난해 12월 3일 오전, 한국 대표팀이 2022 카타르 월드컵에서 사상 두 번째 원정 16강 진출이 확정된 순간 진가를 발휘했다.
조영준 엔지니어는 "16강 진출이 확정되며 트래픽이 평소보다 약 7배 몰리는 순간에 한 서비스에서 경고가 발생했고, 서비스 담당자가 이 경고를 받아 액션을 취하는 일이 불과 3, 4분 사이에 벌어졌다"고 돌아봤다.
그는 "만일 기존 시스템을 사용하면서 경보가 1∼2분 늦었더라면 트래픽이 계속 몰리는 순간이기에 장애가 여러 시스템으로 전파될 수도 있었다"면서 "신규 시스템에 기반한 빠른 경보 발송으로 상황을 개선했기에 큰 장애 없이 하루를 마칠 수 있었다"고 강조했다.
조영준 엔지니어는 "우리 조직은 네이버 시스템의 신뢰성을 보장하는 팀"이라면서 "네이버 검색의 효율적인 장애 관제를 위해 다양한 조직들과 함께 기술적, 문화적인 개선 방안들을 찾고 있다"고 덧붙였다.
sh@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스