명령글 두 번 확인했지만 'exit' 누락 발견 못 해
새벽 1∼6시 작업을 월요일 오전으로 당겨 진행
(서울=연합뉴스) 조성흠 한혜원 정윤주 기자 = 지난 25일 발생한 KT의 전국 통신 먹통 사태는 직원 실수와 안일한 대비 미흡에서 비롯된 인재였던 것으로 풀이된다.
중요 장비를 교체하는 과정에서 두 차례나 명령어 사전 검토가 진행됐으나 명령어 누락이 발견되지 않은 채 넘어갔다.
사람이 하는 일에 실수가 있을 가능성이 존재하는데도 시험 과정을 거치지 않았고, 당초 예정한 심야∼새벽 시간이 아닌 월요일 낮에 교체를 진행해 피해를 더 키웠다.
과학기술정보통신부가 29일 발표한 KT 네트워크 장애 원인 분석 결과에 따르면 사고는 지난 25일 KT 부산국사에서 기업망 라우터(네트워크간 통신을 중개하는 장치)를 교체하던 중 일어났다.
사고의 직접 원인은 사람의 실수였다.
협력업체 직원이 교체 장비의 '라우팅'(네트워크 경로 설정)을 하다가 정보를 입력하는 과정에서 들어가야 할 명령어 중 '엑시트'(exit)라는 단 한 단어를 빠뜨린 것이다.
전체 스크립트(명령글)에 오류가 있는지를 확인하는 사전검증 단계가 두 차례나 있었지만, 사람이 직접 검토하는 체계여서 이 오류가 발견되지 않았다.
사람이 하는 일에는 구멍이 있을 수 있는 만큼, 정보 입력이 수작업으로 이뤄지는 거라면 잘못에 대비할 시스템이 있어야 마땅하다. 그러나 이번 장비 교체에서는 대비가 허술하기 그지없었다.
시스템에 지장을 주지 않고 이 오류를 미리 발견해 수정할 수 있는 가상의 테스트 베드(시험공간)가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다고 과기부는 지적했다.
네트워크도 정상 연결된 채로 교체가 이뤄져 전국 망이 위험에 노출됐다.
게다가 KT는 이 장비 교체 작업을 KT측 작업 관리자 없이 협력업체 직원들끼리만 수행하도록 한 것으로 드러났다.
이 때문에 통상 BGP(보더 게이트웨이 프로토콜, 외부 라우터와 경로 정보를 주고받는 프로토콜)에 들어가야 할 경로 정보가, 그 수십분의 1 수준의 경로 정보를 교환해 주는 IS-IS 프로토콜에 한 번에 몰리면서 오류가 발생했다.
장비 교체 시간이 심야에서 낮으로 옮겨지면서 피해가 더욱 커졌다.
당초 KT 네트워크관제센터는 협력업체가 교체 작업을 26일 오전 1∼6시에 진행하도록 승인했지만, 무슨 이유인지 계획이 바뀌어 교체는 25일 낮에 진행됐다.
결국 교체 작업 중간인 오전 11시 16분께부터 네트워크 장애가 시작돼 낮 12시 45분까지 89분간 서비스가 먹통이 됐다.
공공기관은 물론이고 기업, 자영업자 등의 업무가 가장 바쁜 월요일 낮부터 점심시간까지 국가 기간통신망이 얼어붙어버린 것이다.
2018년 11월 KT 아현국사 화재를 계기로 지난해 정부와 통신사들이 마련한 재난로밍 서비스는 이번 사고에서는 무용지물이었다.
재난로밍 서비스는 특정 통신사의 기지국이 화재나 지진 등으로 손상되면 다른 통신사 망을 활용해 통화나 문자를 제공하도록 하는 것이다.
이 재난로밍 서비스는 서비스 말단의 '에지 네트워크'를 활용하는데, KT 인터넷 장애는 심장부라고 할 수 있는 '코어'(중심) 네트워크까지 번져 재난로밍 시스템이 실행될 수 없었다.
결국 부산에서 시작된 통신 오류 사태가 전국에 속수무책으로 퍼지는 결과를 낳았다.
KT가 사고 발생 직후 원인으로 지목한 분산서비스거부(DDoS·디도스) 공격은 조사 결과 이번 사고와 관련이 없는 것으로 나타났다.
hye1@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스