지난 25일 '지방행정전산서비스 개편 태스크포스(TF)'는 17일 벌어진 정부 행정전산망의 대규모 마비 사태의 원인을 밝히는 긴급 브리핑을 벌였다. TF는 기존에 밝힌 마비 이유인 'L4(네트워크 장비) 오류' 를 '라우터 포트 손상 때문'이라고 정정했다. 라우터 장비는 2016년 도입돼 '노후화 때문은 아니'라면서도 왜 포트가 손상됐는지 '정확히 파악하기는 어렵다'고 밝혔다. 다음은 TF의 일문일답.
▶TF는 어떻게 구성했고, 활동했나.
<송상효 지방행정전산서비스 개편 TF 공동팀장(IT대학 소프트웨어학부 겸임교수)>
"총 29명으로 구성했다. LG CNS, 네이버클라우드, 소울시스템즈 등 외부전문가 16명과 국가정보자원관리원 통신·운영·보안 부서의 소속인력 13명이다.
외부전문가 중 11명은 장애발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었다. 원인분석에서 분석 결과를 발표하기까지 오래 걸렸다는 점이 아쉽다. 이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고, 충분한 검증을 통해 신중하게 결과를 공개해야겠다고 여겼다."
▶네트워크 장비 문제라고 했었는데.
"처음에 장애 당시 남겨진 로그(접속기록)를 분석한 결과 원인이 네트워크 영역에서 발생했을 확률이 높은 것으로 추정했다. 비정상 상태가 통합검증서버의 네트워크 세션에서 확인되고, 네트워크 장비 중의 하나인 L4 장비(서버 간 신호 분산을 위한 장비) OS(운영체제) 업데이트가 전일 있었으며, L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인됐기 때문이다.
네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있다.
그래서 분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰고, 충분한 검토와 테스트를 진행해야만 했다."
▶해킹 가능성은.
"아니다. 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격, 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정해 보안당국과 확인했다.
최근 해외에서 나라장터 시스템에 집중 접속해 일시적인 과부하로 일부 장애가 발생했었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시했다.
현재까지는 해킹 징후가 보이지 않았다. 앞으로도 해킹에 대해서 유의하여 관리하도록 할 것이다."
▶원인을 어떻게 발견한 것인가.
"네트워크 장비를 대상으로 하는 성능 점검해선 구간을 나눠 반복 부하테스트를 진행했다. 장애 및 접속지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용했다.
그 결과 네트워크 장비인 라우터(둘 이상의 네트워크를 연결하는 장치)에서 패킷(데이터뭉치)을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰했는데, 특히 1500byte(한글 기준 750자 가량의 데이터)을 넘는 패킷은 90%가 유실되고 있었다. 현상의 원인은 라우터 장비에 케이블을 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문이다.
이렇게 패킷이 유실됨으로써 통합검증서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없었다. 지연이 중첩되며 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것이다. 이를 로그에서도 확인했다."
▶자세히 설명한다면
"네트워크 구성도는 다음과 같다. 이해를 돕기 위해 네트워크 구성도를 이용해 부연설명을 하겠다.
국가정보자원관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체했고, 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개했다.
트래픽이 많지 않은 주말이라 서비스는 정상 작동했지만, 일부 기능에 지연 현상은 발견했다. 지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인했고, 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과 해당 포트의 불량이 발견돼 11월 19일에 오전 7시에 다른 포트로 연결을 전환해 해당 지연 현상을 해소했다.
이와 같은 작업에도 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로그를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤다.
통합인증서버가 존재하는 존(zone)에 함께 운영되는 서버는 물리서버 150여 대, 소프트웨어는 각각 웹서버 19식, WAS서버(인터넷 망 안에서 정보를 공유, 검색할 수 있게 하는 시스템) 50식, DBMS(데이터베이스 관리시스템) 56식이 있다.
특히 통합인증서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았다.
통합인증서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 장비 2대 및 L4 장비 4대, 국가정보통신망 영역에 라우터 장비 8대가 있다. 이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집해 분석했다.
앞에서 설명한 장애 및 접속지연의 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 일을 네트워크 부하 테스트의 경우 3차에 걸쳐 총 8회, 1차 4회, 2차 2회, 3차 2회 수행했다."
▶부하 테스트란 어떻게 진행하는가.
"다양한 시나리오로 부하를 주고, 어떤 부분에 문제가 생기는지 알아내는 과정을 거쳤다.
통합인증서버로의 트래픽 유입량을 변경할 때, L4 장비를 경유하지 않을 때, 패킷 크기를 변경할 때, 서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경할 때, L4 장비를 경유하는 네트워크 대역 폭을 변경할 때 등 각각 시나리오에서 네트워크 접속지연 및 이상 유무를 확인했다."
▶라우터 불량이 확실한가.
"이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었다. 확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해 상당한 시간이 소요됐다.
이 결과에 대해 재확신을 가지기 위해 당초에 원인으로 지목되었던 L4 장비 및 라우터를 이용해 장애 당시와 유사한 환경을 구현하여 검증했다.
그 결과, 검증 환경에서도 동일하게 라우터의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현됐다. 우리가 판단한 게 맞다고 보고 공개한 것이다."
▶재발 방지 대책은?
<고기동 행정안전부 차관>
"이번에 유사한 포트 불량이 있을 수 있는 오래된 장비들에 대해 전수점검에 착수했다. 국민에게 장애 상황을 빨리 알려드리지 못한 문제를 해결하려 장애 발생 매뉴얼도 보완하고 있다.
전산장애가 발생하였을 때 신속한 복구조치가 가능한 체계도 마련 중이다. 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고, 상설 장애대응반을 구성하여 중요 장애에 투입하기로 했다.
핵심 디지털정부 서비스가 중단되는 상황에서도 행정서비스가 제공될 수 있도록 대응 매뉴얼을 수립할 계획이다."
▶국가정보자원관리원에 대한 지적이 많은데.
"운영방식 전면 재검토를 추진하겠다. 입주한 시스템에 대한 이중화, 재복구 시스템, 네트워크 구성 등의 기술 구조를 전면 검토하고, 조직 진단도 벌일 예정이다. "
▶라우터의 모듈 포트에 기계적 결함이 있다는 얘긴데, 그 불량의 이유는 무엇인가.
<송상효 교수>
"라우터는 서버나 장비 중에 특별한 장비이기 때문에 이 장비의 기본적인 모니터링은 다 하고 있다. 그런데 이건 기본 모니터링이 아니라 모듈 안에서 발생한 특수한 부분에서 발생한 문제였다."
▶라우터가 노후화됐나.
<이재용 국가정보자원관리원장>
"2016년에 도입돼서 사용기한이 만료되지 않은 장비다. 물리적인 부품의 손상이기 때문에 그 부품의 손상의 원인을 밝혀내기는 상당히 어렵다. 전산 기록에도 남지 않기 때문이다.
▶어떻게 점검하나
"항상 매일 육안 체크를 한다. 불이 들어오는지, 신호가 점멸하는 게 맞는지를 본다. 시스템을 통해서 모니터링을 하는 것도 있다. 그럼에도 안에 들어있는 부품 같은 경우에 미처 예상하지 못한 고장이 발생하는 것을 미리 잡아내긴 어렵다."
▶소프트웨어적이 아니라 하드웨어적 결함이라는 말인가.
<송상효 교수>
"소프트웨어의 문제는 아닌 걸로 발견을 했다. 처음에 저희가 발표를 할 때 L4 문제다, L4의 OS 문제로 알렸다. 테스트해본 결과 그건 아닌 걸로 확인됐다.
원인이 단순하게 이 L4의 네트워크 문제뿐만이 아니라 거기에 접속하는 다양한 시스템들의 문제, 그 부분도 확인했는데, 문제 없는 걸로 나왔다. 시점이 OS 변경 후에 발생했지만, 나중에 전 상태로 돌려놓고(롤백) 실험해봐도 똑같은 문제가 발생했다."
▶물리적 손상이 어떤거고, 해당 장비는 누가 제조했나.
"깨지거나 그런 것도 물리적인 손상이라고 이야기하지만, 그냥 그 부품 자체에서 작동하지 않는 것을 말하는 것. 라우터는 케이블을 꽂으면 연결이 돼야 되는데 케이블을 꽂아도 작동하지 않았다. 콘센트를 꽂았을 때 전기가 안 통하는 경우와 마찬가지다.
해당 모듈 장비 제조사는 미국 시스코(CISCO)사이고, 관리회사는 대신정보통신이라는 회사다."
▶민간에서도 포트 이상 발생 했을대 복구가 3일씩 소요되나. 백업은 왜 작동하지 않았나.
<송상효 교수>
"하드웨어적인 불량은 민간에서도 되게 많이 있는 일이다. 그런데 민간의 서비스들은 정부의 시스템처럼 이렇게 복잡하지 않다.
오늘 발표는 하지만 예측 불가능한 문제였다. 저보단 민간 전문가에게 얘길 청해보겠다."
<박진오 LG CNS 인프라아키텍처 담당>
"빈번하지는 않지만 가끔씩 그런 케이스들은 존재는 한다. 이번 케이스하고 조금 다른 점은 그 해당 포트가 전체 트랜잭션 레벨에서 어떤 서비스와 연관이 돼 있느냐가 굉장히 중요한데, 이번엔 해당 포트가 전 서비스에 영향을 미치는 역할을 해서 파급이 컸다.
실제로 지지난 금요일에 장애가 있었고, 토요일 야간에 이 원인을 파악해서 실제 조치는 이틀 정도 걸린 걸로 알고 있다. 상세하게 원인을 분석하고, 확신하는 과정이 오래 걸린 것이다."
<서보람 디지털정부실장>
"사고 당일 다음 날 아침 9시에 모든 서비스는 재개가 됐다. 그때 말씀을 드렸던 거는 L4 스위치를 교체해서 됐었다는 것이었고, 정부24라든가 그다음에 지방자치단체에서 쓰고 있는 시스템들을 그날 오후에 테스트를 하면서도 아무 이상 없이 됐었고, 그래서 정부서비스가 다시 개시된 것은 24시간 10여 분 후에 다시 개시가 됐다.
다만, 원인 분석에 대해선 그다음 날 아침에 문제가 생겼던 라우터의 모듈을 바꿔끼는 작업을 했고, 시간이 소요가 됐다."
▶이중화, 백업은 왜 작동이 늦었나
<이재용 국가정보자원관리원장>
"백업이 문제가 발생했을 때 원격지에서 대신 가동하는 백업을 의미라고 하면, 이런 경우 같은 경우에는 적용이 안 된다.
물리적인 재해나, 그러니까 보통 지진이나 홍수로 전산실이 운영이 불가능할 때, 거기에 침해를 받지 않는 멀리 있는 원격지에 백업센터를 구축하고 그쪽에서 서비스를 얼마 이내에 이어받아서 진행한다는 개념이다.
이번 같은 경우에는 데이터든 프로그램이든 손상되거나 망실된 경우가 아니라 작동하지 않았다. 현재 센터를 고쳐서 정상 가동하는 것이 훨씬 빠른 경로고 그렇게 운영하는 것이 맞는다."
<송상효 교수>
"관련된 시스템이 계속될 수 있는 이중화가 적절하게 구성되느냐가 대답이 될 것 같은데, 이중화에 대한 구성은 다 되어 있다. 그런데 이중화라는 건 하나의 시스템이 장비가 완벽하게 작동이 되지 않을 경우에 그 작동을 대신하는 그런 구조를 말한다. 지금은 일부 모듈이 이상이 생겼기 때문에 이중화가 제대로 작동이 되지 않았다."
▶17일 이후 서너차례 전산망 먹통 사태가 있었는데 여기에 모두 영향을 끼친 것인가.
<서보람 디지털정부실장>
"저번주 금요일에 발생한 문제의 원인은 라우터에 있는 모듈. 그 이외에도 정부서비스가 여러 가지들이 계속 장애를 일으켰던 것이 사실이지만, 경우마다 전부 다 다른 원인 때문에 발생을 했던 것이다."
▶처음에 L4 장비를 교체하고 다시 서비스를 개시했는데, 그땐 그게 원인이라고 여겼던 이유는.
"토요일 새벽에 L4 장비를 교체하고 부하 테스트 등 여러 가지, 기능 테스트라든가 여러 가지 테스트를 거쳐서 문제가 없다고 판단을 해서 L4 장비를 2대를 교체했다. 실제적으로 운영이 되는 데 문제가 없고, 일요일에 브리핑 하면서 원인은 L4 장비로 추정했다.
그때도 100%라곤 말씀드리지 않았었다. 왜냐면 규명을 해야했기에, 가능성이 높다는 말씀을 드렸다."
정리=김대훈 기자
관련뉴스