지방행정전산서비스 장애원인 및 향후대책 관련 브리핑

조회 846 | 2023-11-26 21:29
http://www.momtoday.co.kr/board/100729

<고기동 행정안전부 차관> 존경하는 국민 여러분, 지방행정전산서비스 개편 T/F에서 숭실대학교 송상효 교수님과 함께 공동팀장을 맡은 행정안전부 차관 고기동입니다. 우선, 지난 17일 금요일 지방행정전산서비스 장애로 인해 불편을 겪으신 국민께 다시 한번 깊은 사과의 말씀드립니다. 오늘 이 자리에서는 먼저 송상효 공동팀장님이 장애 원인에 대해 국민께 소상히 설명드리고, 이어서 제가 향후 재발방지 종합대책의 수립방향에 대해 말씀드리도록 하겠습니다. <송상효 지방행정전산서비스 개편 T/F 공동팀장> 안녕하십니까? 지방행정전산서비스 개편 T/F의 공동팀장을 맡고 있는 숭실대학교 송상효 교수입니다. 먼저, 원인분석반 구성 및 활동에 대해서 말씀드리도록 하겠습니다. 원인분석반은 총 29명으로 구성하였습니다. LG CNS, 네이버클라우드, 소울시스템즈 등 외부전문가 16명과 국가정보자원관리원 통신·운영·보안 부서의 소속인력 13명으로 구성하였습니다. 특히, 외부전문가 중 11명은 장애발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었습니다. 이번 원인분석에 한 가지 아쉬웠던 것은 장애 발생일 이후 이번 원인분석 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점입니다. 이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고, 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있다는 점을 양해 부탁드립니다. 원인분석 결과에 대해서 말씀드리도록 하겠습니다. 먼저, 장애 당시 남겨진 로그를 분석한 결과 장애원인이 네트워크 영역에서 발생하였을 확률이 높은 것으로 추정하였습니다. 왜냐하면 비정상 상태가 통합검증서버의 네트워크 세션에서 확인되고, 네트워크 장비 중의 하나인 L4 장비 OS 업데이트가 전일 있었으며, L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인되었기 때문입니다. 이와 더불어 네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있습니다. 그렇기 때문에 원인분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰으며, 이로 충분한 검토와 테스트를 진행하였습니다. 한편, 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격, 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안당국과 함께 확인하였습니다. 최근 해외에서 나라장터 시스템에 집중 접속하여 일시적인 과부하로 인한 일부 장애가 발생했었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시하였습니다. 현재까지는 해킹 징후가 보이지 않았습니다만 앞으로도 해킹에 대해서 유의하여 관리하도록 하겠습니다. 다음은 장애를 일으킨 원인입니다. 네트워크 장비를 대상으로 하는 성능 측면의 점검의 경우에는 구간을 나누어 반복적인 부하 테스트를 진행하였고, 장애 및 접속지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용하였습니다. 이와 같은 분석을 반복하여 수행한 결과, 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 되었는데 특히 1,500byte 이상의 패킷은 90%가 유실되었습니다. 이 현상의 원인은 라우터 장비에 케이블을 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문입니다. 이렇게 패킷이 유실됨으로써 통합검증서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고, 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것입니다. 이는 로그에서도 확인할 수 있었습니다. 이해를 돕기 위해 네트워크 구성도를 이용해 부연설명을 드리도록 하겠습니다. 네트워크 구성도는 오른쪽에 있습니다. 이쪽에 있고요. 일단, 국가정보자원관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하였고, 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개하였습니다. 그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능에 지연 현상은 발견하게 되었습니다. 지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인하였고, 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과, 해당 포트의 불량이 발견되어 11월 19일에 오전 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소하였습니다. 이와 같은 작업에도 불구하고 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로그를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤습니다. 통합인증서버가 존재하는 존(zone)에 함께 운영되는 서버는 물리서버 150여 대, 소프트웨어는 각각 웹서버 19식, WAS서버 50식, DBMS 56식이 있었습니다. 특히 통합인증서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았습니다. 통합인증서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 "얼굴 함몰돼...무서워" 박혜경, 자고 일어났더니 이마 움푹 무슨 일? 라우터 장비 2대 및 L4 장비 4대, 국가정보통신망 영역에 라우터 장비 8대가 있었습니다. 이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집하여 분석하였습니다. 또한, 앞서 설명드린 장애 및 접속지연의 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 일을 네트워크 부하 테스트의 경우 3차에 걸쳐 총 8회, 1차 4회, 2차 2회, 3차 2회 수행하였습니다. 원인분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같습니다. 통합인증서버로의 트래픽 유입량을 변경하는 경우, L4 장비를 경유하지 않는 경우, 패킷 크기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1,500명 등으로 다양하게 변경하는 경우, L4 장비를 경유하는 네트워크 대역 폭을 변경하는 등의 다양한 시나리오 상황에서 네트워크 영역에서의 접속지연 및 이상 유무를 확인하였습니다. 이와 같이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었습니다. 확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해서 명확한 "4년동안 아들집 3번 방문" 김수미, '며느리 서효림 식당차려도 안가' 왜? 검증 과정이 필요하였고, 이에 따라 상당한 시간이 소요되었습니다. 참고로 지금까지 설명드린 결과에 대한 재확신을 가지기 위해 당초에 원인으로 지목되었던 L4 장비 및 라우터를 이용하여 장애 당시와 유사한 환경을 구현하여 검증하였습니다. 어제부터 오늘까지 반복적으로 원인에 대한 재현 가능성을 확인하는 작업을 수행하였습니다. 그 결과, 검증 환경에서도 동일하게 라우터의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현되었습니다. 이로써 저희가 판단한 장애의 원인이 재입증되었다고 보아 오늘 국민 여러분들께 말씀드리게 되었습니다. 이상으로 지방행정전산서비스 장애원인 분석 결과에 대한 발표를 마치도록 하겠습니다. 감사합니다. <고기동 행정안전부 차관> 지금부터는 재발방지 종합대책의 수립방향에 대해 국민께 설명드리겠습니다. 이번 장애를 반면교사 삼아 다시는 이런 일이 재발하지 않도록 문제점을 하나 하나 들여다 보면서 근본적이고 실효성 있는 보완대책을 마련하고자 합니다. 먼저, 이번에 유사한 포트 불량이 있을 수 있는 오래된 장비들에 대해 오늘부터 전수점검에 착수했습니다. 다음으로 이번 장애와 관련하여 국민에게 장애 상황을 빨리 알려드리지 못한 문제를 해결하기 위해 "레드카펫서 속옷 노출" 안은진, MC배려로 수습 무슨 일? 장애 발생 시의 처리 매뉴얼을 보완토록 하겠습니다. 또한, 다양한 수단을 활용하여 장애로 인한 서비스 복구 상황을 신속히 알려 국민 불편을 최소화하겠습니다. 셋째, 전산장애가 발생하였을 때 신속한 복구조치가 가능한 체계를 마련하겠습니다. 장애조치 시간을 단축하기 위해 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고, 상설 장애대응반을 구성하여 중요 장애에 투입함으로써 조기에 문제를 해결할 수 있도록 하겠습니다. 이런 부분은 장애조치 매뉴얼에 더욱 보완하겠습니다. 넷째, 핵심 디지털정부 서비스가 중단되는 상황에서도 행정서비스가 제공될 수 있도록 행정조치 방안을 마련하고 대응 매뉴얼을 수립하겠습니다. 이를 반영하여 국가전산망 마비를 재난 및 사고 유형으로 명시하여 예방부터 복구까지 체계적으로 관리해나가도록 하겠습니다. 한편, 디지털정부를 안정적 운영하기 위해 중장기적 제도개선 방안도 마련하겠습니다. 먼저, 범정부 디지털정부 위기대응체계를 확립하겠습니다. 개별 정보시스템의 장애 복구를 넘어 다수 정보시스템이 연계된 디지털정부 환경에 걸맞는 위기대응체계를 구축하고, 이를 총괄하는 범정부 장애 예방 대응 컨트롤타워를 보다 강화하겠습니다. "나도 너 되게 좋아해" 이선균-女실장과 나눈 충격적인 대화내용 다음으로, 공공정보화사업 추진방식을 개선하고 투자계획을 마련하겠습니다. 공공정보화사업의 추진 절차와 사업관리체계 등을 개선해나가고, 내용연수가 지나 잠재적 위험성이 높은 하드웨어와 소프트웨어의 신속한 교체와 기술력 높은 기업 참여를 위한 공공정보화사업의 사업대가 현실화 등도 추진해나가겠습니다. 아울러, 안정적인 디지털정부 구축·운영을 위한 역량을 높여나가도록 하겠습니다. 디지털정부의 핵심 업무인 정보시스템 개발·운영을 외주용역에 의존하는 기존 체계를 개선하고, 디지털 분야 우수인재가 정부에 유입되어 역량을 발휘할 수 있도록 하겠습니다. 마지막으로, 국가정보자원관리원의 운영방식을 전면 재검토하겠습니다. 국가정보자원관리원에 입주한 시스템에 대한 이중화, 재복구 시스템, 네트워크 구성 등의 기술 구조를 전면 검토하고, 조직 진단을 통해 조직 구성과 인사 운영 등 개선방안을 마련하겠습니다. 앞서 말씀드렸듯이 다시는 유사한 문제로 국민이 불편을 겪지 않도록 어떠한 상황에서도 중단 없는 안정적인 디지털정부를 만들어가겠습니다. 이를 위해 많은 민간전문가와 관계기관의 참여를 통해 확실한 종합대책을 수립하고 그 결과를 국민께 충실히 설명하겠습니다. 앞으로 세계적 수준의 디지털정부 명성에 걸맞는 편리하면서도 보다 안정성 높은 서비스를 제공할 수 있도록 최선을 다하겠습니다. 감사합니다. [출처] 대한민국 정책브리핑(www.korea.kr)

이전.다음글