KT가 지난달 25일 발생한 유ㆍ무선 네트워크 ‘먹통’ 사태의 원인으로 관리 소홀과 기술적 검증절차 미비를 들었다. KT는 앞으로 이런 장애가 발생하지 않도록 하겠다며, 삼중 관리절차와 가상 테스트베드 확대 적용 등의 대책을 마련했다.
KT는 1일 광화문사옥에서 설명회를 열고 유ㆍ무선 네트워크 장애가 발생한 이유 등에 관해 설명했다.
설명회에서 KT는 네트워크 장애가 발생한 원인으로 △야간에 진행해야 할 작업을 주간에 KT 직원이 없는 상황에서 이뤄진 점 △사전 검증단계에서 협력사 오류로 인한 명령어 누락을 파악하지 못한 점 △잘못된 라우팅(네트워크 경로설정) 정보가 엣지망을 통해 전국으로 확산한 점을 들었다.
서창석 KT 네트워크혁신TF 전무는 질의응답에서 “KT가 가진 라우터 표준작업 프로세스가 있고 이번 사고는 4단계인 ‘고객망 연결 라우팅 설정 작업’에서 발생했다. 원래는 야간작업으로 해당 작업을 진행한다”며 “관리적 문제점은 협력사가 주간작업을 진행하고 KT 직원이 이에 미 입회한 상황”이라고 설명했다. 이어 “연간 라우팅 프로토콜 설정 작업이 4000번가량 진행하는데 그간 전혀 문제가 없었고 이번에 (문제가) 생겼다”고 덧붙였다.
또한 기술적으로도 사전검증 단계에서 오류를 파악하지 못했고 시뮬레이션 시스템을 작업준비 단계에서만 적용한 문제가 있다고 설명했다. 서 전무는 “망을 고도화하고 신규 장비를 적용할 때는 통상 4개월의 검증 절차가 필요하고, 피드백을 거쳐 최종 표준작업절차서를 확정한다”며 “현장에서 이중으로 이를 검증하게 돼 있지만, 이번 경우엔 명령어 ‘exit’가 누락됐고 이를 검증단계에서 KT가 검출하지 못한 실수가 있었다”고 했다.
네트워크 오류 발생 직후 사고 원인을 디도스(DDoSㆍ서비스 분산) 공격으로 인지한 데 대한 해명도 내놨다. 권혜진 KT 네트워크전략 상무는 “그간 인터넷 장애 발생 원인을 보면 대부분 디도스 공격 또는 DNS였다”며 “전국적으로 DNS 트래픽이 많이 올라간 상황에서 인터넷망도 동시에 안되는 것을 고려했을 때 디도스 공격 가능성을 최우선에 뒀다”고 말했다. 또한 “동시에 라우팅 오류와 관련해서도 검토했다”고 덧붙였다.
이러한 사고를 막기 위해 KT는 관리와 기술 측면에서 재발방지대책을 마련했다고 밝혔다. 먼저 관리적 차원에서는 ‘현장작업 자동통제 시스템’을 도입한다. 해당 시스템은 총 3단계로, 작업자가 서비스에 영향을 미치는 명령어 등을 시행할 경우 OTP(일회용 암호)로 관리자가 승인하도록 하는 것이 가장 먼저다. 이어 네트워크 관제센터에서 미승인 작업 여부를 실시간 자동으로 모니터링하고, 3단계에서는 KT 직원의 작업 참여를 인증한 후에야 실제 작업이 가능하도록 했다.
기술적 측면에서는 기존 시뮬레이션 시스템을 확대한다. 작업준비 단계에서만 적용하던 테스트베드를 가상화해 전국에서 라우팅 설정 작업을 마무리하기 직전 작업을 시험할 수 있도록 하겠단 것이다. 서 전무는 “현재 우면동 KT 연구개발센터에서 테스트베드를 운영하며 실제와 동일한 환경에서 표준 작업절차서 작성과 검증에 활용하고 있다”며 “이를 지역적으로 확대해 (오류가) 발생하지 않도록 하겠다”고 강조했다.
또한 모든 센터망과 중계망 및 일부 엣지망에 적용 중인 라우팅 오류 확산방지 기능도 모든 엣지망으로 확대한다. 정보전달 개수를 제한하는 것으로 이를 이용하면 엣지망에서 발생한 라우팅 오류가 전국망에 영향을 미치는 것을 사전 차단할 수 있다. 아울러 유ㆍ무선 인터넷 장애가 동시에 발생하지 않도록 다양한 형태의 백업망도 구성한다.