“KT 사고 원인, 협력업체 직원들끼리 작업하고 안전장치도 없었다”

  • 동아일보
  • 입력 2021년 10월 29일 15시 00분


25일 오전 11시30분쯤 KT 유·무선 인터넷망에서는 장애가 발생해 데이터 전송이 이뤄지지 않는 ‘먹통’ 사태가 발생했다. 이번 ‘먹통’ 사태는 약 30분간 지속된 뒤 일부 정상화돼 KT 아현 사태 때보다 시간은 짧았지만, 범위가 전국이었다. KT에서는 오전에는 디도스 공격이 원인이라고 했으나 오후 들어 라우팅 오류를 원인으로 정정했다. 사진은 25일 오후 서울 종로구 KT 광화문지사. 2021.10.25/뉴스1 © News1
25일 오전 11시30분쯤 KT 유·무선 인터넷망에서는 장애가 발생해 데이터 전송이 이뤄지지 않는 ‘먹통’ 사태가 발생했다. 이번 ‘먹통’ 사태는 약 30분간 지속된 뒤 일부 정상화돼 KT 아현 사태 때보다 시간은 짧았지만, 범위가 전국이었다. KT에서는 오전에는 디도스 공격이 원인이라고 했으나 오후 들어 라우팅 오류를 원인으로 정정했다. 사진은 25일 오후 서울 종로구 KT 광화문지사. 2021.10.25/뉴스1 © News1
지난 25일 발생한 KT 인터넷 통신망 장애는 KT 부산국사에서 기업 망 라우터 교체 작업 중에 작업자가 잘못된 설정 명령을 입력하면서 라우팅 오류와 전국적인 인터넷 네트워크 장애로 이어진 인재(人災)로 최종 확인됐다.

29일 과학기술정보통신부는 25일 발생한 KT의 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 발표했다.

조사에 따르면 이번 사고는 25일 11시 16분경 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고 12시 45분경 KT의 복구조치가 완료됐다. 약 89분의 서비스 장애가 발생했다는 것이다.

이번 사고 로그기록을 분석한 결과, KT 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력하였고 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.

일반적으로 인터넷 서비스가 제공될 때, 개인용컴퓨터(PC)와 스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결된다. 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 여러 개 라우터의 경로정보가 필요하다.

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용하는데 KT 네트워크와 외부 네트워크 경로 구성에는 ‘BGP’ 프로토콜을 사용하고 KT 내부 네트워크 경로 구성에는 ‘IS-IS’ 프로토콜을 사용한다. 정상적인 상황에서는 라우터가 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 되는 것이다.

그런데, 작업자의 작업내역을 확인한 결과 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락한 것으로 드러났다.

이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다. 결국, 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생하게 됐다는 것이다.

과기부는 이런 라우팅 경로 오류가 전국적으로 확산된 이유도 함께 분석했다. IS-IS 프로토콜 내의 라우터들은 서로 간의 정보 최신화를 위해 자동으로 데이터를 주고받는데 부산 지역 라우터에 잘못된 라우팅 경로가 설정된 이후, 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달됐다. KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜이 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있었다는 것이다. 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어면서 장애가 전국적으로 확대됐다는 것이 과기부 조사 결과다.

이런 가운데 당초 KT가 야간작업(01시~06시)을 승인했지만 작업이 주간에 수행되는 과정에서 장애가 발생하게 됐다는 점도 확인됐다. 특히, 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업 오류를 방지하기 위한 작업관리체계가 부실했으며 네트워크가 연결된 채로 작업이 이루어진 것으로 드러났다. 과기부는 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템이 없었다는 점도 문제로 지적했다.

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0