“재난 관리-서비스 복구 총괄할… 컨트롤타워 없어 사고대응 늦어
CEO 직할 대응팀-복구위 신설”
10월 SK C&C 판교데이터센터 화재 당시 카카오 내부엔 재난 관리와 서비스 복구를 총괄할 ‘컨트롤타워’가 없어 대응이 늦어진 것으로 나타났다. 카카오는 최고경영자(CEO)가 직접 지휘하는 개발자 조직 등을 신설해 대규모 장애 사고에 대비하고 서비스 안정화 투자 규모도 기존보다 3배 늘리기로 했다.
카카오는 7일 연례 개발자 행사인 ‘이프 카카오’를 통해 이러한 내용의 사고 원인 분석 결과와 재발 방지 대책을 발표했다.
카카오 비상대책위원회에서 사고 원인 조사를 총괄한 이확영 그렙 대표는 “사고 초기엔 카카오에 컨트롤타워가 없었다”고 지적했다.
10월 15일 오후 3시 19분 데이터센터 화재로 서비스가 중단됐을 때 카카오(카카오톡), 카카오모빌리티(카카오T) 등은 개별적으로 장애에 대응했다. 이를 총괄할 조직이나 체계가 마련돼 있지 않았다. 또 카카오 임직원들이 업무용으로 활용하는 카카오톡, 카카오워크도 마비된 상황에서 이를 대체할 수단도 없는 상태였다. 이 대표는 “기존에 사용하던 업무 도구를 사용할 수 없을 때 중요한 의사결정 내용을 전파하기 위한 소통 채널까지 갖춰야 할 것”이라고 강조했다.
카카오는 이 같은 지적을 고려해 데이터센터 등 네트워크 관련 정보기술(IT) 개발자를 대규모로 채용해 CEO 직할 조직으로 꾸리는 방안을 검토하고 있다. 대규모 서비스 중단 등의 사고가 발생했을 때 CEO 중심으로 신속하게 대응하겠다는 취지다. 이와 별도로 장애 사고가 벌어지면 초기 대응 단계부터 컨트롤타워 역할을 할 수 있는 재해복구위원회를 신설할 예정이다.
재난복구(DR) 시스템은 데이터센터 3개가 연동돼 대규모 장애 사고에 대비할 수 있는 ‘삼중화’ 시스템으로 개선한다는 계획이다. 데이터센터 1곳이 멈춘 상황에서도 2곳의 서버 시설로 기존처럼 디지털 서비스를 정상적으로 제공한다는 것이다. 카카오는 삼중화 시스템 구축과 추가 인재 채용을 위해 앞으로 5년간 기존보다 3배 이상의 투자를 진행하기로 했다. 다만 구체적인 투자 금액은 공개하지 않았다.
비대위 재발방지대책 공동소위원장인 남궁훈 전 카카오 대표는 “철저히 반성하며 개선 대책을 마련했다”며 “서비스 안정화가 사회적 책임이라는 점을 항상 명심할 것”이라고 말했다.
댓글 0