SK C&C 판교 데이터센터 화재 사고로 카카오 서비스가 19시간 이상 서비스 장애를 일으키고 있는 가운데, 카카오가 10년 전 이번 사태와 거의 유사한 사고를 당한 일이 새삼 주목을 받고 있다.
2012년 4월 28일. LG CNS의 가산 데이터센터에 전원 장치 이상으로 카카오톡, 카카오스토리 등 카카오 서비스가 4시간 가량 불통되는 사고를 당했다. 하필 카카오가 임대한 전용공간에 전력 공급이 끊겼던 것. 당시 LG CNS는 서버에 전원 차단되면 서비스가 중단되는 상황에서 데이터센터의 전력 운용 문제로, 카카오는 서버를 분산 운용 하지않았다는 이유로 비판을 받았다.
당시 카카오 경영진은 중장기적으로 여러곳에 서버를 분산 운영하고 이원화 체계를 갖추는 방안을 검토하겠다고 했다. 당시 서버 분산 운용은 고작 연간 매출 18억원을 벤처기업 카카오에겐 재정적으로 무리가 있었던 일일 수 있다.
그로부터 10년 후 카카오는 연간 매출 6조원을 넘기는 대기업으로 초고속 승진했다. 그럼에도 이번 사태를 보면 “10년이 지난 지금도 달라진 게 없다”는 비판이 나오고 있다. 입주한 데이터센터만 LG CNS에서 SK㈜ C&C로 바뀌었을 뿐, ‘전력 공급 차단’이라는 서비스 중단 이유는 동일하다.
카카오 서비스는 지난 15일 오후 3시30분께 SK C&C 판교 데이터센터에서 발생한 화재로 인해 현재까지 완전히 복구되지 못하고 있다. 카카오의 장비가 위치해 있는 데이터센터 구역에 전원 공급이 차단되면서 카카오톡을 비롯해 카카오페이, 카카오T, 카카오맵, 카카오게임즈 등 서비스들이 대부분 먹통이 됐다. 밤샘 작업을 거쳐서야 카카오톡 등 일부 서비스들이 다시 정상화되고 있는 상황이다.
남궁훈·홍은택 카카오 대표들은 사고 발생 6시간 만에 공식 입장문을 내고 사과했다. 두 대표는 “데이터센터 화재로 인한 카카오 서비스 장애로 불편을 겪고 계신 모든 이용자분들께 고개 숙여 진심으로 사과드린다”며 “이번 화재 원인을 명확히 규명하고, 현재 입주해 있는 데이터센터 업체에 사고 원인을 전달해 안전 점검 및 사고 예방 조치를 다시 한번 확인할 예정”이라고 전했다.
카카오 경영진은 모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며, 외부 상황에 따른 장애 대응을 위한 이원화 시스템도 갖췄다고 해명했다. 그런데도 서비스 복구에 오랜 시간이 소요되고 있는 것에 대해 카카오 측은 “이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황”이라 말했다.
그러나 IT 전문가들은 상식 밖의 해명이라고 말한다. 이중화 시스템이 지진, 테러 등으로 특정 데이터센터에 입주한 전체 서버들에 장애가 발생한 상황을 대비하기 위한 취지이기 때문이다.
카카오의 DR(주센터 장애시 DR센터 자원으로 서비스를 연속적으로 제공하는 것) 구성 및 대응 훈련이 미흡했던 것은 아닌지 의심도 나오고 있다. 직장인 익명앱 블라인드에는 “카카오가 전사 재택근무를 하고 있어서 DR 훈련이나 대응이 늦어진 것 아니냐”는 비판글까지 올라오고 있다. 반면 “DR 구성을 했다고 무중단 서비스 운영이 가능하다는 의미도 아니다. DR 훈련을 해도 IDC 기준이 아닌 서비스별 기준일 가능성도 크다”고 추정하는 시각도 있다.
그럼에도 카카오톡, 카카오T, 카카오페이 등 수천만명이 쓰는 모바일 서비스가 데이터센터 한곳의 화재로 10시간 넘게 중단됐다는 건 인프라 체계에 확실히 문제가 있다는 비판을 파히긴 어렵게 됐다. 카카오가 6조원 매출을 거두는 회사임에도 아직 자체 데이터센터가 없다는 점도 논란거리다. 카카오는 내년에서야 한양대 에리카 안산 캠퍼스에 첫 데이터센터를 준공할 예정이다.
1차 책임이 있는 SK C&C의 부실한 데이터센터 관리 역시 도마위에 오르고 있다. 2014년 삼성SDS 과천 데이터센터에 화재사고가 발생한 뒤 장시간 카드 결제 문제 등을 일으킨 데이터센터의 시설 안전 관리 문제가 이슈로 대두돼왔지만 달라진 점은 크게 없다. 특히 업계에선 서버임대 공간이 아닌 전기실에 불이 났다고 서버실 전체 전원을 셧다운 하는 게 있을 수 있는 일인지 의아해하고 있다. 서버 전원이 차단될 경우 데이터 서버가 운용하는 대외 서비스가 전면 중단되기 때문이다. 데이터센터에 비상전원 장치와 이삼중 방호벽을 설치하는 이유도 이 때문이다. 화재 관리도 안됐을 뿐더러 화재로 인한 비상 메뉴얼 , 백업체계 등도 문제가 있었다는 지적이다.
댓글 0