뉴스 트렌드 생활정보 International edition 매체

‘설마가 화 키웠다’ 카카오 첫 자체 데이터센터에 4600억 투입

입력 | 2022-10-19 18:08:00


“카카오도 이중화 백업 데이터센터가 있다. 개발자들의 작업 도구(개발 도구)가 이중화되지 않아서 복구가 오래 걸렸던 것이다.”

카카오 홍은택 각자 대표는 19일 오전 경기 성남시 판교 카카오 신사옥에서 기자회견에서 SK C&C 판교 데이터센터 화재에 따른 서비스 피해 복구 지연 원인에 대해 이같이 밝혔다.

홍 대표 말대로 서비스의 주요 데이터와 서비스 응용프로그램에 대한 이중화 조치는 돼 있었기 때문에 고객들의 데이터는 유실되지 않았다.

다만, 개발자들이 서비스를 복구할 수 있는 주요 작업 도구가 판교 데이터센터에만 있었고, 다른 복수 데이터센터에는 없었다. 결국 판교 센터에서 불이나 모든 전력이 끊기면서 개발자들이 센터 내 작업 도구 서버에 접근할 수 없었고, 원격으로 작업을 하느라 시간이 오래 걸렸다.

쉽게 말해, 두 채의 집에 한 사람씩 각자 살고 있다가 한 집에 불이나면 멀쩡한 집으로 대피해야 하는데, 엘리베이터가 고장나서 계단으로 걸어 내려오느라 시간이 오래 걸렸다는 거다.

홍 대표는 “카카오의 서버는 4군데 데이터센터에 분포가 돼 있다. 판교 데이터센터는 우리가 운영하는 메인 데이터 센터라서 복구 진행이 느렸다”며 “데이터는 이중화가 돼 있다. 데이터가 판교에만 있는 것은 아니다. 작업 도구가 이중화가 안됐던 것이다. 작업 도구 이중화는 2개월안에 추가비용 집행 없이도 할 수 있다”고 설명했다.

문제는 카카오가 데이터센터의 셧다운 사태를 상정하지 않고 이중화 조치를 해뒀다는 점이다. 특히 데이터센터 셧다운에 대비한 훈련도 없었다는 점이 사태를 키운 또 다른 원인으로 지목된다.

홍 대표는 “데이터센터는 국가안전시설이라고 할 만큼 중요시설로 운영되고 있고 한 번도 데이터센터 자체가 셧다운 된 경우가 없었다. 데이터센터 전체가 셧다운 되는 것을 상정하지 않고 대응을 했던 것 같고 그 점에서 판단의 오류가 있었던 것 같다. 이번 사건의 큰 교훈”이라며 “데이터센터는 철저히 관리되는 시설이다. 여러 불운이 겹쳤는지 모르겠지만, 이번에는 데이터센터 전체가 셧다운 되는 경우였다”고 설명했다.

이어 그는 “화재 현장을 가봤는데 지하 3층 리튬 배터리에서 화재가 났다. 거기에 UPS가 있으려면 리튬 배터리가 필요한 상황인데, 그 배터리와 UPS가 같은 공간에 있었고 카카오 서비스와 연결된 전송 케이블이 탔다. 화재가 나자마자 전원이 내려가면서 상당한 수의 서버가 작동이 안됐다”며 “앞으로는 데이터센터 한 곳이 셧다운되거나 심하게는 데이터센터 여러 곳이 셧다운 되어도 서비스가 빨리 복구돼 불편함 없이 쓸 수 있는 방법을 찾고 위해 노력하겠다”고 말했다.

또 “연말에 가장 트래픽이 폭증하기 때문에 제야의 종소리란 이름으로 모의 훈련도 수시로 하고 있다. 다만 이번처럼 데이터센터 셧다운을 대비한 훈련은 없었던 것 같다”고 전했다.

카카오의 서버는 4군데 데이터센터에 분포가 돼 있다. 판교 데이터센터는 우리가 운영하는 메인 데이터 센터라서 복구 진행이 느렸다고 봐주시면 된다. 안산에 12만대 서버를 넣은 센터를 짓고 있고 24년 1월이면 열릴 것이며 시흥 데이터센터도 비슷한 규모로 지어서 빠르게 대비를 하겠다.

◆내년 완공 첫 데이터센터에 4600억 투입…‘12만대 서버’ 화재에도 즉각 대응

카카오는 자체 데이터센터를 비롯한 인프라 투자를 크게 확대하고, 이번과 같이 데이터센터 한 곳이 완전히 멈추더라도 원활하게 서비스를 제공할 수 있는 수준의 인프라를 구축할 방침이다. 첫 자체 데이터센터는 2023년 9월 완공 후 2024년 1월 개소할 계획이다. 추진 중인 제2 데이터센터는 2024년 1월 준공 예정이다.

홍 대표는 “한양대 에리카 안산캠퍼스에 12만대 서버를 넣은 지하 1층~지상 6층 규모의 제 1데이터센터 건립해 내년 중 완공할 예정이다. 4600억원을 투입한다. 제 2데이터센터도 비슷한 규모로 시흥에 지으려 한다”며 “자체 데이터센터는 이번 사고를 교훈 삼아 방화, 내진과 같은 방재시설을 더 안전하게 구축할 예정”이라고 설명했다.

그는 판교 데이터센터 화재에 대해 “리튬배터리는 원래 화재에 취약하다고 알려져 있다. 아직 화재 감식반 결과가 나오지 않아 정확히 말씀드리기 어렵다”며 “화재가 난 시점에 저희 전산실에 공급되는 전력이 끊기며 서버의 상당수가 차단이 됐다. 불이 확산됨을 막기 위해 물을 뿌렸다는 결정을 소방서에서 했다는데 통제권이 소방서에 있기 때문 그 결정은 맞다고 생각한다”고 전했다.

또 “이번 같은 사고를 예방할 수 있도록 UPS전원을 한공간에 두지 않고 격벽으로 할 것이다. 판넬에서 화재가 나도 즉각 대응할 수 있도록 하고 예비 시스템을 갖출 예정”이라며 “제 1데이터 센터와 제 2데이터센터가 전용구로 연결이 돼 쉽게 백업이 될 수 있도록 준비하려고 한다. 데이터센터를 자립하는 게 가장 중요하다고 생각해서 준비를 하고 있다. 이외 투자 추가 편성도 있을 것이다. 인프라 인력, 예산 확충해 노력할 예정”이라고 전했다.

특히 윤석열 대통령이 주문한 ‘트윈 디지털센터’에 걸맞는 수준의 데이터센터 안전을 담보할 방침이다. 24시간 무중단 서비스를 유지하는 금융권 수준의 재해복구(DR) 시스템을 고려하고 있다. 금융기관은 전자금융감독 규정에 따라서 비상시에 실시간으로 대처할 수 있는 수준의 DR ‘미러사이트’를 구축하고 있다. 카카오뱅크 역시 이 기준에 따라 운영되고 있다.

홍 대표는 “금융권은 법에 의해 이중화에 의무가 엄격하게 돼 있다. 비금융권에서 금융권 같은 DR 시스템을 구축할 것이냐는 신중한 생각을 해봐야 한다”며 “참고로 이용자의 데이터는 이중, 삼중으로 이중화가 된 영역이 있어 데이터 유실 없이 안전하다. 현재까지 데이터 유실에 대한 신고는 없었다”고 말했다.

[서울=뉴시스]