“7월 19일, 저희 데이터센터 중 하나의 냉각 시스템에 장애가 발생해 여러 서비스에 영향을 미쳤습니다. 높은 온도와 중복 냉각 시스템의 고장이 원인이었습니다. 다음과 같은 조치를 취했고, 향후 재발 방지를 위해 최선을 다하고 있습니다.”
구글이 누구나 볼 수 있도록 공개하는 자체 사고 보고서의 일부다. 사고 원인, 경과, 영향 및 재발방지책을 ‘분 단위’로 기록해 공개한다. 회사의 재해 대비 관련 매뉴얼이나 정책을 철저히 대외비로 부치는 카카오 등 국내 기업과 달리 글로벌 빅테크들은 ‘투명성’에 기반해 사고에 대비하고 있다.
○ ‘분 단위’로 조치 공개하는 빅테크
구글이 2020년 4월 공개한 ‘인프라 복원력 백서’에 따르면 구글 전사 직원들은 재해 시 자사 서비스의 안정적인 운영을 위해 매년 수일간 ‘재해 복구 테스트(DiRT)’를 진행한다. 의도적으로 장애를 유발해 중요한 시스템의 취약점을 찾아내고, 이를 수정하는 훈련이다. 구글은 올해 재난 복구 시스템을 포함한 데이터센터 확충에만 약 95억 달러(약 13조7000억 원)를 투자한 것으로 알려졌다.
마이크로소프트(MS)는 자사 홈페이지에 애저, 마이크로소프트365 등 자사 서비스의 재해 대응 시스템을 공개한다. 재해 시 전원 공급 계획, 물리적인 데이터센터 구분을 통한 재해 시 서비스 제공 등의 내용이 담겼다.
대다수의 글로벌 빅테크는 재해에 대비하고자 데이터를 물리적으로 떨어트려 보관한다. MS는 같은 데이터를 3곳에 복제해 보관한다. 한 곳이 지진, 홍수, 화재 등 재해의 피해를 받을 경우 다른 두 곳에서 실시간으로 그 역할을 대신하는 것이다. MS는 국내에서도 서울과 부산에 ‘쌍둥이’ 데이터센터를 지으며 똑같은 데이터가 두 곳에 자동 복제되도록 설계했다. 구글도 각 사용자의 데이터를 서로 다른 위치에 있는 많은 컴퓨터에 보관한다고 홈페이지에 명시하고 있다. 아마존웹서비스(AWS)도 물리적으로 독립적인 전원, 냉각시설 등을 갖춘 각 영역에 데이터를 분산해 보관한다.
○ ‘재해 복구’ 시스템 구축 못 한 카카오
글로벌 빅테크와 달리 카카오의 경우 재난 대비의 기본도 갖추지 못하고 있다는 평가를 받고 있다. ‘백업’과 ‘이중화’는 했을지 몰라도 제대로 된 ‘재해 복구(DR)’ 구축에는 실패했다는 것이다.
백업의 경우 데이터를 복제해 여러 서버에 두는 것을 뜻한다. 이중화는 하나의 통신망이 끊어지더라도 다른 통신망을 쓰는 것을 의미한다. 이에 비해 DR는 좀 더 높은 수준까지 요구한다. 서버가 정상화되는 시간 등 운영 방침에 따라 4개의 수준으로 구분되는데, 가장 높은 수준인 ‘미러사이트’의 경우 한 데이터센터의 서비스가 중단돼도 ‘중단 없이’ 물리적으로 다른 데이터센터를 통해 동시에 서비스 재개가 가능하다. 일종의 ‘쌍둥이’ 센터를 구축하는 것이다.
카카오는 “이중화 조치가 되어 있었지만 서버를 증설해 트래픽을 전환하는 데 시간이 걸리고 있다”고 해명했다. DR로 따지면 3등급 수준에 머무는 것이다. 재난 관리 투자에는 허점을 드러냈다는 비판이 나오는 이유다. 카카오는 지난해 정보 유출 방지나 재난 대응을 위한 ‘정보보호부문 투자’에 약 140억 원을 투자한 것으로 나타났다. 약 350억 원을 투자한 네이버의 40%가량에 불과하다.
댓글 0