일상을 무너뜨린 ‘카카오 먹통 사태’의 원인이 무엇일지 관심이 뜨거운 가운데 철저한 재발 방지책을 세워야 한다는 목소리가 높다. 모든 국민이 한 회사의 플랫폼에 종속될 경우, 국가 재난 사태가 발생할 수 있음을 경험했기 때문이다. 카카오 먹통 사태의 재발 방지를 위해 필요한 사항과 추정되는 화재 원인을 데이터센터 구성과 함께 살펴봤다.
SK C&C 판교 데이터센터 지하 3층 전기실 내 비상 축전지가 불에 탄 모습(왼쪽), 합동감식반이 1차 현장 감식을 위해 건물로 향하는 모습. 출처=윤영찬 더불어민주당 의원 페이스북·사진공동취재단
데이터센터가 뭐길래
카카오 먹통 사태는 지난 15일, SK C&C 판교 데이터센터 지하 3층 전기실 화재에서 시작됐다. 그렇다면 ‘데이터센터가 무엇인지’, ‘현장에 화재를 막을 장치들은 없었는지’ 의문이 남는다.
출처=엔바토엘리먼츠
데이터센터는 기업 정보 또는 기업의 고객 정보 등 각종 데이터를 모아 놓은 시설이다. 인터넷과 연결된 데이터를 저장하려 수만 대의 서버를 24시간 가동해야 하므로, 전기 먹는 하마로 불린다. 데이터센터 기업은 대형 빌딩에 중앙 네트워크를 설치한 뒤 입주기업의 인터넷 서버를 대신 관리하며 수익을 창출한다. SK C&C는 이번 화재가 발생한 데이터센터의 운영사이고, 카카오는 해당 데이터센서의 입주사다.
데이터센터 장비 구성. 출처=한국전자통신연구원
데이터센터는 데이터 저장을 위한 서버와 스토리지, 데이터 전송을 위한 네트워크, 해당 장비들을 유지하기 위한 발전기와 항온·항습기, 무정전 전원장치(UPS Uninterruptible Power Supply, 전자 기기의 전원이 끊겼을 때 일시적으로 전원을 유지해주는 장치. 정전 등에 대비해 전력을 일정 시간 계속해서 공급하는 역할.) 등으로 구성된다. 온도나 습도에 민감한 전자기기 특성상 약 22℃~24℃ 사이 적정 온도 유지를 위해 항온·항습기를 구성에 포함한다.
화재를 막을 수 없었나
데이터센터는 찰나라도 전기가 끊어지면 안 되는 특성이 있어, 화재나 정전 등에 대비한 예비 전력(발전기, UPS)을 필수로 포함한다.
이번 데이터센터 화재가 UPS용 리튬이온배터리에서 시작됐을 가능성이 제기된다. 다만, 배터리관리 시스템(BMS)이나 전선 단락 등도 원인으로 지목되고 있어, 합동감식반의 조사 결과에 관심이 쏠리는 상황이다. SK C&C 측은 “데이터센터 전체 전력을 차단하면서 UPS 또한 작동을 멈췄다”고 밝혔다.
그렇다면 전체 전원을 꼭 차단해야만 했을까. 데이터센터에는 소화 시스템이 갖춰져 있다. 화재가 발생하면, 스프링클러에서 물이 아닌 하론 가스(Halon Gas, 산소를 차단해 불을 끄는 방식.)가 자동으로 살포된다. 수많은 전기 장치를 보호하기 위함인데, 문제는 이 가스를 다 소진해도 불이 꺼지지 않을 경우다. 이번 화재가 이에 해당한다.
소방당국은 판교 데이터센터 스프링클러에 담긴 하론 가스가 모두 소진되자, 물을 쓰기 위해 전체 전원 차단을 요청했다. 전기로 가득한 공간에 물이 흐르면 누전 위험이 있기 때문이다.
혹자는 불이 난 층의 전원만 차단할 수는 없었는지 의문을 제기하지만, 전력망이 촘촘하게 연결돼 있어 불가능하다. 데이터센터 운영사인 SK C&C 측이 화재 초기 관제와 빠른 조치를 취했는지, 그간 화재 초기 진압을 위한 소방 훈련에 충실했는지 의혹이 제기되고 있어 추가 검증이 필요한 상황이다.
먹통 사태 막을 이중화 조치 충분했나
일례로 마이크로소프트(MS)는 스코틀랜드 오크니섬 인근 바다에 데이터센터를 구축하는 ‘나틱 프로젝트’를 2015년부터 추진 중이다. 화재로부터 안전한 바닷속에 데이터센터를 구축해 먹통 사태를 막기 위한 조치에 일찌감치 나선 것이다.
컨테이너 형태의 데이터센터를 구축해 해저에 나틱 프로젝트를 진행하는 MS. 출처=MS
MS는 2020년 나틱 프로젝트 2단계 실험 결과를 발표했다. 실험은 총 864대의 서버와 27.6PB(페타바이트) 용량의 스토리지, 냉각 시스템 등을 장착한 약 12미터 길이의 데이터센터 ‘나틱 노던아일(Natick Northern Isles)’을 활용해 진행됐다. 스코틀랜드 오크니섬(Orkney Island) 해저 약 117피트(약 36.5 미터) 지점에 조력, 파력 발전기와 함께 데이터센터를 배치하는 방식이다. 그 결과 MS는 해저 데이터센터가 지상보다 더 안정적이라는 사실을 확인했다고 밝혔다. 고장률이 지상과 비교해 8분의 1 수준이었다고 덧붙였다.
온라인 동영상 서비스(OTT) 기업 넷플릭스는 글로벌 12개 지역에 서버를 분산하고, 해당 인프라가 멈췄을 경우를 가정해 훈련을 주기적으로 진행한다. 이른바 카오스 고릴라 훈련이다.
카카오가 이들 기업처럼 이원화 조치를 충실히 이행했을까. 카카오는 먹통 사태 당시 “이중화 조치를 했지만 데이터의 양과 복잡도, 복구 장비의 특수성 등으로 인해 핵심 서비스의 복구가 지연되고 있다”고 해명했다. 하지만 업계 전문가들의 생각은 달랐다. 김승주 고려대 정보보호대학원 교수는 “이중화 조치를 했다 안했다로 따지기보다는, 어느 정도로 했느냐로 접근해야 할 문제”라며 “이렇게까지 복구가 지연되는 것을 보면, 이중화 조치가 최고 수준은 아니었던 것 같다”고 말했다.
또 다른 업계 관계자는 “카카오가 데이터와 서버를 이중화했지만, 자체 툴 서버가 대부분 판교에 있었던 것으로 알려졌다”며 “이 때문에 전체 서버나 네트워크 장비들의 구성 정보 등에 접근할 수 없는 상태였고, 개발자가 출근해서 복구할 수밖에 없는 상황이었을 것”이라고 추측했다.
남궁훈(왼쪽)·홍은택 카카오 각자대표가 19일 경기 성남시 카카오판교아지트에서 대국민 사과를 하는 모습. 남궁훈 각자대표는 사퇴 의사를 밝혔다. 출처=사진공동취재단
홍 대표는 "주요 데이터와 서비스 응용프로그램 이중화 조치는 했으나 개발자들의 주요 운영 도구를 이중화하지 못해 복구가 지연됐다"며 "해당 조치는 판교 데이터센터가 정상화된 후 시작할 계획이다. 2개월 안에 유사 사고를 방지할 환경을 마련하겠다"고 말했다.
카카오는 경기 안산시에 내년 7월, 자체 데이터센터를 준공할 예정이지만, 그간 수차례 서비스 장애를 일으킨 탓에 이용자들은 여전히 우려를 제기한다.
정부는 방송통신발전 기본법을 개정해 카카오, 네이버 등 주요 온라인 서비스와 이들 업체의 데이터센터를 국가 재난관리 체계에 포함해 직접 관리하겠다는 계획을 밝혔다.
동아닷컴 IT전문 김동진 기자(kdj@itdonga.com)