넷플릭스 등 글로벌 빅테크는 수년 전부터 대규모 정전 등으로 서버 전체가 마비되는 극단적인 상황을 가정해 훈련하고 있다. 데이터센터 화재에 대해 ‘불이 나는 상황을 예상하지 못했다’는 국내 기업들의 해명과는 대조적이다.
의도적으로 통신 장애를 가정해 대응 상황을 훈련토록 한 ‘카오스 엔지니어링’이 대표적인 사례다. 모든 정보기술(IT) 서비스를 아마존 웹서비스(AWS)로 이관해 사용 중인 넷플릭스는 의도적으로 AWS의 인프라를 무작위로 마비시키는 ‘카오스 몽키’를 고안했다. 특정 시점에 경고 없이 인프라를 마비시켜 약점을 노출시키고, 엔지니어가 더 나은 복구 메커니즘을 구축하는 것이 목표다.
이에 더 나아가 전체 클라우드 서버를 종료하는 ‘카오스 콩’을 통해 인프라 장애의 극단적 사례에 대응하기도 했다. 넷플릭스는 2015년 9월 아마존의 서버 문제로 짧은 장애를 경험했지만 카오스 콩 등 지역의 정전을 시뮬레이션하는 정기적 실험을 통해 시스템의 약점을 조기에 식별하고 수정할 수 있었다고 밝혔다.
댓글 0