일상의 활동이 온라인으로 전환되는 등 IT기술은 고도화되고 있지만, 기업이 IT시스템을 관리하는 방식은 상당히 뒤처져 있다. 대표적으로, 많은 기업이 IT시스템 문제 신고를 받고 대응을 하는데 이는 고객 확대를 막는 운영 방식이다. 보안 문제로 네트워크 장비 비밀번호를 바꾸는 것도 골치 아픈 문제다. 일부 기업의 IT운영팀은 수 천대에 달하는 장비의 비밀번호 변경 작업에 10일 이상 매달리는 걸 분기마다 겪고 있다.
IT시스템의 관리는 고객 만족도와 직결되는 핵심 요인이 됐다, 출처=셔터스톡
“최소한 자신이 사용하는 숟가락과 젓가락이 몇 개인지는 알아야 하지 않을까요?” IT업계 관계자들이 공통적으로 하는 말이다. 많은 기업이 자사의 IT시스템이 어떻게 구성되는지도 모르는 게 현실이다. 수천 대에 달하는 장비를 소수의 인력이 관리하니 문제가 보고돼야 해결에 나서는 것도 부지기수다.
IT서비스는 언제 오류가 뜰지 몰라 불안한 상태이며, 문제가 보고돼야 사람이 사후 대응하는 방식이어야만 할까? 아니다. IT장비를 자동으로 관리하는 효율적인 IT운영관리 솔루션들은 이미 존재한다. 최근엔 RPA(로봇프로세스자동화)를 통해 IT장비 설정 변경을 자동화하고 인공지능으로 장비의 오류를 예측하는 기술도 나오고 있다.
A기업의 IT시스템 관리팀은 24시간 3교대로 일한다. 8시간씩 3팀이 나눠서 하므로, 새벽 시간 담당팀도 있다. 이들이 새벽 시간대에 시스템 오류가 발생하면 현장에서 바로 대응한다. 현장에서 문제 해결을 하지 못하면 다른 IT시스템 관리팀에게 비상 알람이 가게 된다. 그렇게 모인 IT시스템 관리팀은 어떤 IT장비에 무슨 문제가 생겼는지를 파악해야 한다. B기업의 사례도 만만치 않다. 이 기업이 사용하는 IT장비는 300대 이상이다. IT시스템에 문제가 발생했을 때 우선 어떤 장비에 문제가 생겼는지를 확인하는 것부터 시간이 걸린다.
오프라인 서비스가 온라인으로 넘어가는 게 기업의 생존 전략이 되면서 IT시스템 관리가 고객만족의 핵심이 됐다. 들어갈 때마다 다운돼 있는 홈페이지가 있다고 해보자. 서비스가 아무리 좋아도 소비자는 이를 이용할까? 기업이 제공하는 서비스가 상향평준화 되면서 고객과의 모든 접점을 쾌적한 환경으로 조성하는 게 중요해졌다. 고객 만족도를 조금이라도 하락시키는 문제가 있다면 이는 가볍게 넘길 사안이 아니다. IT운영팀이 서비스에 오류가 없도록 IT장비를 관리하는 것은 기업의 우선순위 중 하나가 됐다.
IT장비 관리의 기본은 CPU, 메모리, 디스크, 네트워크다. 각각의 항목에서 사용하는 리소스가 적정선을 초과하지 않도록 실시간으로 모니터링해야 한다. 문제가 발생했을 때 IT운영 관리자는 네 가지 항목의 데이터를 확인하고, 리소스를 비정상적으로 많이 차지하는 프로그램을 찾는다. 그리고, 원인을 파악하고서 프로그램 설정값을 조정해 IT장비를 정상 상태로 돌려놔야 한다.
IT장비에 과부하가 걸리는 대표적인 사례엔 트래픽 과부하가 있다. 아마존의 블랙프라이데이 등의 대규모 할인 행사가 예정돼 있다면, 기업은 트래픽이 증가할 것을 예측하고 서버 용량을 미리 증설시킨다. 트래픽이 예상치를 넘어갈 때 실시간으로 용량을 늘리면서 빠르게 늘어난 트래픽에 대응하는 것도 중요하다.
다른 사례는 프로그램 동작 과정에서 오류가 발생하는 것이다. 프로그램의 프로세스가 정상적으로 끝나지 않으면 그 뒤에 대기한 프로세스가 계속 밀리는 병목현상이 발생할 수 있다. 병목현상이란 특정 프로그램의 이상으로 전체 시스템이 영향을 받는 것을 말한다. 첫 번째 프로세스가 동작할 때 오류가 발생해 그 동작을 반복한다면 CPU 리소스를 계속 차지한 상태가 된다. 그 뒤에 등장한 프로세스들이 차례로 밀리면서 CPU 리소스의 여유자원이 부족해지고 PC 성능이 제한된다. 개인 PC에서 병목현상이 발생하면 PC를 재부팅하는 경우가 많지만, 기업의 웹과 앱을 지탱하는 IT장비에 이러한 해결책을 쓸 수는 없다.
출처=셔터스톡
진짜 문제는 웹이나 앱에 오류가 발생했음을 알게 됐을 때 시작된다. 수십 혹은 수백 대에 달하는 IT장비를 하나씩 고립시키고 원인을 파악하며 관련 리포트를 작성해야 하기 때문이다. 문제가 해결됐어도 다른 장비를 하나씩 검사하면서 동일한 오류가 발생하진 않았는지 점검하는 과정도 필요하다.
현실적으로 모든 IT장비에 문제가 있는지 실시간으로 점검하는 건 쉽지 않은 일이다. IT서비스 개발에 핵심 인력 대부분을 배분하는 기업이 IT운영 관리 영역에 필요한 인원을 제대로 할당하는 경우는 많지 않다. 장비의 헬스체크를 위한 SMS, NMS 등의 솔루션도 있지만 문제는 비용이다. IT장비 천 대 기준으로 라이선스 비용이 수십억 원이 들어간다. IT장비가 20대 정도 있는 중소기업이라면 라이선스 비용 때문에 사람이 장비의 관리를 맡게 된다. 사람이 5초마다 장비를 점검하는 건 불가능하다. 문제가 터진 걸 누군가가 발견한 뒤 이를 해결하는 게 일반적이다.
현재 상황을 타개할 방법은 RPA 자동화와 인공지능을 통한 기술 고도화다. RPA를 통해서 장비의 CPU나 메모리 사용량을 실시간으로 점검하는 걸 자동화할 수 있다. 자원에 여유가 없거나, 평소보다 사용량이 비정상적으로 떨어지면 RPA가 담당인력에게 알림을 보내 즉시 대응할 수 있게 될 것이다.
기존의 고성능 컴퓨터를 기반으로 인공지능을 학습하는 방식은 개발에 너무 큰 비용이 들어간다. 이 때문에, 필자가 몸담고 있는 회사의 경우 엣지 단에서 인공지능을 활용해 장비 맞춤형으로 학습하는 방식을 택했다. 개별 장비에서 데이터를 학습한 뒤 결과물인 알고리즘만 가져가는 방식이다. 데이터는 해당 장비에서 삭제하고 중앙 서버에 보관한다. 장비에 고성능의 CPU가 필요하지 않아 경제적이다.
국내에서 IT운영관리 분야는 사람이 하는 일로 취급돼 왔다. 다만, IT시스템은 점점 복잡해지고 있고, 고객 불편함을 최소화하기 위해 빠른 문제 해결이 요구되는 상황이다. 개발자 품귀를 해결하기 위해서 자동화 소프트웨어를 도입하지만 비용이 비싸다는 문제가 발생한다. 그럼에도, 시장엔 RPA, 인공지능, 클라우드를 활용해 효율적이며, 적정한 가격대의 솔루션을 개발하는 기업들이 있다. 이러한 솔루션을 사용하는 기업들은 명확한 경쟁력을 가질 것이다. IT운영 솔루션은 발생한 문제를 감지하는 것이 아니라 예측하는 단계로 왔기 때문이다.
글 / 인포플라 최인묵 대표
(주)인포플라는 인공지능과 소프트웨어 로보틱스를 IT서비스의 운영관리에 적용하여, 그간의 장애탐지 위주의 IT운영에서 벗어나 장애를 예측하고 사전에 조치하는 미래의 장애예방 시대를 앞당기고 있는 전문 기술기업이다. 최인묵 대표는 대학원에서 인공지능을 전공했으며, 활발한 창업을 통해 응용레벨 인터넷 멀티캐스트 프로토콜, 콘텐츠 아카이브 플랫폼, 인공지능 IT운영관리 플랫폼 등을 개발해오며 국내외 IT현장에서 활동해오고 있다.
정리 / 동아닷컴 IT전문 정연호 기자 (hoho@itdonga.com)