[편집자주] IT 기술이 생활 전반에 뿌리를 깊게 내리면서, 안정적인 IT시스템 관리가 필수 요소로 인식되고 있습니다. 미래 기술이라는 자율주행차와 UAM(도심형 항공 모빌리티), 원격의료, 스마트시티나 스마트팩토리 등도 결국 IT시스템에 의해 돌아갑니다. IT시스템에 문제가 생기면 이용자 안전도 위험해질 수 있습니다. 이에 IT시스템 운영 및 관리와 관련된 업계의 이야기를 전하려 합니다. 본문 내 의견과 내용은 본지의 편집방향과 다를 수 있습니다.
카카오 서비스가 SK C&C 데이터센터 화재로 중단된 후 관심을 받게 된 개념이 DR(재해복구) 시스템이다. DR은 재해로 인해 서비스나 시스템이 중단됐을 때 이를 다시 정상으로 만드는 것을 뜻한다. 카카오의 경우엔 먹통이 된 기존 시스템을 대체할 복구 시스템이 제대로 작동하지 않았다.
디지털 서비스가 사람들의 삶에 미치는 영향이 점점 커지면서 서비스가 문제없이 작동하는 게 중요해지고 있다. 결국, 사람이 컨트롤하기 어려운 위기 앞에서 시스템이 탄력적으로 대응하게 하도록 돕는 ‘재해복구’ 시스템의 필요성도 커지게 됐다.
최근에 널리 퍼지고 있는 멀티 클라우드는 위기상황에 유연하게 대응한다는 평가가 나온다. 한 바구니에만 계란을 너무 많이 담으면, 떨어질 때 모든 계란이 깨질 수 있다. 여러 클라우드 업체를 활용하는 멀티 클라우드의 경우엔 한곳에서 장애가 발생하면 다른 클라우드에 있는 시스템으로 전환할 수 있는 유연성이 있다.
다만, 클라우드 하나를 이용할 때도 관리가 어려운데, 여러 클라우드를 동시에 관리하는 건 첩첩산중이다. 클라우드마다 장단점이 달라, 이를 제대로 활용하려면 각 업체에 맞는 관리 역량을 키워야 한다. 클라우드 시장이 확장하면서 주목을 받은 게 클라우드 관리 서비스 제공자(MSP)다. 클라우드 서비스 제공자(CSP)의 클라우드로 회사 시스템을 옮기고, 이를 대신 관리하는 일을 담당하는 기업들이다. 멀티 클라우드를 관리하는 역량도 갖춘 MSP 기업이 많다. 클라우드 사용이 대세가 되고, 멀티 클라우드를 쓰는 기업이 늘면서 MSP 시장도 빠르게 성장하고 있다.
시장의 주목을 받는 MSP지만 이들에게도 고민거리는 있다. 바로 수익성이다. MSP는 CSP의 클라우드 인프라를 관리하는 것이기에 서비스 마진이 낮다. 또한, 작업이 인력 베이스라서 인건비도 많이 들어간다. 때문에, MSP 기업은 RPA(로봇프로세스자동화) 등을 통해 사람이 하는 일을 자동화해 비용을 줄이는 것에 관심을 보인다.
‘비용을 줄이고, 새로운 매출을 확보하자’, MSP들이 선택한 또 다른 전략이다. MSP들은 이를 위한 전략으로 ‘CSP와 무관한 부가서비스 창출하는 것’을 택했다. 자체적인 매출을 확보할 수 있도록, 클라우드 운영에 도움이 되는 부가서비스를 만드는 것에 심혈을 기울이는 MSP가 많다. 고객 입장에서도 기존에 사용하던 MSP 서비스에 비용만 추가하면 되는 구조라 이용이 간편하다.
이들이 제공할 수 있는 부가 서비스엔 어떤 것들이 있을까? 최근 MSP 업체를 만나면서 들었던 이야기 중 하나가 “온라인 쇼핑몰에서 상품 정보를 TTS(문자를 사람 음성으로 변환하는 기술)로 읽어주는 기능을 원하는데, 이걸 만들기가 쉽지 않다”는 것이었다. 인터넷 쇼핑몰의 상품 설명은 대부분 이미지로 돼 있다. 시각장애인들은 상품 정보를 읽지 못하는 방식이다. 쇼핑몰 입장에서도 협력 업체에 사진을 대체할 텍스트를 제공하라고 요구하는 게 자칫하면 ‘갑질’로 여겨질 수 있어서, 이를 자체 도입하는 걸 검토하고 있지만 문제는 기술과 비용이다. MSP 업체에서도 이러한 솔루션을 만드는 기술력이 아직 확보되지 않았다고 한다.
필자가 몸담고 있는 회사는 RPA를 통해서 이러한 솔루션을 개발하고 있다. RPA가 상품 정보들을 확인한 뒤, AI가 첨가된 OCR(이미지 속 글자를 읽어내는 기술)로 텍스트를 읽어내면 되는 일이다. 이 정보를 시각장애인이 사용하는 화면 낭독기에 전송하면 음성으로 변환할 수 있다.
이외에도, 기업들이 관심을 보이는 기능이 서비스 장애 모니터링이다. 웹이나 앱 서비스가 정상적으로 작동하는지 확인하려면 사람이 실시간으로 직접 점검하는 게 가장 좋다. 다만, 그건 현실적으로 불가능하다. 대부분의 기업은 장비의 CPU나 메모리 부하를 확인하는 툴이나 아파치 등의 엔진을 점검하는 APM(앱 퍼포먼스 모니터링) 툴을 쓰지만, 이 툴에선 정상으로 분석돼도 실제로는 서비스엔 장애가 발생했을 수도 있다.
역시 답은 사람이 수시로 장애를 점검하는 것일 수밖에 없을까? 아니다. RPA를 통해서 웹 서비스를 모니터링하고, 결과를 분석하는 과정을 자동화할 수 있다. 그 과정은 이렇다. 일차적으로 RPA가 웹 서비스를 모니터링한 뒤, 점검이 필요한 페이지에서 작업을 한 게 맞는지 머신비전(이미지를 기계 시스템이 시각적으로 분석하는 기술) 등의 AI 기술로 확인한다.
결괏값을 분석할 땐 ‘로그인 과정이 늦진 않았는지’, ‘메일을 보냈는데 전송 시간이 오래 걸리진 않았는지’ 등을 판단한다. IT시스템을 운영할 땐 어디까지 ‘장애’로 볼지 판단상의 어려움이 발생하는데, 결과를 보고서 장애 유무를 판단할 노하우를 RPA가 학습하도록 해야 한다.
해외 서비스도 제공하는 기업들이 해외 고객의 서비스 경험을 점검할 때도 모니터링 솔루션을 적용할 수 있다. 해외 서버에 RPA를 붙인 뒤, RPA가 서비스를 직접 체험하고 결과를 분석하도록 하면 된다. 웹 서비스 모니터링 솔루션을 사용한 고객사들은 업무량이 크게 줄었다고 만족스럽다는 반응이다.
필자는 MSP들이 부가서비스를 만들 때 AI를 적극적으로 활용한 RPA가 큰 쓰임새가 있을 것이라고 생각한다. 만약, RPA가 장비에 발생할 장애를 미리 예측한다면 어떨까?
쾌적한 고객 서비스가 화두가 된 시점에서 이는 중요한 문제가 아닐 수 없다. AI가 장비 CPU와 메모리 사용량을 학습한 뒤, 미래에 비정상적인 사용량을 예측하는 건 지금도 가능한 기술이다. 해당 기술을 사용한 고객사들의 반응을 보면, 이들은 문제 발생 전 조치를 취할 수 있어 서비스가 중단될 일이 없다는 것에 만족스러워했다. 점점 치열해지는 경쟁 속에서 새롭게 등장할 MSP의 부가서비스는 무궁무진하다. 앞으로 MSP의 경쟁력은 고객의 페인포인트를 정확하게 짚어내고, 간편하게 해결하는 솔루션이 될 것이라고 기대한다.
인포플라 최인묵 대표
(주)인포플라는 인공지능과 소프트웨어 로보틱스를 IT서비스의 운영관리에 적용하여, 그간의 장애탐지 위주의 IT운영에서 벗어나 장애를 예측하고 사전에 조치하는 미래의 장애예방 시대를 앞당기고 있는 전문 기술기업이다. 최인묵 대표는 대학원에서 인공지능을 전공했으며, 활발한 창업을 통해 응용레벨 인터넷 멀티캐스트 프로토콜, 콘텐츠 아카이브 플랫폼, 인공지능 IT운영관리 플랫폼 등을 개발해오며 국내외 IT현장에서 활동해오고 있다.
댓글 0