‘탐색적 데이터 분석법’ 활용
다양한 각도에서 관찰-질문
통계-시각화로 답 찾아가면
새로운 가치 발견할 수 있어
내가 어디에 갔는지, 얼마나 걸었는지, 편의점에서 무엇을 샀는지, 누구와 대화했는지, 인터넷으로 무엇을 검색했는지 등 거의 모든 것이 매일 시시각각 디지털 데이터로 기록되고 있습니다. 넘쳐나는 데이터로 ‘데이터 홍수’라는 표현을 사용하기도 하는데요. 이러한 무수히 많은 데이터에는 수많은 질문에 대한 답이 숨어 있습니다.
● 탐색적 데이터 분석의 등장
세계적인 온라인 쇼핑몰 미국 아마존은 “20, 30대의 남성이고, 영화를 즐겨 보며, 월 소득이 300만 원 이상으로, 임대주택에 사는 고객”이 어떤 상품을 좋아할지 정확히 예측할 수 있다고 하는데요. 그 답은 데이터에서 찾은 것입니다. 그렇기 때문에 ‘세계에서 가장 가치 있는 자원’은 더 이상 석유가 아니라 데이터라고 하는 것이겠지요.
그렇다면 데이터에서 눈에 보이지도 않는 답, 가치를 어떻게 하면 찾을 수 있을까요? 먼저 데이터를 이해해야 합니다. 데이터 자체를요. 데이터에 대한 이해를 높이는 것을 목표로 하는 방법으로 탐색적 데이터 분석(EDA·Exploratory Data Analysis)이 있습니다. 탐색적 데이터 분석은 전통적인 데이터 분석 방법이 데이터의 새롭고 예상치 못한 특징을 발견하기 어려운 한계를 보완하고자, 미국의 컴퓨터 과학자인 존 튜키(1915∼2000)가 제안한 방법입니다. 주로 빅데이터 분석에서 데이터에 숨겨진 새롭고 예상치 못한 의미를 발견해 인사이트(insight)를 도출하는 데 사용합니다.
대량의 데이터를 탐색적으로 분석하는 것은 기존의 전통적 분석 방법과 달라서 많은 사람이 낯설고 어려워하는데요. 탐색적 데이터 분석의 궁극적 목표는 데이터를 이해하는 것이라는 걸 기억해보세요. 학기 초 처음 만난 친구에게 좋아하는 가수나 음식을 물어보고, 친구나 가족을 더 잘 알고, 이해하기 위해 100문 100답과 같은 재미있는 질문을 이용하기도 하죠? 마찬가지입니다. 데이터를 이해하는 가장 좋은 방법은 많은 질문을 사용하는 것입니다.
데이터를 탐색하는 질문을, 마치 탐정처럼 사용해 데이터의 분포나 패턴, 관계 그리고 비정상적이고 이상한 점이 있는지 등을 알아보는 것입니다.
● 질문을 반복해 데이터를 이해하다
탐색적 데이터 분석에서 데이터를 탐색하는 데 어떤 질문을 해야 하는지에 대해 정해진 것은 없습니다. 다만, 데이터에 무엇을 물어봐야 할지 어려워할 여러분을 도와줄 몇 가지 질문이 있는데요.
예를 들어, 위 그래픽에 있는 배달 관련 데이터(표1)를 이해하는 데 다음과 같은 질문을 사용할 수 있습니다.
① 매달 치킨 배달 주문 금액의 평균은? ② 점심 시간에 주문 건이 많은 음식은? 질문 ①, ②는 데이터의 기본적인 통계량을 살펴보기 위한 것입니다.
③ 1년 동안 시간이 지남에 따라 주문량은 어떻게 변하는가? ④ 하루 동안 배달 주문 금액이 어떻게 변하는가? 질문 ③, ④는 데이터가 시간에 따라 변화하는지 알아보기 위한 것입니다.
⑤ 기온 변화에 따라 배달 주문량이 변하는가? ⑥ 지역에 따라 배달 주문 종류에 차이가 있는가? 질문 ⑤, ⑥은 데이터 간 관계가 있는지, 일부 데이터가 다른 데이터에 영향을 주는지 알아보기 위한 것입니다.
이러한 질문들에 대한 답은 주로 요약 통계와 시각화를 사용해 찾을 수 있습니다. 정리하면, 탐색적 데이터 분석은 다음 과정을 반복하는 과정에서 인사이트를 만들어내는 일입니다. ― 데이터에 대한 질문을 만든다. ― 데이터를 요약(통계)하거나 시각화해 질문의 답을 찾는다.
● 중요한 것은 ‘질문하는 능력’
데이터를 다양한 각도에서 관찰하고 시각적으로 나타내 보고, 시각화 결과를 해석하는 과정에서 데이터에 물어야 할 새로운 질문들이 떠올라 이 두 과정이 반복적이고 순환적으로 일어나게 됩니다.
인사이트는 안을(in)+주의 깊게 보다(sight)라는 의미가 합쳐진 단어입니다. 즉 우리말로 ‘통찰력’이라고 하는 인사이트는 ‘안을 주의 깊게 보는 것’이라고도 할 수 있겠네요. 데이터에서 인사이트를 얻기 위해서는 데이터를 주의 깊게 보고, 데이터를 이해하는, 그러기 위해 많은 질문을 사용해 봐야 하는 것입니다.
데이터 분석 분야의 한 전문가는 이렇게 말했습니다. 제가 이번 지면에서 강조하고 싶은 내용이라 인용해 봤습니다. “보통 데이터 분석이라고 하면 질문에 대한 답을 찾는 것이라고 생각하는데, 사실 답은 어떻게든 찾을 수 있어요. 그런데 반대로 질문 자체를 잘하는 것은 어려워요. 항상 앞 단에서 데이터를 보고, 여러 가지를 상상하고, 무엇을 해야 하는지에 대해 좋은 질문을 던질 수 있는 역량이 앞으로는 더 많이 필요할 것 같습니다.”
댓글 0