일상 생활-산업 전반에 얽힌 데이터 과학 친근하게 풀어내 ◇데이터과학자의 사고법/김용대 지음/396쪽·1만6000원·김영사
설문조사나 여론조사 결과를 해설하는 상황을 상상해 보자. 내용을 보니 5000명 정도는 조사해야 믿을 만한 결과가 나올 것 같다. 그런데 이번 설문조사는 300명밖에 조사하지 않고 결과를 냈다. 이런 상황을 두고 혹자는 “모수가 너무 작아서 믿을 수 없다” 혹은 “모집단이 너무 작아서 믿을 수 없다”고 말한다.
그러나 이런 문제는 사실 ‘모수’와는 별 상관이 없다. 모수는 상당히 난해한 용어로 통계학자들이 ‘모집단의 특성을 나타내는 수치’라는 뜻으로 쓰는 말이다. 다른 수학 분야에서는 흔히 매개변수라고 하는 ‘parameter’를 번역한 말이다. 아마도 어감이 어쩐지 ‘분모에 들어가는 수’와 비슷한 느낌이 들어 모수라는 단어를 쓰게 되는 것 아닐까 싶다. 그러나 이런 어려운 말을 굳이 잘못 사용하면서 틀릴 이유가 없다. 그냥 쉽게 “설문조사한 숫자가 너무 적다” 또는 통계학 용어를 써 “표본의 수가 적다”고 말하면 된다. ‘모집단’이라는 말 역시 관찰의 대상이 되는 집단 전체를 뜻하는 것이어서 앞서와 같은 뜻으로 쓰면 옳지 않다. 최근에도 모수, 모집단이란 단어를 이렇게 엉뚱하게 사용하는 사례를 찾기가 어렵지 않다. 통계 자료를 활용해서 일해야 하는 사람이나 설문조사 내용을 파악하는 것이 중요한 직업을 가진 사람들조차 이런 어이없는 실수를 하는 경우가 흔하다. 이런 실수는 통계학이 대단히 중요하게 자주 활용되는 세상에서 우리가 얼마나 그 세부 내용에 대해 별 관심이 없는지를 보여주는 증거처럼 느껴지기도 한다.
서울대 통계학과의 김용대 교수가 쓴 책 ‘데이터 과학자의 사고법’은 이런 사회에서 누구든 한 번쯤 관심을 가져 볼 만한 책이 아닌가 싶다. 이 책은 요즘 유행하는 데이터 과학이란 분야를 중심에 두고 통계학에서 우리 생활과 밀접하게 연결된 부분부터 빅데이터를 거쳐 인공지능(AI)의 바탕이 되는 데이터 산업의 미래에 대한 지식까지 한데 엮어 설명한다.
잘 몰랐다가 조금만 알게 되면 갑자기 세상 모든 것이 다르게 보일 만한 지식으로 이런 생활 통계학 지식만 한 것이 없다. 혹시 아직까지도 이와 같은 통계학 책에 대한 경험이 전혀 없다면 이 책 외에도 잘 알려진 통계학, 확률에 대한 교양서적을 뭐든 한 권 읽어 보시기를 추천한다. 예를 들어 좀 더 가볍게 현장 업무의 느낌을 알고 싶다면 만화가 곁들여진 ‘데이터 분석가의 숫자유감’(골든래빗) 같은 책도 읽을 만하다.
곽재식 숭실사이버대 환경안전공학과 교수