[논제] 아래에 제시된 세 글의 내용을 참조하면서 평균값이 어떤 집단의 대표성을 상실하는 경우의 사례를 제시하고, 그 근거와 보완 방법에 대한 자신의 생각을 (띄어쓰기를 포함하여) 1000자 이내로 서술하시오.
(가) 극단적인 예를 생각해 보자. 한 아이가 10달러를 다 가지고 있으며, 다른 아홉 명은 돈을 하나도 가지고 있지 않을 수도 있다. 그래도 1인당 가지고 있는 돈의 평균은 1달러이다. 이러한 평균값이 그 집단을 정확하게 표현한다고 할 수 있을까? 실제로 정치판의 여론 조작 전문가들은 현실을 화려하게 채색하기 위한 눈속임으로 평균소득을 자주 이용한다. 예를 들어 부자들에게만 세금을 감면해 주는 슈퍼 레이거노믹스 체제에서 소수의 백만장자가 엄청난 부를 축적하고, 빈곤선에 있는 대부분의 사람은 더 궁핍해졌다고 가정해 보자. 이때 1인당 평균소득은 증가한 것으로 나타날 것이다. 부자 한 사람의 소득이 연간 600만 달러에서 6억 달러로 늘어난 것이 몇 백만 극빈자의 소득 감소를 상쇄하기 때문이다. 한 사람이 5억9400만 달러를 벌고 1억 명이 모두 5달러씩 수입이 감소되었다 하더라도(총 5억 달러) 전체 집단의 평균소득은 올라간다. 그러나 속임수로 이용하는 사례를 제외하고는 이러한 경우에 사람들의 평균소득이 늘어났다고 말할 수는 없다.
통계학에서는 이런 문제를 해결하기 위해 ‘중심 경향성’을 측정하는 다른 방법을 개발해 놓았다. 그중 하나가 최빈값(mode)이다. 이것은 그 집단에서 가장 흔한 값으로 정의할 수 있다. 그러나 어떤 문제에 대해서 어떤 중심 경향성 측정법이 가장 적합한지를 결정해 주는 수학 법칙은 없다. 결정은 주어진 경우와 관련된 모든 요소에 대한 지식과 기본 양심을 바탕으로 내려질 수밖에 없다.
여태까지 예로 든 모든 경우는 평균값이 아니라 최빈값으로 더 잘 이해할 수 있다. 10명의 아이들 사례에서 아이들이 가진 돈의 최빈값은 0이다. 부자와 빈곤층의 경우에 소득의 최빈값은 변함이 없지만 (또는 약간 떨어졌지만) 한 명의 부자가 큰돈을 벌어들였기 때문에 평균은 올라간다. (중략) 평균값의 증가가 그 집단의 일반 특징인 것처럼 말할 수는 없다. 다수의 안정성이 그 집단의 중요한 특징으로 정의되어야 한다. 내가 이 점을 공들여 강조하는 이유는 ‘생명의 역사에서 진보란 무엇인가’라는 나의 두 번째 질문도 이와 같은 종류의 이야기이기 때문이다. 소수의 생물은 변이가 열려 있는 쪽으로만 계속 복잡성을 진화시켜 왔다. 그러나 최빈값은 유구한 생명의 역사 기간 내내 박테리아였다. 박테리아는 어떤 기준에 비추어 보아도 태초부터 지금까지, 그리고 앞으로도 영원히 지구에서 가장 성공적인 생물일 것이다.
앞에서 우리는 시스템 전체의 현상으로 보이는 경향(전통적으로 이것은 어디론가 움직여 가는 ‘무엇’, 예를 들면 집단의 평균값 같은 것으로 잘못 이해되고 있다)이 사실은 그 시스템 안에서 일어나는 변이의 확장과 축소를 잘못 해석한 것임을 봤다. 평균값의 변화를 경향으로 오해하는 이유는 변화하는 극단적인 소수에 근시안적으로 초점을 맞추거나 그것을 전체의 경향으로 오해하기 때문이다. 아니면 변이가 한 방향으로만 확장 또는 축소되어 최빈값이 전혀 다른 해석을 보여 주는데도 변화하는 평균값을 그 시스템 전체의 성질로 인식하기 때문이다(생명의 역사를 움직이는 일차적 힘이 진보라는 망상).
[스티븐 제이 굴드, ‘풀하우스’ 중에서 편집]
(나) 최근에 밝혀진 구석기시대 음식물 섭취에 대한 영양학적 분석의 결과, 선사시대에 채집생활을 하던 사람들은 단백질, 섬유질, 식물성 탄수화물을 주로 먹었으며 당분과 포화지방산은 적게 섭취했다는 사실을 알게 되었다. 이러한 석기시대의 음식물 섭취 패턴과 미국 상원 특별조사위원회가 권장한 일일 영양 섭취량을 비교하면, 석기시대에 콜레스테롤 섭취량이 권장량보다 많다는 것 외에, 이 둘은 놀랄 만큼 서로 비슷하다. 이것은 우리 조상들의 지혜라기보다는 음식물의 선택과 취득 가능성이 제한적이었다는 사실을 반영한다. 대체로 음식물 공급이 나름대로 적절했거나 풍부했던 전(前) 산업사회의 음식물 섭취 패턴은 현대 미국에 비해 훨씬 나았다고 한다.
그러나 비만의 문제는 근대화와 함께 등장한다. 비만은 단순한 문명병이 아니다. 비만은 가난한 사람들조차 비만해질 수 있을 정도로 식량 공급이 가능하게 된 경제 수준의 문명화된 사회에서만 보편적으로 나타나는 현상이다.
식량 부족은 비만의 진화라는 가설의 전제이기도 하다. 자연 상태에서는 식량 부족이 인간에게 너무나 만연된 현상이기 때문에, 식량의 잉여가 있는 시기에 효과적으로 칼로리를 축적할 수 있는 사람이 자연에 의해 자손을 남길 가능성이 커진다. 식량 부족에 대비하여 인류는 지방의 합성과 축적을 통해 식량을 몸 안에 저장해 두도록 진화해 왔다. 더욱이 여성은 임신과 수유기에 필요한 영양분을 잘 공급할 수 있는가에 따라 재생산의 성공이 결정되었다. 여성이 남성보다 체지방을 덜 소모하면서 더 많은 지방을 축적하는 방향으로 진화하는 것이 아마도 자연선택 과정에서 더욱 유리했던 것 같다. 나이지리아의 에피크 족의 풍습을 보면, 사춘기 소녀들이 결혼 전에 오두막에 갇혀서 2년 동안 격리되어 살을 찌운다. 이러한 통과의례를 마치면 소녀는 성인 여성으로 간주되며, 이는 ‘결혼할 수 있음’을 의미하는 것이다.
그러나 비만의 부정적인 효과가 사회문제화 되는 현상과 함께, 이상적인 여성의 체형은 훨씬 날씬한 모습이 된다. 미국의 경우 지난 30년간 여성의 이상적인 아름다운 체형은 점점 더 의학적인 이상형보다 날씬해져 버렸다. 그러므로 매력적인 체형과 관련된 문화적인 신념은 여성들에게 몸무게를 줄이라는 압력으로 나타났고, 이는 거식증과 폭식증의 주요 원인으로 작용하고 있다.
이와 같이 기아와 비만의 문제는 식량 공급에 따른 문제라는 점에서 같은 맥락이다. 아프리카 소말리아 지역과 사하라 사막 주변의 가뭄과 기근으로 인한 기아와, 미국과 같은 나라에서 새로운 질병처럼 등장한 비만의 극단적인 대조는 인류 역사의 가혹한 현실을 보여 준다. [한경구 등, ‘낯선 곳에서 나를 만나다’ 중에서 편집]
(다) 프리드만의 가정을 수용하면 아인슈타인의 방정식은 매우 간단한 형태로 변환된다. 프리드만의 해(解)를 좌우하는 요인은 다음 세 가지 변수로 요약할 수 있다.
H: 우주의 팽창속도를 좌우하는 상수. 오늘날 이 상수는 허블상수(Hubble's constant)라는 이름으로 알려져 있다. 허블은 우주의 팽창속도를 예견했던 천문학자이다.
Ω: 우주공간의 평균밀도지수.
Λ: 빈 공간과 관련된 에너지, 또는 암흑에너지.
이 세 개의 상수는 서로 미묘한 관계를 유지하면서 우주의 미래를 좌우하고 있다. 예를 들어 빅뱅 이후로 우주는 계속 팽창하고 있지만 천체들 간의 중력이 팽창을 저지하고 있기 때문에, 물질의 밀도는 우주의 팽창을 저지하는 일종의 브레이크 역할을 한다. 즉, 우주는 빅뱅에 의해 팽창을 시작했지만 물질이 가지는 중력이 우주의 팽창을 저지하게 되는 것이다.
진공 에너지 Λ를 일단 없다고 가정하고, Ω는 우주의 평균밀도를 임계밀도(우주의 임계밀도는 1당 수소원자 10개 정도이다)로 나눈 값이라고 정의해 보자.
Ω가 1보다 작다면, 즉 우주의 평균밀도가 임계밀도보다 작다면 우주공간에 존재하는 물질의 총량이 원래의 팽창을 저지할 만큼 충분하지 않다는 뜻이다. 이런 경우에 우주는 대책 없이 팽창하다가 절대온도 0도(모든 물질의 원자의 활동이 정지되는 온도)에 접근했을 때 총체적으로 얼어붙게 된다. 일반 가정에서 흔히 사용하는 냉장고와 에어컨의 원리도 이와 비슷하다. 기체의 부피가 커지면 온도는 무조건 내려가는데, 에어컨은 기체의 부피를 강제로 증가시켜서 온도를 내리는 장치이다.
반대로 Ω가 1보다 크면 물체들이 행사하는 중력이 충분히 커서, 우주는 어느 시점에 팽창을 멈추고 수축되기 시작한다. 이렇게 되면 우주의 온도는 다시 올라가고 별과 은하들은 서로 가까워진다. 이런 식으로 수축이 계속되다보면 결국 우주는 초고온 상태가 되고 모든 생명체가 사라지면서 이른바 ‘빅 크런치(big crunch)’라 불리는 일대 파국을 맞이하게 된다.
마지막으로 Ω=1일 때, 즉 우주의 평균밀도와 임계밀도가 일치하는 경우 우주는 어떤 종말을 맞이하게 될 것인가? 이 경우에 우주는 두 가지 극단적인 종말의 중간상태를 절묘하게 유지하면서 영원히 팽창하게 된다. [미치오 가쿠, ‘평행우주’ 중에서 편집]
■A 수험생 답안
우리가 일반적으로 어떤 집단을 대표하는 값을 생각할 때, 우리는 그 값을 대푯값이라고 한다. 그러한 대푯값에는 크게 평균값, 중앙값, 최빈값이 있다. 이 중에서 논제는 평균값이 집단의 대표성을 상실하는 경우의 사례를 제시하라고 하였다.
이 중에서 가장 현실과 가까운 예가 될 수 있는 것이 첫 번째 제시문이라 생각된다. 주어진 예를 살펴보면, 경제 문제에서 일부 부의 증가가 전체 부의 증가를 나타내는 것처럼 보이는 경우가 있다는 것이다. 대표적인 예로는 회사에서 연봉의 대푯값을 정할 때에 발생할 수 있다. 예를 들어 어떤 회사가 100명의 평직원과 10명의 간부급 인사, 그리고 1명의 최고경영자로 구성되어 있는 경우를 생각해 보자. 평직원 100명의 월급은 한 사람당 150만 원이고, 간부급 인사들은 1000만 원, 최고경영자는 1억 원을 번다고 생각해 보자. 이 경우 만약 평균값을 대표값으로 잡는다면 이 회사의 평균 월급은 315만 원이 된다. 하지만 이 값을 대푯값으로 삼는 것은 타당하지 못하다.
왜냐하면 주어진 값 315만 원은 일반 평직원의 월급의 2배에 해당하는 수치이며, 간부급 인사 월급의 30%, 최고경영자의 경우에는 3%에 불과한 수치이다. 결국 이 값은 수학적인 평균 이상도 이하의 의미도 담고 있지 않다. 그러므로 이 경우에는 그 집단의 대푯값을 평균값으로 쓰는 것이 바람직하지 못하다.
소수의 변량이 지나치게 극단적인 값을 취함으로 인해 전체의 대표성을 잃는 경우에는 최빈값, 또는 중앙값을 그 집단의 대푯값으로 보는 것이 타당하다. 위 회사의 사례에서는 가장 많은 수를 차지하고 있는 것은 평직원이며, 그들의 임금인 150만 원이 오히려 이 집단을 가장 잘 대표한다고 할 수 있다.
■A 수험생 답안 첨삭지도
주어진 제시문은 평균값이 어떤 집단의 특징을 대표하기 힘들다는 내용을 담고 있다. A 학생은 주어진 제시문 중에서 (가)를 대푯값으로서 평균값이 집단의 대표성을 상실하는 예를 들고 있다고 언급하고 있는데, 논제에 주어진 제시문 중에서 평균값이 대표성을 상실하는 사례를 선택하라는 것은 없었으므로, 이 부분은 답안에서 서술하지 않는 것이 적절할 것으로 생각된다.
논제에서 요구한 집단의 대표성을 상실하는 평균값의 예로는 회사의 월급 평균을 제시하였다. 모든 임직원의 평균이 임직원의 다수를 차지하는 일반 평직원의 월급의 평균에 비해서 2배 많기 때문에 집단의 대표성을 상실한다는 충분한 근거를 같이 제시하여, 대표성을 상실하는 예를 잘 서술하고 있다. 하지만 논제에서는 근거 제시뿐만 아니라, 집단의 대푯값이 될 수 있도록 보완 방법을 제시하라고 하였는데, 보완 방법에 대한 논리는 일관성이 없어 보인다.
소수의 변량이 지나치게 극단적인 값을 취함으로 인해 최빈값과 중앙값을 대푯값으로 사용해야 한다고 서술한 후, 회사 월급의 대표성에 대해서는 최빈값과 중앙값을 어떻게 적용해야 하는지 설명하지 못하고, 바로 다수를 차지하는 평직원 임금의 평균값을 대푯값으로 정해야 한다고 하였다.
이것은 월급에 대한 대푯값으로 최빈값이나 중앙값을 사용할 것인지, 아니면 다수 평직원의 월급의 평균값을 사용해야 할 것인지 결론을 내리지 못한 모호한 표현이라는 생각이 든다. 최빈값과 중앙값에 대한 언급을 하지 않고 다수의 평직원 월급의 평균값을 대푯값으로 사용해야 한다는 논리를 드는 것이 적절했을 것으로 판단된다.
■B 수험생 답안
첫 번째 제시문은 수치가 한곳에 몰려 있는 극단적인 경우를 제시함으로써 평균값이 그 집단을 표현하지 못하고, 최빈값이 더 좋은 지표라고 주장하는 글이다. 두 번째 제시문 역시 인류의 전체적인 식량 공급은 잉여적이지만 기아로 허덕이는 곳도 있어, 평균적인 값이 전체적인 집단의 성질을 보여 줄 수 없음을 시사한다. 이처럼 어떠한 수치를 평균한 값이 집단의 성질을 대표하지 못하는 현상은 평균값이 그 수치의 분포와 차이가 클 경우에 나타난다. 이는 수학적으로는 표준편차가 크다는 것을 의미한다. 예를 들어 A B C D E가 각각 1, 2, 3, 4, 5의 값을 가지는 경우와 3, 3, 3, 3, 3을 가지는 경우를 비교해 보면 둘은 모두 평균값으로 3을 가지지만 이는 첫 번째 경우의 연속적인 수치 분포를 설명하지 못한다. 수학적으로 표준편차는 편차제곱의 평균에 루트를 씌운 값인데, 위의 두 경우에서 각각 루트 2와 0으로 차이를 보인다. 집단의 대표성을 잃지 않으려면 평균값을 제시하되 표준편차를 제시하여 흩어진 분포 정도를 알려주어야 한다. 첫 번째 제시문과 같이 최빈값을 사용하면 최빈값의 정의에서 문제가 발생한다. 예를 들어 A B C D E가 각각 100, 100, 5, 5, 5를 가지는 경우 최빈값은 정의대로 가장 많이 나타난 5가 되지만 그 빈도의 차는 1개뿐이므로 신뢰도가 떨어진다. 또 100, 100, 50, 0, 0의 경우에는 100과 0의 빈도수가 같으면서 최대이므로 최빈값을 결정하기 어렵다. 즉, 최빈값은 빈도수의 차가 작고 가지는 수치의 차가 큰 경우에 신뢰도를 잃는다. 따라서 수치의 분포를 가시적인 그래프로 보이는 것이 가장 좋으며, 그것이 안 될 경우 평균과 표준편차를 함께 제시하거나 최빈값 대신 상대적으로 많은 부분을 차지한 수치를 평균하여 사용하는 것이 더 합리적일 것이다.
■B 수험생 답안 첨삭지도
1, 2, 3, 4, 5 와 3, 3, 3, 3, 3의 숫자들로 구성된 두 개의 집합체를 사용하여 표준편차에 대한 개념을 도입하여 답안의 마지막까지 일관적으로 적절하게 잘 사용하고 있다. 다만 표준편차가 집단의 자료를 분석하는 데 어떠한 의의가 있는지에 대한 언급을 해 주었다면 좀 더 좋은 답안이 되었을 것으로 본다. 100, 100, 5, 5, 5와 100, 100, 50, 0, 0의 집합체를 통해서 최빈값을 사용하였을 경우의 문제점에 대해서도 적절히 잘 지적하였다. 하지만 이것은 최빈값을 대푯값으로 인정하지 못하는 것에 대한 근거로는 사용될 수 있으나, 평균값이 대푯값으로 사용되기 힘들다는 것을 보여 주기는 어려운 사례이다. 숫자를 이용해서 논제에서 원하는 사례를 제시하려는 의도가 있었다면, 더 많은 숫자를 열거하여 최빈값보다는 평균값이 사용될 경우의 문제점을 지적해 주는 것이 주어진 논제에 맞는 답안이 될 것이다.
논제에서 요구한 사례는 정확히 제시하지 못했지만, 집단의 대표성을 보완하는 방법으로 평균과 표준편차를 같이 사용하거나, 상대적으로 많을 부분을 차지하는 숫자들의 평균을 이용한다고 적절하게 잘 언급하였다는 생각이 든다. 다만 평균값이 집단의 대표성을 상실하는 예를 너무 수학적으로 제시하는 것보다 프로야구, 농구 등 프로 운동선수들의 연봉과 같은 실제 생활에서도 찾아볼 수 있는 사례를 제시하지 못한 것은 조금 아쉽다.
조한균 강남중앙학원 논구술연구소 통합 교과 언어수석연구원
박정현 강남중앙학원 논구술연구소 수리 수석연구원
댓글 0