yekang

[Part 2. 차이를 설명하는 통계 개념] ~45% 본문

빅데이터/R

[Part 2. 차이를 설명하는 통계 개념] ~45%

예캉 2018. 3. 23. 22:39

* 45 % 최저가, 알고 보니 옵션가


데이터 분석에도 최저가에 붙는 옵션가처럼 조건에 따라 값이 바뀌기도 한다. 물론 데이터 분석에는 상품 대신 변수나 사건에 관심을 갖는다. 이 관심 변수나 관심 사건을 이해하기 위해서 변수의 평균을 구하고, 사건이 일어날 확률을 계산한다. 그러나 이 값들이 항상 똑같은 것은 아니다. 앞서 살펴본 변수들의 관계를 잘 활용하면 드디어 데이터 속에 있는 차이를 설명할 수 있다.

- 조건부 확률과 조건부 평균

평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못한다. 즉, 관심 변수는 자기 자신을 통해서는 평균과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자 요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선이다. 왜 그런 차이가 나는지 이유를 설명할 수는 없다. 그래서 '왜'를 설명할 수 있는 다른 변수가 필요하다.

전체 아들 1,078명 중에서 키가 180cm 이상(237명)일 확률은 22%지만 '아빠 키가 평균 이상'이라는 조건(Condition)을 추가하면, 확률은 35%로 높아진다. 전체 1,078명이 아니라 아빠 키가 평균 이상인 552명 중에서 키가 180cm보다 큰 아들은 194명이기 때문이다. 평균도 비슷하다. 전체 아들 키의 평균은 174.5cm지만, 아빠 키가 평균 이상인 552명의 평균 키는 177.4cm로 더 크다. 이처럼 관심 변수가 아닌 다른 변수를 활용해 조건을 만들면 관심대상이 전체가 아니라 그 조건과 일치하는 일부로 좁아진다. 이 일부 관측치들의 확률이나 평균이 전체에 비해서 얼마나 크고 작은지 확인할 수 있다. 이렇게 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균조건부 확률, 조건부 평균이라고 한다.

물론 설명 변수로 아무리 조건을 만들어도 관심 변수의 평균이나 확률이 큰 차이가 없을 수 있다. 이럴 때 '관심 변수와 설명 변수가 독립' 이라고 한다.

- 심슨의 역설


모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았다. 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못된 것 같다. 만약 여자라는 이유로 합격률이 저렇게 낮다면, 이 대학의 학생 선발 과정에 문제가 있는 건 아닐까? 그런데 대학 측은 오히려 여자의 합격률이 높다고 주장한다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 보자.



학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여준다. 분명 전체 남자의 합격률이 훨씬 높았는데, 뜯어 보니 A학과, B학과 모두 여자의 합격률이 10% 포인트나 높았다. 이 예제는 절대 모순이나 말장난이 아니다. 심슨의 역설(Simpson's paradox)로 알려진 실제 일화이다. 


만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 성별과 지원 학과가 완전히 독립이었다면 A학과와 B학과에 지원한 남자와 여자의 수가 모두 50명으로 동일했을 것이다. 그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나온 것이다.


결국 데이터 분석은 차이를 확인하고 설명하는 과정이다. 숨어 있는 정보를 끄집어내기 위해서 변수들의 관계를 보며 데이터를 더 깊숙이 살펴봐야 한다. 이 방법이 설명 변수를 활용해 조건을 추가하는 것이다. 관심 변수는 눈으로 보이는 차이는 확인할 수 있지만 설명은 불가능하다. 그래서 설명 변수들이 필요한 것이다. 설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴볼 수 있다. 그리고 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있다.




Comments