일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- list
- 빅데이터
- 함수
- R
- 루비페이퍼
- big_data
- 이토록 쉬운 통계&R
- hadoop
- sql
- 숫자야구코드
- 리스트
- 파이썬
- BigData
- 야학
- 생활코딩
- if문
- DATABASE
- 데이터분석
- stat
- 데이터사이언스
- 숫자야구
- 하둡
- python
- code
- 숫자야구소스
- 코딩야학
- DataAnalysis
- 데이터과학
- for문
- 임경덕
- Today
- Total
yekang
[Part 2. 차이를 설명하는 통계 개념] ~45% 본문
* 45 % 최저가, 알고 보니 옵션가
모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았다. 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못된 것 같다. 만약 여자라는 이유로 합격률이 저렇게 낮다면, 이 대학의 학생 선발 과정에 문제가 있는 건 아닐까? 그런데 대학 측은 오히려 여자의 합격률이 높다고 주장한다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 보자.
학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여준다. 분명 전체 남자의 합격률이 훨씬 높았는데, 뜯어 보니 A학과, B학과 모두 여자의 합격률이 10% 포인트나 높았다. 이 예제는 절대 모순이나 말장난이 아니다. 심슨의 역설(Simpson's paradox)로 알려진 실제 일화이다.
만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 성별과 지원 학과가 완전히 독립이었다면 A학과와 B학과에 지원한 남자와 여자의 수가 모두 50명으로 동일했을 것이다. 그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나온 것이다.
결국 데이터 분석은 차이를 확인하고 설명하는 과정이다. 숨어 있는 정보를 끄집어내기 위해서 변수들의 관계를 보며 데이터를 더 깊숙이 살펴봐야 한다. 이 방법이 설명 변수를 활용해 조건을 추가하는 것이다. 관심 변수는 눈으로 보이는 차이는 확인할 수 있지만 설명은 불가능하다. 그래서 설명 변수들이 필요한 것이다. 설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴볼 수 있다. 그리고 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있다.
'빅데이터 > R' 카테고리의 다른 글
[Part 2. 차이를 설명하는 통계 개념] ~40% (0) | 2018.03.22 |
---|---|
[Part 2. 차이를 설명하는 통계 개념] ~35% (0) | 2018.03.07 |
[Part 2. 차이를 설명하는 통계 개념] ~31% (0) | 2018.03.05 |
[Part 1. 차이를 확인하는 데이터 요약] ~30% (0) | 2018.03.04 |
[Part 1. 차이를 확인하는 데이터 요약] ~25% (0) | 2018.03.03 |