일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터과학
- R
- 생활코딩
- BigData
- 데이터사이언스
- DataAnalysis
- hadoop
- list
- 야학
- sql
- 데이터분석
- 루비페이퍼
- python
- 숫자야구
- stat
- 함수
- 숫자야구코드
- code
- 코딩야학
- if문
- 파이썬
- 임경덕
- DATABASE
- 리스트
- big_data
- 빅데이터
- for문
- 하둡
- 이토록 쉬운 통계&R
- 숫자야구소스
- Today
- Total
yekang
[Part 2. 차이를 설명하는 통계 개념] ~40% 본문
* 40 % 니가 하면 나도 한다
- 교차표
비록 교차표로 잘 정리되었지만 종이를 가득 채운 306개의 숫자에서 어떤 패턴이 있는지 확인하는 것은 거의 불가능하다. 그러나 각 시도별 연령대 구성비를 의미하는 열 백분율을 계산하고 열지도로 표현하면 훨씬 효과적으로 정보를 확인할 수 있다.
지역을 막론하고 40대와 50대의 색이 전체적으로 짙다. 그리고 15세 미만의 인구는 색이 연하다. 저출산 문제와 곧 닥쳐올 인구 고령화 위기를 잘 보여주는 열지도이다. 수도권보다는 지방의 60대 이상 인구의 비중이 높은 것도 보인다. 그리고 30대에서 40대 초중반 공무원들과 자녀들이 모여있는 세종특별자치시도 눈에 띈다. 이렇게 열지도를 활용하면 비교가 훨씬 쉬워진다.
- 독립
두 변수가 서로 얽매이지 않고 완전히 남남인 관계를 독립(Independence)이라고 한다. 이와 반대되는 두 변수간의 상관관계가 있다면 종속(Dependence)이라고 한다. 위의 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표의 각 값들을 모르고 행합계와 열합계를 안다고 가정했을 때 행 백분율을 구해 열 비중이 모두 같고, 열 백분율을 구하면 행 비중이 모두 같은 독립을 가정한 교차표를 만들 수 있다. 실제 교차표의 값과 독립을 가정한 교차표의 값의 차이를 만들고 행합계와 열합계의 값을 채워본다. 만약 실제 교차표가 독립을 가정한 교차표와 비슷한 값을 가진다면 표에서 나타난 차이들은 대부분 0의 값을 가진다. 반대로 무언가 차이가 있다면 차이값들은 0에서 멀어지고, 교차표의 두 변수가 서로 독립이 아니라는 것을 의미한다. 만약 두 변수가 독립이 아니라면 수준들끼리 서로 다른 특징을 가진다고 이야기할 수 있다. 이와 관련된 이야기는 PART 3에서 다시하기로 한다.
'빅데이터 > R' 카테고리의 다른 글
[Part 2. 차이를 설명하는 통계 개념] ~45% (0) | 2018.03.23 |
---|---|
[Part 2. 차이를 설명하는 통계 개념] ~35% (0) | 2018.03.07 |
[Part 2. 차이를 설명하는 통계 개념] ~31% (0) | 2018.03.05 |
[Part 1. 차이를 확인하는 데이터 요약] ~30% (0) | 2018.03.04 |
[Part 1. 차이를 확인하는 데이터 요약] ~25% (0) | 2018.03.03 |