일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- code
- DataAnalysis
- big_data
- 데이터사이언스
- hadoop
- 숫자야구코드
- 이토록 쉬운 통계&R
- for문
- 임경덕
- if문
- 생활코딩
- DATABASE
- 파이썬
- R
- 숫자야구소스
- 빅데이터
- 데이터과학
- 함수
- stat
- 리스트
- 데이터분석
- 코딩야학
- sql
- list
- 숫자야구
- BigData
- 야학
- 루비페이퍼
- python
- 하둡
- Today
- Total
yekang
[Part 1. 차이를 확인하는 데이터 요약] ~25% 본문
횟수 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 | 10 |
수준(앞/뒤) |
|
|
|
|
|
|
|
|
|
이 표는 '동전을 던져 나온 면'이라는 10개의 관측치를 모은 변수이다. "앞" 혹은 "뒤"로 기록되어 있다. 동전을 몇번을 던져도 이 변수의 수준은 "앞" 과 "뒤"이다. 그리고 다음과 같은 결과를 얻었다.
횟수 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
수준(앞/뒤) | 앞 | 앞 | 뒤 | 앞 | 뒤 | 뒤 | 뒤 | 앞 | 앞 | 앞 |
횟수 | 1 | 2 | 4 | 8 | 9 | 10 | 3 | 5 | 6 | 7 |
수준(앞/뒤) | 앞 | 앞 | 앞 | 앞 | 앞 | 앞 | 뒤 | 뒤 | 뒤 | 뒤 |
수준 |
앞면 |
뒷면 |
횟수 |
6 |
4 |
지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형 변수의 수준 개수가 많으면 숫자만으로는 파악하기 힘들다. 숫자는 크기를 효율적으로 표현하는 방법이지, 한눈에 차이를 파악하기엔 썩 효과적이지 않다. 그래서 직관적으로 받아들일 수 있는 그림, 그래프를 활용해 숫자를 표현해 본다.
- 파이 차트와 막대그래프
첫 번째 그림은 파이 차트(Pie chart)다. 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖는다. 중심각의 크기로 전체 중에서 각 수준의 비중이 얼마만큼인지를 표현하는 것이다.
다음은 막대그래프(Barplot)이다. 막대그래프는 수준별로 관측치의 수만큼 막대를 높이 쌓아서 표현한다. 막대가 높을수록 많은 관측치가 있다는 의미다. 막대그래프는 가끔 히스토그램이랑 헷갈리기도 하는데 히스토그램은 가로축에 연속형 변수가 들어와서 적절한 구간으로 나누는 중간 과정이 있다. 구간 간격을 어떻게 나누느냐에 따라 모양이 달라지기도 한다. 반면 막대그래프는 가로축에 범주형 변수가 들어오기 때문에 구간으로 나눌 필요가 없다. 동전 데이터는 수준이 2개 뿐이라서 어떤 그래프든 한눈에 결과를 확인할 수 있지만, 수준의 수가 늘어나면 파이 차트보다는 막대그래프가 더 효율적이다.
연령대 |
10대 |
20대 |
30대 |
40대 |
50대 |
회원 수 |
10 |
7 |
8 |
7 |
9 |
파이 차트 코드는 다음과 같다.
member<-c(10,7,8,7,9) num<-c("10대","20대","30대","40대","50대") pie(member, labels=num, main="연령대별 회원 수") |
막대그래프 코드는 다음과 같다.
member<-c(10,7,8,7,9) num<-c("10대","20대","30대","40대","50대") barplot(member,names.arg=num,main="연령대별 회원 수") |
파이 차트가 깔끔하게 보이긴 하나, 수준끼리 비교하기가 어렵다. 20대와 40대의 파이 크기가 같고, 30대는 값이 1만큼 크지만 눈으로 그 차이를 파악하는 데 어려움이 있기 때문이다. 이처럼 파이차트는 비중의 차이가 크게 없을 때는 수준 간의 차이를 정확히 확인하기가 어렵다. 반면 막대그래프는 크기가 높이로 표현되어 있어 어떤 수준이 값이 더 크고 작은지 그 차이를 한눈에 비교할 수 있어 훨씬 좋다. 이처럼 하나의 범주형 변수는 계수를 통해 간단히 요약하고 그 결과를 단순하지만 효과적인 막대그래프로 손쉽게 표현할 수 있다.
'빅데이터 > R' 카테고리의 다른 글
[Part 2. 차이를 설명하는 통계 개념] ~31% (0) | 2018.03.05 |
---|---|
[Part 1. 차이를 확인하는 데이터 요약] ~30% (0) | 2018.03.04 |
[Part 1. 차이를 확인하는 데이터 요약] ~20% (0) | 2018.02.28 |
[Part 1. 차이를 확인하는 데이터 요약] ~15% (0) | 2018.02.27 |
[Part 1. 차이를 확인하는 데이터 요약] ~10%[2] (0) | 2018.02.26 |