일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 숫자야구소스
- 함수
- 코딩야학
- 숫자야구코드
- for문
- 하둡
- 이토록 쉬운 통계&R
- 루비페이퍼
- 데이터사이언스
- 리스트
- 빅데이터
- 파이썬
- 숫자야구
- stat
- DATABASE
- list
- 야학
- sql
- hadoop
- code
- BigData
- R
- 생활코딩
- if문
- big_data
- 임경덕
- DataAnalysis
- 데이터과학
- 데이터분석
- python
Archives
- Today
- Total
yekang
[Part 1. 차이를 확인하는 데이터 요약] ~10%[1] 본문
* 10 % 순서대로 한줄서기
- 정렬과 순서 통계량
* 정렬 : 값들을 크기에 따라 순서대로 줄 세우는 과정
* 순서 통계량(Order statistics) : 오름차순으로 정렬된 값
* 최솟값(Minimum) : 순서 통계량에서 가장 먼저 나오는 값, 즉 가장 작은 값
* 최댓값(Maximum) : 순서 통계량에서 가장 나중에 나오는 값, 즉 가장 큰 값
- 분위수
* 분위수(Quantile) : 기준이 되는 특정한 점수들. 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이 있다.
- 사분위수와 다섯 숫자 요약
분위수를 데이터 분석에 어떻게 활용해야 할까?
" 전체적인 점수 패턴 ( 중위권에 얼마나 몰려 있는지, 하위권의 평균은 어느정도인가 하는 패턴을 한눈에 보고 싶을때)
* 중앙값(Median) : 최솟값과 최댓값의 중간인 50% 지점에 있는 값으로 이를 기준으로 관측치들이 정확히 반반으로 나뉜다.
하지만 0%, 50%, 100%라는 세 값으로만 데이터를 살펴보기에는 부족하므로 그 사이의 값들인 25%와 75%를 추가한다. 만들어진 이 5개 지점은 데이터를 정확히 4등분 하므로 사분위수(Quantile)이라고 부른다. 25%, 75%는 첫 번째, 세 번째 사분위수(1st, 3rd Quantile)라는 의미로 각각 Q1, Q3라고 부른다.
이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최댓값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary)라고 한다.
[정보통신기술용어 해설]
http://www.ktword.co.kr/abbr_view.php?m_temp1=1937
http://support.minitab.com/ko-kr/minitab/17/topic-library/basic-statistics-and-graphs/graphs/graphs-that-compare-groups/boxplots/quartiles/
'빅데이터 > R' 카테고리의 다른 글
[Part 1. 차이를 확인하는 데이터 요약] ~20% (0) | 2018.02.28 |
---|---|
[Part 1. 차이를 확인하는 데이터 요약] ~15% (0) | 2018.02.27 |
[Part 1. 차이를 확인하는 데이터 요약] ~10%[2] (0) | 2018.02.26 |
[Part 1. 차이를 확인하는 데이터 요약] ~5% (0) | 2018.01.27 |
이토록 쉬운 통계&R (1) | 2018.01.25 |
Comments