yekang

[Part 1. 차이를 확인하는 데이터 요약] ~10%[1] 본문

빅데이터/R

[Part 1. 차이를 확인하는 데이터 요약] ~10%[1]

예캉 2018. 2. 2. 00:12


* 10 % 순서대로 한줄서기
- 정렬과 순서 통계량
* 정렬 : 값들을 크기에 따라 순서대로 줄 세우는 과정
* 순서 통계량(Order statistics) : 오름차순으로 정렬된 값
* 최솟값(Minimum) : 순서 통계량에서 가장 먼저 나오는 값, 즉 가장 작은 값
* 최댓값(Maximum) : 순서 통계량에서 가장 나중에 나오는 값, 즉 가장 큰 값

- 분위수
* 분위수(Quantile) : 기준이 되는 특정한 점수들. 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이 있다.

- 사분위수와 다섯 숫자 요약
 분위수를 데이터 분석에 어떻게 활용해야 할까? 
" 전체적인 점수 패턴 ( 중위권에 얼마나 몰려 있는지, 하위권의 평균은 어느정도인가 하는 패턴을 한눈에 보고 싶을때)
* 중앙값(Median) : 최솟값과 최댓값의 중간인 50% 지점에 있는 값으로 이를 기준으로 관측치들이 정확히 반반으로 나뉜다. 
 하지만 0%, 50%, 100%라는 세 값으로만 데이터를 살펴보기에는 부족하므로 그 사이의 값들인 25%와 75%를 추가한다. 만들어진 이 5개 지점은 데이터를 정확히 4등분 하므로 사분위수(Quantile)이라고 부른다. 25%, 75%는 첫 번째, 세 번째 사분위수(1st, 3rd Quantile)라는 의미로 각각 Q1, Q3라고 부른다.
 이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최댓값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary)라고 한다. 



[정보통신기술용어 해설]
http://www.ktword.co.kr/abbr_view.php?m_temp1=1937

http://support.minitab.com/ko-kr/minitab/17/topic-library/basic-statistics-and-graphs/graphs/graphs-that-compare-groups/boxplots/quartiles/


Comments