일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- BigData
- 데이터분석
- code
- 리스트
- 빅데이터
- if문
- python
- list
- stat
- DataAnalysis
- big_data
- 임경덕
- 데이터사이언스
- 하둡
- 생활코딩
- hadoop
- 데이터과학
- 루비페이퍼
- 숫자야구소스
- 파이썬
- R
- sql
- 함수
- 야학
- 이토록 쉬운 통계&R
- 숫자야구코드
- 코딩야학
- for문
- 숫자야구
- DATABASE
Archives
- Today
- Total
yekang
[Part 1. 차이를 확인하는 데이터 요약] ~15% 본문
* 15 % 더치페이와 N빵
- 평균(Mean)
어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값
변수 x 의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 n으로 나눠 계산한다.
- 분산(Variance)
관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산한 것.
모든 관측치가 똑같은 값을 가지면 분산은 0. 즉 완전히 평등한 상태
관측치들이 서로 큰 차이가 있을수록 분산은 점점 커지고, 분산이 크면 클수록 관측치 간의 불평등이 심하다.
분산에서 n-1로 나누는 것도 관측치가 많으면 n으로 나누는 것과 큰 차이가 없다.
평균의 식과 분산의 식은 너무나 닮아 있는데 시그마 안의 식이 관측치의 값인지 관측치에서 평균을 뺀 값인지의 차이이다.
- 표준편차(standard deviation)
분산에는 치명적인 단점이 있는데 바로 단위(unit)다. 평균이 만원이라는 것은 쉽게 이해되지만 5,875,000(원^2)이라는 큰 숫자의 분산은 납득이 어렵기 때문이다. 그래서 분산에 제곱근을 씌운 표준편차가 나오게 되었다.
표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이다.
분산에 비해 더 직관적이다. (단위에 있어서나 값의 크기 비교에 있어서)
'빅데이터 > R' 카테고리의 다른 글
[Part 1. 차이를 확인하는 데이터 요약] ~25% (0) | 2018.03.03 |
---|---|
[Part 1. 차이를 확인하는 데이터 요약] ~20% (0) | 2018.02.28 |
[Part 1. 차이를 확인하는 데이터 요약] ~10%[2] (0) | 2018.02.26 |
[Part 1. 차이를 확인하는 데이터 요약] ~10%[1] (0) | 2018.02.02 |
[Part 1. 차이를 확인하는 데이터 요약] ~5% (0) | 2018.01.27 |
Comments