빅데이터/R
[Part 1. 차이를 확인하는 데이터 요약] ~15%
예캉
2018. 2. 27. 11:40
* 15 % 더치페이와 N빵
- 평균(Mean)
어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값
변수 x 의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 n으로 나눠 계산한다.
- 분산(Variance)
관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산한 것.
모든 관측치가 똑같은 값을 가지면 분산은 0. 즉 완전히 평등한 상태
관측치들이 서로 큰 차이가 있을수록 분산은 점점 커지고, 분산이 크면 클수록 관측치 간의 불평등이 심하다.
분산에서 n-1로 나누는 것도 관측치가 많으면 n으로 나누는 것과 큰 차이가 없다.
평균의 식과 분산의 식은 너무나 닮아 있는데 시그마 안의 식이 관측치의 값인지 관측치에서 평균을 뺀 값인지의 차이이다.
- 표준편차(standard deviation)
분산에는 치명적인 단점이 있는데 바로 단위(unit)다. 평균이 만원이라는 것은 쉽게 이해되지만 5,875,000(원^2)이라는 큰 숫자의 분산은 납득이 어렵기 때문이다. 그래서 분산에 제곱근을 씌운 표준편차가 나오게 되었다.
표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이다.
분산에 비해 더 직관적이다. (단위에 있어서나 값의 크기 비교에 있어서)