yekang

[Part 2. 차이를 설명하는 통계 개념] ~35% 본문

빅데이터/R

[Part 2. 차이를 설명하는 통계 개념] ~35%

예캉 2018. 3. 7. 07:39

* 35 % 부전자전, 유전 연결고리


- 산점도


먼저 데이터는 변수와 관측치로 구성되어 있다. 앞서 데이터는 어떤 공간을 만드는데, 그 공간은 변수만큼의 차원으로 구성되고 공간속에는 관측치만큼 점들이 흩어져 있다고 언급했다.(5% 날줄과 씨줄) 가로축과 세로축에 각각 연속형 변수를 두면 자연스레 2차원 공간이 만들어지며 각 관측치는 이 공간 속에 하나의 점으로 찍혀진다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법산점도(Scatterplot)이라고 한다. 산점도를 그리면 관측치들이 만들어내는 패턴을 확인할 수 있다.

가로축, 세로축 변수의 평균 값을 기준으로 수평선과 수직선을 그으면 공간은 4개로 나눠진다. 이를 가리켜 사분면(Quadrant)이라고 한다. 오른쪽 위부터 반시계방향으로 순서대로 1,2,3,4 사분면이라고 부른다. 두 개의 변수의 관련성을 설명하기 위해서 1,3사분면과 2,4사분면의 관측치의 수를 세는 것은 가장 간단하지만 문제가 발생한다. 관측치의 개수가 같게 나올 경우 관련이 없다고 해야 하기 때문이다. 하지만 두 평균 보조선이 만나는 중심에서 멀리 있을수록 값이 확연히 차이나면서 더 큰 힘을 갖기 때문에 이를 고려하는 과정이 필요하다.


- 상관관계

관측치가 중심에서 멀리 떨어져 있다는 것은 평균에서 멀리 떨어져 있다는 것을 의미한다. 따라서 두 변수의 관계를 표현할 숫자를 계산할 때 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야한다. 첫번째 변수를 x, 두번째 변수를 y라고 하자. x의 평균으로부터의 거리와 y의 평균으로부터의 거리를 계산해서 두 값을 곱한다. 그럼 제 1,3사분면의 점들은 양의 면적을 가지고, 제 2,4 사분면의 점들은 음의 면적을 가진다. 이렇게 관측치 개수만큼 n개의 사각형 면적을 계산한다. 이 값들을 활용해 두 변수의 관계를 하나의 숫자로 표현하고자 한다. 간단한 방법으로 사각형 면적의 평균을 계산하는 방법이 있다. 만약 사각형 면적의 평균이 양수라면 제1,3 사분면에 있는 관측치들의 영향력이 세고, 음수라면 제 2,4 사분면에 있는 관측치들의 영향력이 센 것이다. 사각형 면적의 평균을 계산하는 것은 분산에서먼저 했었는데 '변수 x와 y를 함께 사용해서 계산한 분산'이라는 의미에서 공분산(Covariance)라고 한다.


각 변수의 평균으로 공간을 4등분하고 제1,3 사분면과 제2,4 사분면 중 어느 쪽에 얼마나 영향력이 큰 관측치들이 있는지에 따라 공분산이 달라진다는 것이다. 공분산의 값이 양수일 때 두 변수가 양의 상관관계가 있다고 하며 함께 크거나 함께 작은 일정한 패턴이 있다. 반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계가 있다고 하며 변수 하나가 커지면 나머지 하나가 작아진다.

여기까지의 과정에서는 한가지 문제가 있다. 양수인지 음수인지 부호정보를 제외하고는 어떤 정보도 얻을 수 없다는 점이다. 그리고 키의 경우 cm단위로 계산했을 경우 m 단위로 변환하면 값이 10,000분의 1로 줄어든다. 단위에 따라 공분산이 값이 계속 변한다는 뜻이다. 이러한 단위 문제를 해결하기 위해 표준화를 사용한다.


- 상관계수

앞선 공분산의 계산 과정에서는 평균을 빼주는 중심화는 이미 적용했기 때문에, 표준편차로 나눠주는 척도화만 해주면 된다.

이처럼 표준화된 두 변수의 공분산상관계수(Correlation Coefficient)라고 부른다. 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 때는 -1이다. -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미한다. 관측치들이 보이는 모양으로도 상관관계를 유추할 수 있는데 두 변수로 구성된 2차원 산점도에서 관측치가 원형으로 흩어져 있으면 상관관계가 0에 가깝고, 타원을 거쳐 직선과 비슷할수록 강한 상관관계를 가진다고 할 수 있다. 하지만 숫자로 확인하는 편이 더 명확하기 때문에 상관계수를 사용하는 것이 좋다. 





Comments