yekang

[Part 2. 차이를 설명하는 통계 개념] ~40% 본문

빅데이터/R

[Part 2. 차이를 설명하는 통계 개념] ~40%

예캉 2018. 3. 22. 22:29

* 40 % 니가 하면 나도 한다


- 교차표


두 연속형 변수는 상관계쑤로 관계를 확인할 수 있는 반면 두 범주형 변수의 관계는 상관계수로 계산할 수 없다. 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이다. 그렇다면 두 범주형 변수의 수준 간의 관계를 확인하고 표현할 수 있을까? 변수는 데이터 공간 속에서 축을 의미한다. 범주형 변수도 다를 바가 없다. 다만 연속형 변수처럼 수직선으로 표현하는 것이 아니라 표로 표현한다. 다양한 값이 아니라 '남자'와 '여자'처럼 몇가지 정해진 수준 중에서 하나의 값을 가지기 때문이다. 두 범주형 변수 중 한 변수는 가로축에, 나머지 변수는 세로축에 두고 2차원 표로 데이터를 요약할 수 있다. 이러한 2차원 표를 교차표(Contingency Table)이라고 부른다.


이는 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표로 정리한 것이다. 이처럼 교차표는 두 범주형 변수로 구성된 데이터를 매우 효율적으로 요약할 수 있다.( 가로축은 대회, 세로축에는 메달이라는 변수)그리고 교차표에서는 수준들의 관계를 살펴볼 수 있는데 이를 위해 행 합계와 열 합계가 사용된다. 리우 올림픽에서 딴 21개의 메달 중에 어떤 색 메달이 가장 많을까? 은메달 합계 33개에 가장 큰 기여를 한 대회는 언제일까?와 같이 말이다.

- 행 백분율과 열 백분율

행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것행 백분율이라고 하고 반대로 열 합계를 1로 봤을 때 각 행의 비중이 얼마인지 계산한 것열 백분율이라고 한다. 행 백분율을 구해보면 전반적인 열(메달) 비중 패턴과 다르게, 각 행(대회)이 어떤 열과 조금 더 혹은 조금 덜 관련이 있는지 살펴볼 수 있다. 숫자만으로는 어떤 백분율이 더 크고 작은지, 범주형 변수 간 어떤 패턴이 있는지 한눈에 파악하기 어렵다. 그래서 교차표도 그림으로 표현한다.

- 열지도

두 범주형 변수에 수준이 10개씩 있어서 무려 100개의 숫자를 살펴봐야한다면 어떨까? 숫자가 많아져서 보기도 어려울뿐더러 결과를 정리하는 것도 힘든 일이 된다. 그래서 색깔을 활용해서 열지도(Heatmap)을 그린다. 열지도는 교차표에서 가장 작은 숫자를 0, 가장 큰 숫자를 1로 보고 색의 진하기를 활용해서 교차표를 그림으로 바꿔준다. 표의 한 칸이 타일 하나가 되는 것이다. 이렇게 열지도로 숫자 없이 색깔만으로도 어느 값이 크고 작은지 한눈에 볼 수 있다. 색깔이 진한 곳에서 교차하는 두 수준이 서로 높은 관련이 있다고 할 수 있다. 열지도는 범주형 변수의 수준이 많아질수록 더 효과적이다. 예를 들어, 전국 17개 시도별 5세 단위 연령대별 인구수를 정리한 표를 살펴보자.


비록 교차표로 잘 정리되었지만 종이를 가득 채운 306개의 숫자에서 어떤 패턴이 있는지 확인하는 것은 거의 불가능하다. 그러나 각 시도별 연령대 구성비를 의미하는 열 백분율을 계산하고 열지도로 표현하면 훨씬 효과적으로 정보를 확인할 수 있다.



지역을 막론하고 40대와 50대의 색이 전체적으로 짙다. 그리고 15세 미만의 인구는 색이 연하다. 저출산 문제와 곧 닥쳐올 인구 고령화 위기를 잘 보여주는 열지도이다. 수도권보다는 지방의 60대 이상 인구의 비중이 높은 것도 보인다. 그리고 30대에서 40대 초중반 공무원들과 자녀들이 모여있는 세종특별자치시도 눈에 띈다. 이렇게 열지도를 활용하면 비교가 훨씬 쉬워진다.


- 독립


두 변수가 서로 얽매이지 않고 완전히 남남인 관계독립(Independence)이라고 한다. 이와 반대되는 두 변수간의 상관관계가 있다면 종속(Dependence)이라고 한다. 위의 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표의 각 값들을 모르고 행합계와 열합계를 안다고 가정했을 때 행 백분율을 구해 열 비중이 모두 같고, 열 백분율을 구하면 행 비중이 모두 같은 독립을 가정한 교차표를 만들 수 있다. 실제 교차표의 값과 독립을 가정한 교차표의 값의 차이를 만들고 행합계와 열합계의 값을 채워본다. 만약 실제 교차표가 독립을 가정한 교차표와 비슷한 값을 가진다면 표에서 나타난 차이들은 대부분 0의 값을 가진다. 반대로 무언가 차이가 있다면 차이값들은 0에서 멀어지고, 교차표의 두 변수가 서로 독립이 아니라는 것을 의미한다. 만약 두 변수가 독립이 아니라면 수준들끼리 서로 다른 특징을 가진다고 이야기할 수 있다. 이와 관련된 이야기는 PART 3에서 다시하기로 한다.



Comments