yekang

[Part 1. 차이를 확인하는 데이터 요약] ~30% 본문

빅데이터/R

[Part 1. 차이를 확인하는 데이터 요약] ~30%

예캉 2018. 3. 4. 22:45

* 30 % 0.000012%의 꿈, 로또

- 확률
과거에 바로 그 일이 일어났을 확률은 항상 100%이다. 그래서 과거에 대한 확률은 계산할 필요가 없다. 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데 통계에서는 이를 사건(Event)라고 부른다. 확률은 이 사건이 현실이 될 가능성을 0부터 1 사이의 숫자로 표현한 것이다. 다시 말해 어떤 불확실성의 정도를 0부터 1사이의 소수로 표현한 것확률(Probability)라고 한다. 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친숙하다. 

확률은 계산 방법에 따라 논리적으로 혹은 수리적으로 계산한 확률이론적(Theoretical) 확률사건을 직접 관찰하거나 모의 실험(Simulation)을 통해 계산된 확률경험적(Empirical) 확률로 나뉜다. 이론적 확률은 누가 계산하든 항상 동일한 값이 나오며 경험적 확률은 데이터라는 과거의 기록으로부터 사건의 발생 패턴을 분석해서 계산할 수 있다. 그리고 가위바위보 10판을 할 때마다 결과가 달라지듯 경험적 확률은 계산할 때마다 값이 달라질 수 있다.

- 확률을 활용한 당첨 번호 예측
아래는 2016년 총 53번의 나눔로또 추첨에서 나온 번호 횟수이다.


전체 45개 숫자 중에서 당첨 번호는 6개니깐 각각의 번호가 추첨 번호에 있을 확률은 6/45, 약 13.3%이다. 하지만 실제 값들을 보면 33번 공은 무려 15번이나 나와 경험적 확률을 계산해보면 15/53, 약 28.3%로 이론적 확률인 13.3%의 2배가 넘는다. 반면 9번 공은 1/53으로 약 1.3%밖에 되지않는다.

각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있으니깐 확률 0.133과 기회 53번을 곱하면 약 7.07로 각 번호가 1년 동안 7번 정도는 나왔을 것으로 기대할 수 있다. 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값기대값(Expectation)이라고 한다. 특이값을 제외하고는 전체적으로 봤을 때 7번 내외로 나온 것을 볼 수 있다.

- 데이터 분석과 확률
 확률은 데이터 분석에서 다양하게 활용되는데, 크게 두 가지로 분류할 수 있다. 첫 번째, 어떤 관심 있는 확률이 궁금할 때이다. 정보를 모아 데이터를 만들고 도대체 어떤 차이가 결과를 가르는지 확률모형(Probability model)을 만든다. 이 확률모형 속에서 결과에 영향을 미치는 변수가 무엇인지 살펴볼 수 있다. 두 번째, 어떤 차이가 의미가 있는지 없는지 궁금할 때이다. 차이는 항상 존재하는데 문제는 이 차이가 어쩌다 생길 수 있는 수준의 미세한 차이인지 아니면 우연이라 하기엔 너무 큰 차이인지를 따져봐야 한다. 통계는 이런 차이의 정도도 확률로 표현한다. 확률이 1에 가까울수록 충분히 있음직한 흔한 차이를 의미하고, 확률이 0에 가까울수록 매우 드물게 일어나는 차이를 의미한다. 물론 두 경우가 완전히 분리되어서 사용되는 것은 아니다. 변수의 관계를 활용해서 관심 있는 변수 속 차이를 확률로 설명함과 동시에 설명된 차이가 의미가 있는지 없는지를 판단한다. 이렇게 통계는 불확실성을 설명한다.


Comments