일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 데이터분석
- list
- 야학
- 숫자야구코드
- 데이터사이언스
- 숫자야구
- code
- sql
- 빅데이터
- 생활코딩
- if문
- python
- 루비페이퍼
- BigData
- 임경덕
- 이토록 쉬운 통계&R
- DATABASE
- 리스트
- big_data
- stat
- 함수
- 숫자야구소스
- R
- 데이터과학
- hadoop
- for문
- 파이썬
- 하둡
- 코딩야학
- DataAnalysis
- Today
- Total
yekang
* 31 % 범인은 이 안에 있다통계 사건을 기록한 데이터를 가지고 있으며 그 데이터 속에는 변수들이 있다. 결국 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다. 그 첫 단계가 바로 변수 간의 관계 탐색이다. 하나의 변수만 살펴보는 것이 아니라 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다. 데이터 속에 있는 여러 변수 중에서 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다. 이 관심 변수는 개수가 몇 개든, 심지어 아예 없더라도 문제가 되지 않는다. 그리고 나머지 변수들을 이 관심 변수의 차이를 설명해줄 수 있는 변수라는 의미에서 설명 변수라고 한다. 예를 들어 관심 변수를 사람마다 서로 다른 값을 가지고 있는 '키'라고 했을 때 이러한 키 차이를 설명할 ..
* 30 % 0.000012%의 꿈, 로또 - 확률 과거에 바로 그 일이 일어났을 확률은 항상 100%이다. 그래서 과거에 대한 확률은 계산할 필요가 없다. 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데 통계에서는 이를 사건(Event)라고 부른다. 확률은 이 사건이 현실이 될 가능성을 0부터 1 사이의 숫자로 표현한 것이다. 다시 말해 어떤 불확실성의 정도를 0부터 1사이의 소수로 표현한 것을 확률(Probability)라고 한다. 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친숙하다. 확률은 계산 방법에 따라 논리적으로 혹은 수리적으로 계산한 확률인 이론적(Theoretical) 확률과 사건을 직접 관찰하거나 모의 실험(Simulation)을 통해 계산된 확률인 경험적(..
* 25 % 먹고 싶은 거 먹어, 난 짜장 몸무게나 수능 점수 같은 연속형 변수는 다양한 값을 가질 수 있다. 1점과 2점 사이에도 1.1243과 같이 얼마든지 세부적인 점수를 만들 수 있는 것이다. 하지만 범주형 변수는 다르다. 정해진 값 중에서 하나를 선택해야 한다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간은 없다. 이와 같이 범주형 변수가 가질 수 있는 한정적인 값들을 수준(Level)이라고 한다. 데이터를 요약하는 입장에서 범주형 변수의 분석은 상대적으로 편하다. n개의 관측치가 모두 값이 다른 연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산해서 설명했지만 범주형 변수는 수준별로 몇 개의 관측치가 있는지 세면 되기 때문이다. 예를 들어 몸무게는 평균과 ..