일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- code
- 리스트
- 빅데이터
- DATABASE
- stat
- 생활코딩
- 야학
- big_data
- 파이썬
- sql
- 데이터분석
- 이토록 쉬운 통계&R
- BigData
- 숫자야구
- hadoop
- R
- 루비페이퍼
- 임경덕
- 하둡
- 숫자야구코드
- 데이터사이언스
- 데이터과학
- list
- DataAnalysis
- python
- if문
- 코딩야학
- 함수
- 숫자야구소스
- for문
- Today
- Total
목록데이터사이언스 (12)
yekang
* 45 % 최저가, 알고 보니 옵션가 데이터 분석에도 최저가에 붙는 옵션가처럼 조건에 따라 값이 바뀌기도 한다. 물론 데이터 분석에는 상품 대신 변수나 사건에 관심을 갖는다. 이 관심 변수나 관심 사건을 이해하기 위해서 변수의 평균을 구하고, 사건이 일어날 확률을 계산한다. 그러나 이 값들이 항상 똑같은 것은 아니다. 앞서 살펴본 변수들의 관계를 잘 활용하면 드디어 데이터 속에 있는 차이를 설명할 수 있다. - 조건부 확률과 조건부 평균 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못한다. 즉, 관심 변수는 자기 자신을 통해서는 평균과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자 요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선이다. 왜 그런 차이가 나는지 이유를 설명할 수는 ..
* 40 % 니가 하면 나도 한다 - 교차표 두 연속형 변수는 상관계쑤로 관계를 확인할 수 있는 반면 두 범주형 변수의 관계는 상관계수로 계산할 수 없다. 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이다. 그렇다면 두 범주형 변수의 수준 간의 관계를 확인하고 표현할 수 있을까? 변수는 데이터 공간 속에서 축을 의미한다. 범주형 변수도 다를 바가 없다. 다만 연속형 변수처럼 수직선으로 표현하는 것이 아니라 표로 표현한다. 다양한 값이 아니라 '남자'와 '여자'처럼 몇가지 정해진 수준 중에서 하나의 값을 가지기 때문이다. 두 범주형 변수 중 한 변수는 가로축에, 나머지 변수는 세로축에 두고 2차원 표로 데이터를 요약할 수 있다. 이러한 2차원 표를 교차표(Contingency Table)이라고 부른다..
* 35 % 부전자전, 유전 연결고리 - 산점도 먼저 데이터는 변수와 관측치로 구성되어 있다. 앞서 데이터는 어떤 공간을 만드는데, 그 공간은 변수만큼의 차원으로 구성되고 공간속에는 관측치만큼 점들이 흩어져 있다고 언급했다.(5% 날줄과 씨줄) 가로축과 세로축에 각각 연속형 변수를 두면 자연스레 2차원 공간이 만들어지며 각 관측치는 이 공간 속에 하나의 점으로 찍혀진다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot)이라고 한다. 산점도를 그리면 관측치들이 만들어내는 패턴을 확인할 수 있다. 가로축, 세로축 변수의 평균 값을 기준으로 수평선과 수직선을 그으면 공간은 4개로 나눠진다. 이를 가리켜 사분면(Quadrant)이라고 한다. 오른쪽 위부터 반시계방향으로 순서..
* 31 % 범인은 이 안에 있다통계 사건을 기록한 데이터를 가지고 있으며 그 데이터 속에는 변수들이 있다. 결국 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다. 그 첫 단계가 바로 변수 간의 관계 탐색이다. 하나의 변수만 살펴보는 것이 아니라 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다. 데이터 속에 있는 여러 변수 중에서 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다. 이 관심 변수는 개수가 몇 개든, 심지어 아예 없더라도 문제가 되지 않는다. 그리고 나머지 변수들을 이 관심 변수의 차이를 설명해줄 수 있는 변수라는 의미에서 설명 변수라고 한다. 예를 들어 관심 변수를 사람마다 서로 다른 값을 가지고 있는 '키'라고 했을 때 이러한 키 차이를 설명할 ..
* 30 % 0.000012%의 꿈, 로또 - 확률 과거에 바로 그 일이 일어났을 확률은 항상 100%이다. 그래서 과거에 대한 확률은 계산할 필요가 없다. 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데 통계에서는 이를 사건(Event)라고 부른다. 확률은 이 사건이 현실이 될 가능성을 0부터 1 사이의 숫자로 표현한 것이다. 다시 말해 어떤 불확실성의 정도를 0부터 1사이의 소수로 표현한 것을 확률(Probability)라고 한다. 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친숙하다. 확률은 계산 방법에 따라 논리적으로 혹은 수리적으로 계산한 확률인 이론적(Theoretical) 확률과 사건을 직접 관찰하거나 모의 실험(Simulation)을 통해 계산된 확률인 경험적(..
* 25 % 먹고 싶은 거 먹어, 난 짜장 몸무게나 수능 점수 같은 연속형 변수는 다양한 값을 가질 수 있다. 1점과 2점 사이에도 1.1243과 같이 얼마든지 세부적인 점수를 만들 수 있는 것이다. 하지만 범주형 변수는 다르다. 정해진 값 중에서 하나를 선택해야 한다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간은 없다. 이와 같이 범주형 변수가 가질 수 있는 한정적인 값들을 수준(Level)이라고 한다. 데이터를 요약하는 입장에서 범주형 변수의 분석은 상대적으로 편하다. n개의 관측치가 모두 값이 다른 연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산해서 설명했지만 범주형 변수는 수준별로 몇 개의 관측치가 있는지 세면 되기 때문이다. 예를 들어 몸무게는 평균과 ..
* 20 % 물수능과 불수능- 표준화(Standardization)서로 다른 시험에서 얻은 점수를 비교해서 어느 쪽이 상대적으로 더 잘한 것인지 확인할 수 있는 방법* 중심화(Centering) : 어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나온다. 이렇게 관측치에서 평균을 빼는 과정을 중심화라고 한다.* 척도화(Scaling) : 각 관측치를 표준편차로 나누는 것. 척도화는 값의 전반적인 크기를 보정할 뿐만 아니라, 단위를 없애준다. 즉, 변수가 어떤 단위를 쓰든 상관 없이 척도화의 결과는 단위가 없는 그냥 숫자인 것이다. 변수를 먼저 중심화하고 다음으로 척도화하는 과정을 표준화라고 한다. 어떤 변수를 가져오든 상관없이 표준화를 거친 변수의 평균은 0이 되..
* 15 % 더치페이와 N빵 - 평균(Mean)어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값변수 x 의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 n으로 나눠 계산한다. - 분산(Variance)관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산한 것. 모든 관측치가 똑같은 값을 가지면 분산은 0. 즉 완전히 평등한 상태관측치들이 서로 큰 차이가 있을수록 분산은 점점 커지고, 분산이 크면 클수록 관측치 간의 불평등이 심하다. : 표본의 표준편차{\displaystyle y} : 변인{\displaystyle {\overline {y}}} : 표본의 평균{\displaystyle n} : 표본의 크기{\displaystyle SS} : 제곱합{\dis..
- 상자 그림 수직선 위에 점수를 하나씩 세로 막대(|)로 표시한다. 앞서 살펴본 다섯 숫자 요약을 활용해서 데이터를 같은 비율로 4등분해서 4개의 구간을 만든다. 즉, 각 구간에는 관측치들이 25%씩 들어가 있다. 하지만 구간의 길이가 모두 같지는 않다. Q1부터 Q3 사이를 네모난 상자로 표현하고 최솟값, 최댓값까지 직선으로 잇는다. 그리고 상자 가운데 있는 중앙값은 좀 더 길게 표현을 한다. 이렇게 만든 그림을 상자 그림이라고 한다. 관측치를 같은 비율로 나누는 지점을 계산해서 각 구간의 간격을 살펴보는 방법 장점 : 어떤 연속형 변수든 5개의 값으로 표현할 수 있다. 단점 : 세부적인 패턴은 놓칠 수 있다. When : 간단하고 빠른 분석/그룹에 따른 차이를 확인할 때 R에는 1974년 자동차 트..
* 10 % 순서대로 한줄서기- 정렬과 순서 통계량* 정렬 : 값들을 크기에 따라 순서대로 줄 세우는 과정* 순서 통계량(Order statistics) : 오름차순으로 정렬된 값* 최솟값(Minimum) : 순서 통계량에서 가장 먼저 나오는 값, 즉 가장 작은 값* 최댓값(Maximum) : 순서 통계량에서 가장 나중에 나오는 값, 즉 가장 큰 값 - 분위수* 분위수(Quantile) : 기준이 되는 특정한 점수들. 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이 있다. - 사분위수와 다섯 숫자 요약 분위수를 데이터 분석에 어떻게 활용해야 할까? " 전체적인 점수 패턴 ( 중위권에 얼마나 몰려 있는지, 하위권의 평균은 어느정도인가 하는 패턴을 한눈에 보고 싶을때..