일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터사이언스
- 생활코딩
- 하둡
- 데이터분석
- 이토록 쉬운 통계&R
- 숫자야구
- 코딩야학
- 파이썬
- 숫자야구소스
- DATABASE
- for문
- 빅데이터
- hadoop
- R
- 리스트
- code
- python
- 숫자야구코드
- 루비페이퍼
- 데이터과학
- big_data
- BigData
- sql
- DataAnalysis
- if문
- list
- 함수
- stat
- 임경덕
- 야학
- Today
- Total
목록공부 (74)
yekang

데이터 공부를 시작하는사람들은 R을 해야하는지 Python을 해야하는지 SQL을 해야하는지 묻는다.나 또한 그중 한명이었다. 나는 컴퓨터공학도로 Python으로 시작했으며 Sql 공부도 하며 공모전 언어 통일의 이유로 R을 사용하기도 했다.이러한 언어들은 데이터 과학을 하기 위한 도구이고 또한 이들을 함께 공부할 수 있는 책이 나왔으면 하는 생각을 했는데 정확히 '데이터 전처리 대전'이 그 책이다. 또한 데이터 분석 부서의 인턴을 했었는데 실무에서도 Python, R, Sql을 모두 다 사용했었는데 인턴 시기에 나왔다면 동기들과 함께 사서 봤을법한 책이다. 막 입문하는 자보다는 언어 하나를 했고 나무보다는 숲을 보고 싶으며 좀 더 실무적으로 접근하고 싶은 자들에게 추천한다.

4차 산업혁명의 시대의 흐름에 편승하고 싶은 자, IT 업계로의 취업을 꿈꾸는 꿈나무에게 추천하고자 합니다. 인턴하면서 파이썬을 쓰고 있는데 파이썬을 사용한 알고리즘 가이드북이라 좋았고, "코딩게임" 플랫폼을 이용해 재미있게 접근할 수 있었습니다. 사실, 가장 중요한 것은 문제 해결 능력이라고 생각하는데 제가 기존에 본 책들과는 달리 아이디어적으로 접근하는 부분이 친절해 알고리즘 입문자, 알고리즘을 학교에서 배웠지만 응용하지 못하는 학생들에게 더욱 도움이 될거라 생각합니다. 책을 정독하고 나서 TAOCP(The Art of Computer Programming)책을 학습하면 더할 나위 없이 좋고 추후 취업을 위한 코딩 테스트에 많은 도움이 될거라 생각합니다!!
* 45 % 최저가, 알고 보니 옵션가 데이터 분석에도 최저가에 붙는 옵션가처럼 조건에 따라 값이 바뀌기도 한다. 물론 데이터 분석에는 상품 대신 변수나 사건에 관심을 갖는다. 이 관심 변수나 관심 사건을 이해하기 위해서 변수의 평균을 구하고, 사건이 일어날 확률을 계산한다. 그러나 이 값들이 항상 똑같은 것은 아니다. 앞서 살펴본 변수들의 관계를 잘 활용하면 드디어 데이터 속에 있는 차이를 설명할 수 있다. - 조건부 확률과 조건부 평균 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못한다. 즉, 관심 변수는 자기 자신을 통해서는 평균과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자 요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선이다. 왜 그런 차이가 나는지 이유를 설명할 수는 ..
* 40 % 니가 하면 나도 한다 - 교차표 두 연속형 변수는 상관계쑤로 관계를 확인할 수 있는 반면 두 범주형 변수의 관계는 상관계수로 계산할 수 없다. 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이다. 그렇다면 두 범주형 변수의 수준 간의 관계를 확인하고 표현할 수 있을까? 변수는 데이터 공간 속에서 축을 의미한다. 범주형 변수도 다를 바가 없다. 다만 연속형 변수처럼 수직선으로 표현하는 것이 아니라 표로 표현한다. 다양한 값이 아니라 '남자'와 '여자'처럼 몇가지 정해진 수준 중에서 하나의 값을 가지기 때문이다. 두 범주형 변수 중 한 변수는 가로축에, 나머지 변수는 세로축에 두고 2차원 표로 데이터를 요약할 수 있다. 이러한 2차원 표를 교차표(Contingency Table)이라고 부른다..
옵티마이저(Optimizer)는 사용자가 질의한 SQL문에 대해 최적의 실행 방법을 결정하는 역할을 수행한다. 이러한 최적의 실행 방법을 실행계획(Execution Plan)이라고 한다. 다양한 실행 방법들 중에서 최적의 실행 방법을 결정하는 것이 바로 옵티마이저의 역할이다. 최적의 실행 방법 결정이라는 것은 어떤 방법으로 처리하는 것이 최소 일량으로 동일한 일을 처리할 수 있을지 결정하는 것이다. 옵티마이저가 최적의 실행 방법을 결정하는 방식에 따라 규칙기반 옵티마이저와 비용기반 옵티마이저로 구분할 수 있다. 현재는 대부분의 관계형 데이터베이스는 비용기반 옵티마이저만을 제공한다. 가. 규칙기반 옵티마이저규칙(우선 순위)을 가지고 실행계획을 생성한다. 실행계획을 생성하는 규칙을 이해하면 누구나 실행계획을..
* 35 % 부전자전, 유전 연결고리 - 산점도 먼저 데이터는 변수와 관측치로 구성되어 있다. 앞서 데이터는 어떤 공간을 만드는데, 그 공간은 변수만큼의 차원으로 구성되고 공간속에는 관측치만큼 점들이 흩어져 있다고 언급했다.(5% 날줄과 씨줄) 가로축과 세로축에 각각 연속형 변수를 두면 자연스레 2차원 공간이 만들어지며 각 관측치는 이 공간 속에 하나의 점으로 찍혀진다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot)이라고 한다. 산점도를 그리면 관측치들이 만들어내는 패턴을 확인할 수 있다. 가로축, 세로축 변수의 평균 값을 기준으로 수평선과 수직선을 그으면 공간은 4개로 나눠진다. 이를 가리켜 사분면(Quadrant)이라고 한다. 오른쪽 위부터 반시계방향으로 순서..
* 31 % 범인은 이 안에 있다통계 사건을 기록한 데이터를 가지고 있으며 그 데이터 속에는 변수들이 있다. 결국 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다. 그 첫 단계가 바로 변수 간의 관계 탐색이다. 하나의 변수만 살펴보는 것이 아니라 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다. 데이터 속에 있는 여러 변수 중에서 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다. 이 관심 변수는 개수가 몇 개든, 심지어 아예 없더라도 문제가 되지 않는다. 그리고 나머지 변수들을 이 관심 변수의 차이를 설명해줄 수 있는 변수라는 의미에서 설명 변수라고 한다. 예를 들어 관심 변수를 사람마다 서로 다른 값을 가지고 있는 '키'라고 했을 때 이러한 키 차이를 설명할 ..
* 30 % 0.000012%의 꿈, 로또 - 확률 과거에 바로 그 일이 일어났을 확률은 항상 100%이다. 그래서 과거에 대한 확률은 계산할 필요가 없다. 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데 통계에서는 이를 사건(Event)라고 부른다. 확률은 이 사건이 현실이 될 가능성을 0부터 1 사이의 숫자로 표현한 것이다. 다시 말해 어떤 불확실성의 정도를 0부터 1사이의 소수로 표현한 것을 확률(Probability)라고 한다. 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친숙하다. 확률은 계산 방법에 따라 논리적으로 혹은 수리적으로 계산한 확률인 이론적(Theoretical) 확률과 사건을 직접 관찰하거나 모의 실험(Simulation)을 통해 계산된 확률인 경험적(..
* 25 % 먹고 싶은 거 먹어, 난 짜장 몸무게나 수능 점수 같은 연속형 변수는 다양한 값을 가질 수 있다. 1점과 2점 사이에도 1.1243과 같이 얼마든지 세부적인 점수를 만들 수 있는 것이다. 하지만 범주형 변수는 다르다. 정해진 값 중에서 하나를 선택해야 한다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간은 없다. 이와 같이 범주형 변수가 가질 수 있는 한정적인 값들을 수준(Level)이라고 한다. 데이터를 요약하는 입장에서 범주형 변수의 분석은 상대적으로 편하다. n개의 관측치가 모두 값이 다른 연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산해서 설명했지만 범주형 변수는 수준별로 몇 개의 관측치가 있는지 세면 되기 때문이다. 예를 들어 몸무게는 평균과 ..
* 20 % 물수능과 불수능- 표준화(Standardization)서로 다른 시험에서 얻은 점수를 비교해서 어느 쪽이 상대적으로 더 잘한 것인지 확인할 수 있는 방법* 중심화(Centering) : 어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나온다. 이렇게 관측치에서 평균을 빼는 과정을 중심화라고 한다.* 척도화(Scaling) : 각 관측치를 표준편차로 나누는 것. 척도화는 값의 전반적인 크기를 보정할 뿐만 아니라, 단위를 없애준다. 즉, 변수가 어떤 단위를 쓰든 상관 없이 척도화의 결과는 단위가 없는 그냥 숫자인 것이다. 변수를 먼저 중심화하고 다음으로 척도화하는 과정을 표준화라고 한다. 어떤 변수를 가져오든 상관없이 표준화를 거친 변수의 평균은 0이 되..