일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 파이썬
- 야학
- 숫자야구
- 리스트
- 데이터사이언스
- 하둡
- list
- 데이터과학
- R
- DATABASE
- for문
- hadoop
- if문
- 숫자야구소스
- 데이터분석
- 빅데이터
- DataAnalysis
- sql
- 임경덕
- code
- 생활코딩
- big_data
- 코딩야학
- python
- 이토록 쉬운 통계&R
- 함수
- 숫자야구코드
- BigData
- stat
- 루비페이퍼
- Today
- Total
목록BigData (16)
yekang
- 상자 그림 수직선 위에 점수를 하나씩 세로 막대(|)로 표시한다. 앞서 살펴본 다섯 숫자 요약을 활용해서 데이터를 같은 비율로 4등분해서 4개의 구간을 만든다. 즉, 각 구간에는 관측치들이 25%씩 들어가 있다. 하지만 구간의 길이가 모두 같지는 않다. Q1부터 Q3 사이를 네모난 상자로 표현하고 최솟값, 최댓값까지 직선으로 잇는다. 그리고 상자 가운데 있는 중앙값은 좀 더 길게 표현을 한다. 이렇게 만든 그림을 상자 그림이라고 한다. 관측치를 같은 비율로 나누는 지점을 계산해서 각 구간의 간격을 살펴보는 방법 장점 : 어떤 연속형 변수든 5개의 값으로 표현할 수 있다. 단점 : 세부적인 패턴은 놓칠 수 있다. When : 간단하고 빠른 분석/그룹에 따른 차이를 확인할 때 R에는 1974년 자동차 트..
* 10 % 순서대로 한줄서기- 정렬과 순서 통계량* 정렬 : 값들을 크기에 따라 순서대로 줄 세우는 과정* 순서 통계량(Order statistics) : 오름차순으로 정렬된 값* 최솟값(Minimum) : 순서 통계량에서 가장 먼저 나오는 값, 즉 가장 작은 값* 최댓값(Maximum) : 순서 통계량에서 가장 나중에 나오는 값, 즉 가장 큰 값 - 분위수* 분위수(Quantile) : 기준이 되는 특정한 점수들. 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이 있다. - 사분위수와 다섯 숫자 요약 분위수를 데이터 분석에 어떻게 활용해야 할까? " 전체적인 점수 패턴 ( 중위권에 얼마나 몰려 있는지, 하위권의 평균은 어느정도인가 하는 패턴을 한눈에 보고 싶을때..
* 1 % 줌아웃 데이터는 나무 한 그루 한 그루가 모여 만들어진 큰 숲과 같다. 데이터 분석은 이 나무들의 특징을 살펴보는 과정이라고 볼 수 있다. 이를 위해서는 먼저 가장 높은 곳에 올라가 숲 전체를 살펴봐야 한다. 즉 크고 복잡한 데이터도 멀리서 바라보면 몇 가지 특징을 확인할 수 있다. 다만 특징을 말로 설명하는 것이 아니라 통계를 활용해서 모두 숫자로 표현한다. ( ex : 평균 ) 이처럼 데이터의 특징을 숫자로 표현하는 과정을 요약이라고 한다. 데이터 요약은 단순히 데이터의 특징을 숫자로 표현하기 위한 것이 아니라 데이터의 특징을 살피고 어떤 차이가 있는지 살펴보며 분석의 방향을 설정하는데 도움이 되는 것이다. *5% 날줄과 씨줄- 데이터의 구성 이름성별 몸무게 홍길동남자 55 라이언남자60 ..
IT 전문 출판사 루비페이퍼의 신간이 나왔다. 실전 데이터 분석에 꼭 필요한 통계의 핵심 만 꼭꼭 눌러 담은 것은 물론 과도한 수식에 체하지 않도록 수식을 최소화하였으며 가볍게 시작하고 마무리할 수 있도록 즐거운 예시와 비유로 가득 채웠다고 하는 이 책은 데이터 분석가 임경덕 님의 저서이다. 머신러닝, 데이터분석에 관심이 많은 나로써는 매우 기대하는 책이다! 평소 파이썬을 쓰는 것을 선호하는데 R 지식의 기초를 다지기 위해서 서평단 겸 100일 스터디에 지원하고 운이 좋게도 참여할 수 있게 되었다. (^^) 통계적 지식에 대한 중요성을 인식한 것도 한몫했다. ( 코드를 봐도 왜 그렇게 했는지 이해를 못하니깐 ... ) R을 이용한 데이터분석을 조금 접한 나로썬 실제 R을 활용해서 현업에서 일하시는 분의 ..
문재인 대통령의 취임사를 wordcount 해보았다. 하둡 1 환경설정에 오랜 시간이 걸렸다. 다 끝나니 리눅스가 깨져버리기도 했다.아래는 start-all.sh 명령으로 HDFS 와 맵리듀스 모두 실행하고 그 이후의 코드이다. 12345678910111213141516171819202122232425# moon.txt 를 워드카운트 하자. 1) WinSCP를 이용하여 윈도우에 있는 moon.txt를 리눅스 서버로 복사 - 리눅스 유저 hadoop의 download 디렉터리로 복사하세요. 2) 리눅스 파일시스템에 있는 moon.txt를 HDFS로 복사 (HDFS에 input 디렉터리가 이미 만들어져 있다고 가정) $ hadoop fs -put ~/download/moon.txt input 3) 워드카운트..
12345678910111213141516171819202122232425262728293031323334353637383940414243# -*- coding: utf-8 -*-"""Created on Wed Jul 5 11:16:53 2017@author: doden""" def get_average(dataset,index):#정보를 가진 리스트가 dataset임. sum=0 #tot=input('어떤 과목 점수 평균이 궁금하신가요?') for i in range(len(dataset)): sum=sum+int(dataset[i][index]) return sum/len(dataset) def make_dataset(raw_data): outlist=[] #a=["990001addx 17 29 16..
123456789101112131415161718192021222324252627282930313233343536373839# -*- coding: utf-8 -*-"""Created on Wed Jul 5 11:16:53 2017@author: doden""" def get_average(dataset,index):#정보를 가진 리스트가 dataset임. sum=0 #tot=input('어떤 과목 점수 평균이 궁금하신가요?') for i in range(len(dataset)): sum=sum+int(dataset[i][index]) return sum/len(dataset) def make_dataset(raw_data): outlist=[] #a=[ "990001addx 17 29 16 49 431..
임시 데이터 - 영구적으로 저장하기 위해 파일화. 메모장에 칸을 가지고 저장하는 방식. 그리고 ','를 가지고 저장하는 방식이 있음 원시적인 데이터의 저장형태는 데이터를 모아서 저장하는 형태인데 각 의미를 알기 힘드니 인덱스 달고 추가정보를 단다. 파일 형태대로 열어봤을때 얘가 무슨 데이터임을 알고 싶다. => 파일 자체가 ~데이터입니다를 표현하기 바람. self describition 여러가지 속성 어떻게 구별할까? = > 빈칸 => 불편 => 구분자 XML 등장=> 어떤 데이터임을 알려줌. 모든 종류의 파일을 표현할 수 있음/ (pdf ,csv는 콤마로 구분하는 파일)표기법이 조금 복잡했음 => Jason표기법( dictionary표기임 )영구 데이터 1) 파일형태2) 리스트 변환 3) 로직전달영구 ..
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576info='kim12365100 89 87'print(info[:3])print(info[3:8]) # :뒤 숫자는 포함이 안되기 때문에 +1해준다.print(info[8:11])print(info[11:14])print(info[14:])-------------------------------------------------------------------------- infov2='kim,12365,100,89,87'r=infov2.split(","..
문자열 처리방식 1. 해당 문자가 들어갈 칸을 정하는 방법 => substring 사용하는 문법 [자르고자하는 시작인덱스:자신이 얻고자하는 인덱스+1] 2. 데이터와 데이터 사이를 구분자를 두는 방법 => 보통 ','를 사용해 구분자를 둔다. ,를 처리하는건 split함수 사용하면 된다.123456789101112131415161718192021222324import calendardef viewMonth(year,_month): result=calendar.monthrange(year,_month) space=result[0]+1 month=_month lastDay=result[1] print('\t\t\t%d년 %d월'%(year,month)) print('Sun\tMon\tTue\tWed\tThu..