일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- code
- R
- 하둡
- DATABASE
- list
- big_data
- 코딩야학
- 숫자야구코드
- 이토록 쉬운 통계&R
- 루비페이퍼
- 숫자야구소스
- sql
- 함수
- 숫자야구
- 생활코딩
- python
- 빅데이터
- stat
- 데이터분석
- for문
- 데이터과학
- BigData
- hadoop
- if문
- DataAnalysis
- 야학
- 리스트
- 임경덕
- 데이터사이언스
- 파이썬
- Today
- Total
yekang
의사결정 트리 개념 본문
Decision Tree
- 기계학습에서 지도학습의 알고리즘
- 분류 또는 회귀 분석의 목적
- 분류와 예측을 수행
- 목표변수 유형에 따른 의사결정 트리
- 범주형 목표변수 : 분류 트리
- 목표변수가 이산형인 경우, 범주에 속하는 빈도에 기초해서 분리가 발생..-> 분류 트리
- 연속형 목표변수 : 회귀 트리
- 목표변수가 연속형인 경우, 평균과 표준편차에 기초해 분리 발생 ..-> 회귀 트리
Decision Tree 분리 기준
- 부모 노드로부터 자식노드들이 형성될 때 생성된 자식노드에 속하는 자료의 순수도가 가장 크게 증가하도록 트리를 형성
- 입력 변수를 이용해 목표변수의 분포를 얼마나 잘 구별하는 정도를 파악해 자식 마디가 형성되는데, 목표변수의 구별 정도를 불순도( 다양한 범주들의 개체들이 포함되어 있는 정도)에 의해 측정
- 지니 지수
-데이터 집합의 불순도를 측정
- 0~1 사이의 값
- 어떤 데이터 집합에 속한 개체(레코드)들이 같은 범주(클래스)로 구성되어 있으면 지니 지수는 최솟값 0을 가짐. 해당 데이터 집합은 순수하다고 봄.
- 지니 지수가 작을수록 잘 분류가 됨.
- 엔트로피 지수
- 엔트로피 : 주어진 데이터 집합의 혼잡도
- 주어진 데이터집합에 서로 다른 범주(클래스)의 개체(레코드)들이 많이 섞여있으면 엔트로피가 높음.
- 0~1 사이의 값
- 가장 혼잡도가 높은 상태(서로 다른 범주의 개체들이 섞여 있는 상태)는 1
- 정보 이득
- 상위 노드의 엔트로피 지수에서 하위 노드의 가중평균한 엔트로피 지수를 뺀 것
* 지니 지수 계산 식
1-범주별 j번째 범주에 분류될 확률의 합
'빅데이터 > 파이썬' 카테고리의 다른 글
mymodule 추가 및 총점이 가장 큰 학생은?교수님 코드 (0) | 2017.07.06 |
---|---|
mymodule.py (0) | 2017.07.06 |
[파일입출력]총점이 가장 큰 학생의 학번은? (0) | 2017.07.06 |
리스트 슬라이싱, set (0) | 2017.07.05 |
달력 함수 및 호출 (0) | 2017.07.05 |