yekang

의사결정 트리 개념 본문

빅데이터/파이썬

의사결정 트리 개념

예캉 2017. 12. 4. 02:59

Decision Tree

- 기계학습에서 지도학습의 알고리즘

- 분류 또는 회귀 분석의 목적

- 분류와 예측을 수행

- 목표변수 유형에 따른 의사결정 트리

- 범주형 목표변수 : 분류 트리

- 목표변수가 이산형인 경우, 범주에 속하는 빈도에 기초해서 분리가 발생..-> 분류 트리

- 연속형 목표변수 : 회귀 트리

- 목표변수가 연속형인 경우, 평균과 표준편차에 기초해 분리 발생 ..-> 회귀 트리




Decision Tree 분리 기준

- 부모 노드로부터 자식노드들이 형성될 때 생성된 자식노드에 속하는 자료의 순수도가 가장 크게 증가하도록 트리를 형성

- 입력 변수를 이용해 목표변수의 분포를 얼마나 잘 구별하는 정도를 파악해 자식 마디가 형성되는데, 목표변수의 구별 정도를 불순도( 다양한 범주들의 개체들이 포함되어 있는 정도)에 의해 측정


지니 지수

-데이터 집합의 불순도를 측정

- 0~1 사이의 값

- 어떤 데이터 집합에 속한 개체(레코드)들이 같은 범주(클래스)로 구성되어 있으면 지니 지수는 최솟값 0을 가짐. 해당 데이터 집합은 순수하다고 봄.

- 지니 지수가 작을수록 잘 분류가 됨.

- 엔트로피 지수

- 엔트로피 : 주어진 데이터 집합의 혼잡도

- 주어진 데이터집합에 서로 다른 범주(클래스)의 개체(레코드)들이 많이 섞여있으면 엔트로피가 높음.

- 0~1 사이의 값

- 가장 혼잡도가 높은 상태(서로 다른 범주의 개체들이 섞여 있는 상태)는 1

- 정보 이득

- 상위 노드의 엔트로피 지수에서 하위 노드의 가중평균한 엔트로피 지수를 뺀 것



* 지니 지수 계산 식

1-범주별 j번째 범주에 분류될 확률의 합 



Comments