의사결정 트리 개념
Decision Tree
- 기계학습에서 지도학습의 알고리즘
- 분류 또는 회귀 분석의 목적
- 분류와 예측을 수행
- 목표변수 유형에 따른 의사결정 트리
- 범주형 목표변수 : 분류 트리
- 목표변수가 이산형인 경우, 범주에 속하는 빈도에 기초해서 분리가 발생..-> 분류 트리
- 연속형 목표변수 : 회귀 트리
- 목표변수가 연속형인 경우, 평균과 표준편차에 기초해 분리 발생 ..-> 회귀 트리
Decision Tree 분리 기준
- 부모 노드로부터 자식노드들이 형성될 때 생성된 자식노드에 속하는 자료의 순수도가 가장 크게 증가하도록 트리를 형성
- 입력 변수를 이용해 목표변수의 분포를 얼마나 잘 구별하는 정도를 파악해 자식 마디가 형성되는데, 목표변수의 구별 정도를 불순도( 다양한 범주들의 개체들이 포함되어 있는 정도)에 의해 측정
- 지니 지수
-데이터 집합의 불순도를 측정
- 0~1 사이의 값
- 어떤 데이터 집합에 속한 개체(레코드)들이 같은 범주(클래스)로 구성되어 있으면 지니 지수는 최솟값 0을 가짐. 해당 데이터 집합은 순수하다고 봄.
- 지니 지수가 작을수록 잘 분류가 됨.
- 엔트로피 지수
- 엔트로피 : 주어진 데이터 집합의 혼잡도
- 주어진 데이터집합에 서로 다른 범주(클래스)의 개체(레코드)들이 많이 섞여있으면 엔트로피가 높음.
- 0~1 사이의 값
- 가장 혼잡도가 높은 상태(서로 다른 범주의 개체들이 섞여 있는 상태)는 1
- 정보 이득
- 상위 노드의 엔트로피 지수에서 하위 노드의 가중평균한 엔트로피 지수를 뺀 것
* 지니 지수 계산 식
1-범주별 j번째 범주에 분류될 확률의 합