의사결정 트리 개념

Notice

Recent Posts

Recent Comments

Link

빛을 담은 날개

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

yekang

의사결정 트리 개념 본문

빅데이터/파이썬

의사결정 트리 개념

예캉 2017. 12. 4. 02:59

Decision Tree

- 기계학습에서 지도학습의 알고리즘

- 분류 또는 회귀 분석의 목적

- 분류와 예측을 수행

- 목표변수 유형에 따른 의사결정 트리

- 범주형 목표변수 : 분류 트리

- 목표변수가 이산형인 경우, 범주에 속하는 빈도에 기초해서 분리가 발생..-> 분류 트리

- 연속형 목표변수 : 회귀 트리

- 목표변수가 연속형인 경우, 평균과 표준편차에 기초해 분리 발생 ..-> 회귀 트리

Decision Tree 분리 기준

- 부모 노드로부터 자식노드들이 형성될 때 생성된 자식노드에 속하는 자료의 순수도가 가장 크게 증가하도록 트리를 형성

- 입력 변수를 이용해 목표변수의 분포를 얼마나 잘 구별하는 정도를 파악해 자식 마디가 형성되는데, 목표변수의 구별 정도를 불순도( 다양한 범주들의 개체들이 포함되어 있는 정도)에 의해 측정

- 지니 지수

-데이터 집합의 불순도를 측정

- 0~1 사이의 값

- 어떤 데이터 집합에 속한 개체(레코드)들이 같은 범주(클래스)로 구성되어 있으면 지니 지수는 최솟값 0을 가짐. 해당 데이터 집합은 순수하다고 봄.

- 지니 지수가 작을수록 잘 분류가 됨.

- 엔트로피 지수

- 엔트로피 : 주어진 데이터 집합의 혼잡도

- 주어진 데이터집합에 서로 다른 범주(클래스)의 개체(레코드)들이 많이 섞여있으면 엔트로피가 높음.

- 0~1 사이의 값

- 가장 혼잡도가 높은 상태(서로 다른 범주의 개체들이 섞여 있는 상태)는 1

- 정보 이득

- 상위 노드의 엔트로피 지수에서 하위 노드의 가중평균한 엔트로피 지수를 뺀 것

* 지니 지수 계산 식

1-범주별 j번째 범주에 분류될 확률의 합

'빅데이터 > 파이썬' 카테고리의 다른 글

mymodule 추가 및 총점이 가장 큰 학생은?교수님 코드 (0)	2017.07.06
mymodule.py (0)	2017.07.06
[파일입출력]총점이 가장 큰 학생의 학번은? (0)	2017.07.06
리스트 슬라이싱, set (0)	2017.07.05
달력 함수 및 호출 (0)	2017.07.05

공유하기 링크

페이스북
카카오스토리
트위터

'빅데이터/파이썬' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

yekang

yekang

의사결정 트리 개념 본문

의사결정 트리 개념

'빅데이터 > 파이썬' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역