데이터 분석을 위한 통계 & R 언어
결정 트리. 의사 결정 나무.
leta
2021. 11. 18. 22:41
결정 트리. 의사 결정 나무
: 예/아니오 질문을 이어나가면서 학습하는 모델. (like 스무고개)
여러가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형.
- 여러가지 독립 변수들 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값을 정한다.
- 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드1)과 기준값보다 큰 데이터 그룹(자식 노드2)로 나눈다.
- 2번 단계를 반복하여 계속 하위의 자식 노드를 만든다.
- 자식 노드에 한 가지 클래스의 데이터만 존재하게 될 때 더 이상 자식 노드를 나누지 않고 중지하여 결과를 도출.
불순도
label이 여러가지면 불순도 높아짐.
label이 적을수록 불순도 낮아짐.

의사결정나무 장단점
: 만들어진 모델을 쉽게 시각화할 수 있어서 비전문가도 이해하기 쉬움.
데이터의 정규화나 표준화 같은 전처리 과정 불필요.
과대적합 경향이 있어 일반화 성능이 좋지 않음.