Leta Learns

결정 트리. 의사 결정 나무. 본문

데이터 분석을 위한 통계 & R 언어

결정 트리. 의사 결정 나무.

leta 2021. 11. 18. 22:41

결정 트리. 의사 결정 나무

: 예/아니오 질문을 이어나가면서 학습하는 모델. (like 스무고개)
여러가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형.

  1. 여러가지 독립 변수들 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값을 정한다.
  2. 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드1)과 기준값보다 큰 데이터 그룹(자식 노드2)로 나눈다.
  3. 2번 단계를 반복하여 계속 하위의 자식 노드를 만든다.
  4. 자식 노드에 한 가지 클래스의 데이터만 존재하게 될 때 더 이상 자식 노드를 나누지 않고 중지하여 결과를 도출.



불순도
label이 여러가지면 불순도 높아짐.
label이 적을수록 불순도 낮아짐.















의사결정나무 장단점
: 만들어진 모델을 쉽게 시각화할 수 있어서 비전문가도 이해하기 쉬움.
데이터의 정규화나 표준화 같은 전처리 과정 불필요.
과대적합 경향이 있어 일반화 성능이 좋지 않음.


Comments