Leta Learns

앙상블 기법 (Ensemble) 본문

데이터 분석을 위한 통계 & R 언어

앙상블 기법 (Ensemble)

leta 2021. 11. 18. 21:36

앙상블

: 여러 개의 알고리즘을 사용하여, 그 예측을 결합 => 보다 정확한 예측을 도출하는 기법

  ex) 배깅(Bagging), 부스팅(Boosting)

 


 

배깅 Bagging. Bootstrap Aggregating

: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifier)를 생성한 후 그 결과를 앙상블 하는 방법.

  반복추출방법 사용 -> 같은 데이터가 한 표본에 여러 번 추출될 수도. 어떤 데이터는 추출되지 않을 수도.

  모집단이 작을 때 사용.

 

 

mfinal = 반복수 or 트리의 수 (default = 100)

 


 

 

부스팅 Boosting.

: 배깅 과정과 유사. 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출.

 부트스트랩 표본을 추출하여 분류기를 만든 후, 그 분류 결과를 이용하여 각 데이터가 추출될 확률을 조정한 후, 다음 부트스트랩 표본을 추출하는 과정을 반복한다.

 ex) AdaBoosting: adaptive boosting

 

 

정신 놓고 실습한 듯 오타가 많네.. ㅋㅋ

 


 

 

랜덤 포레스트 Random Forests

: 앙상블 학습 기법을 사용한 모델. 랜덤 포레스트는 두 가지 방법을 사용해 다양한 의사 결정 나무를 만든다.

  1. 의사 결정 나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 의사 결정 나무를 만드는 방식.
  2. 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 전체 변수가 아니라 일부 변수만을 대상으로 하여 가지를 나눌 기준을 찾는 방법.

  새로운 데이터에 대한 예측을 수행할 때는 여러 개의 의사 결정 나무가 내놓은 예측 결과를 투표 방식으로 합함.

  랜덤 포레스트는 일반적으로 성능이 뛰어남. 여러 개의 의사 결정 나무를 사용하므로 과적합 문제를 피한다.

 

 

 

 

no: nativeSpeaker 아님

yes: nativeSpeaker

 

 

 

 

 


 

분류된 label 많을수록 불순도 증가.

적을수록 불순도 감소.

 

 

Comments