앙상블 기법 (Ensemble)

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

Leta Learns

데이터 분석을 위한 통계 & R 언어

leta 2021. 11. 18. 21:36

앙상블

: 여러 개의 알고리즘을 사용하여, 그 예측을 결합 => 보다 정확한 예측을 도출하는 기법

ex) 배깅(Bagging), 부스팅(Boosting)

배깅 Bagging. Bootstrap Aggregating

: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifier)를 생성한 후 그 결과를 앙상블 하는 방법.

반복추출방법 사용 -> 같은 데이터가 한 표본에 여러 번 추출될 수도. 어떤 데이터는 추출되지 않을 수도.

모집단이 작을 때 사용.

mfinal = 반복수 or 트리의 수 (default = 100)

부스팅 Boosting.

: 배깅 과정과 유사. 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출.

부트스트랩 표본을 추출하여 분류기를 만든 후, 그 분류 결과를 이용하여 각 데이터가 추출될 확률을 조정한 후, 다음 부트스트랩 표본을 추출하는 과정을 반복한다.

ex) AdaBoosting: adaptive boosting

정신 놓고 실습한 듯 오타가 많네.. ㅋㅋ

랜덤 포레스트 Random Forests

: 앙상블 학습 기법을 사용한 모델. 랜덤 포레스트는 두 가지 방법을 사용해 다양한 의사 결정 나무를 만든다.

새로운 데이터에 대한 예측을 수행할 때는 여러 개의 의사 결정 나무가 내놓은 예측 결과를 투표 방식으로 합함.

랜덤 포레스트는 일반적으로 성능이 뛰어남. 여러 개의 의사 결정 나무를 사용하므로 과적합 문제를 피한다.

no: nativeSpeaker 아님

yes: nativeSpeaker

분류된 label 많을수록 불순도 증가.

적을수록 불순도 감소.

서포트 벡터 머신 Support Vector Machines (0)	2021.11.18
결정 트리. 의사 결정 나무. (0)	2021.11.18
나이브 베이즈 분류기 (0)	2021.11.18
정규화 회귀 / 단순 선형 회귀 헷갈린 부분 정리 (0)	2021.11.06
로그선형 회귀, 국지가중 회귀 (0)	2021.11.05

'데이터 분석을 위한 통계 & R 언어' Related Articles

Comments