일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- BFS
- SQL
- Bellman-Ford
- 실습
- B대면노래방
- 백트래킹
- 소프트웨어공학
- 백준
- MyPlaylist
- django
- Kruskal
- 마라마라빔
- Planned
- programmers
- 함밥
- DFS
- 그리디알고리즘
- 프로그래머스
- 종합설계
- DP
- minimum spanning tree
- 코드트리
- 장고
- codetree
- 알고리즘
- 파이썬
- 데이터베이스
- 최소스패닝트리
- 동적계획법
- 모각코
- Today
- Total
Leta Learns
앙상블 기법 (Ensemble) 본문
앙상블
: 여러 개의 알고리즘을 사용하여, 그 예측을 결합 => 보다 정확한 예측을 도출하는 기법
ex) 배깅(Bagging), 부스팅(Boosting)
배깅 Bagging. Bootstrap Aggregating
: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifier)를 생성한 후 그 결과를 앙상블 하는 방법.
반복추출방법 사용 -> 같은 데이터가 한 표본에 여러 번 추출될 수도. 어떤 데이터는 추출되지 않을 수도.
모집단이 작을 때 사용.
mfinal = 반복수 or 트리의 수 (default = 100)
부스팅 Boosting.
: 배깅 과정과 유사. 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출.
부트스트랩 표본을 추출하여 분류기를 만든 후, 그 분류 결과를 이용하여 각 데이터가 추출될 확률을 조정한 후, 다음 부트스트랩 표본을 추출하는 과정을 반복한다.
ex) AdaBoosting: adaptive boosting
랜덤 포레스트 Random Forests
: 앙상블 학습 기법을 사용한 모델. 랜덤 포레스트는 두 가지 방법을 사용해 다양한 의사 결정 나무를 만든다.
- 의사 결정 나무를 만들 때 데이터의 일부를 복원 추출로 꺼내고 해당 데이터에 대해서만 의사 결정 나무를 만드는 방식.
- 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 전체 변수가 아니라 일부 변수만을 대상으로 하여 가지를 나눌 기준을 찾는 방법.
새로운 데이터에 대한 예측을 수행할 때는 여러 개의 의사 결정 나무가 내놓은 예측 결과를 투표 방식으로 합함.
랜덤 포레스트는 일반적으로 성능이 뛰어남. 여러 개의 의사 결정 나무를 사용하므로 과적합 문제를 피한다.
no: nativeSpeaker 아님
yes: nativeSpeaker
분류된 label 많을수록 불순도 증가.
적을수록 불순도 감소.
'데이터 분석을 위한 통계 & R 언어' 카테고리의 다른 글
서포트 벡터 머신 Support Vector Machines (0) | 2021.11.18 |
---|---|
결정 트리. 의사 결정 나무. (0) | 2021.11.18 |
나이브 베이즈 분류기 (0) | 2021.11.18 |
정규화 회귀 / 단순 선형 회귀 헷갈린 부분 정리 (0) | 2021.11.06 |
로그선형 회귀, 국지가중 회귀 (0) | 2021.11.05 |