일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- MyPlaylist
- 모각코
- Bellman-Ford
- 최소스패닝트리
- 백준
- codetree
- 프로그래머스
- minimum spanning tree
- 소프트웨어공학
- 데이터베이스
- DP
- 동적계획법
- BFS
- 그리디알고리즘
- 실습
- 종합설계
- SQL
- django
- 코드트리
- Planned
- 마라마라빔
- 함밥
- 알고리즘
- DFS
- B대면노래방
- Kruskal
- programmers
- 백트래킹
- 장고
- Today
- Total
Leta Learns
다중회귀분석 본문
다중회귀분석
: 종속변수 1개에 독립변수 2개 이상인 경우 사용
Linear model 함수를 돌리고 summary 함수를 돌렸을 때 coefficient 옆에 별표가 나온다.
별표 개수 多 => 해당 독립변수는 모형에 영향력이 있다. => p-value 값이 0.05보다 작다.
0 ~ 0.001 별 3개.
0.001 ~ 0.01 별 2개
0.01 ~ 0.05 별 1개
별이 없으면 irrelevant variable (모델에 큰 영향 x)
Adjusted R-squared (수정 결정계수): 독립 변수 개수가 늘어나면 R-squared 값도 같이 증가.
AIC : Akaike Information Criterion
다중공선성
회귀분석 시 기본 전제: 독립변수 간에는 서로 영향을 미치지 않는다.
But, 독립변수끼리 영향 미치는 경우가 있다. 이 경우 다중공선성 사용.
다중공선성을 측정하는 지표: 분산팽창지수(VIF. Variance Inflation Factor)
VIF가 1에 가까울 수록 다중공선성이 없는 것. (R 스퀘어 값이 작아야 함)
10을 넘는다면 다중공선성의 문제가 있는 것. (이라고 판단)
*다중 공선성이 있으면 그 변수를 제거.. 하는 듯.
R studio 실습
CAR 패키지 (classfication and regression) 사용
교육이 사람의 품격을 높이느냐, 돈이 사람의 품격을 높이느냐. (독립변수: income, education. 종속변수: prestige)
교육 숫자가 작을 수록 공선성이 작다는 뜻.
교육 부분은 영향을 받는다.
vif값은 모두 10이 넘지 않으므로 다중 공선성은 없는 것으로 판단.
다중 회귀에서 설명 변수 선택
Backward: 독립변수를 전부 사용하여 회귀분석. 그 후 설명력이 가장 적게 줄어드는 독립변수를 하나씩 제거한다.
변수를 하나 뺀 설명력과 빼지 않은 설명력의 차이가 큰 경우 중단.
Forward: 변수를 하나씩 추가하면서 설명력을 비교한다.
Stepwise: Backward와 Forward의 단점 보완한 방법.
한 번 선택되었던 변수를 이후 단계에서도 원할 때 또 제거가 가능하도록 매 단계마다 체크할 수 있도록 설정.
(Backward, Forward는 한 번 선택된 변수는 이후 단계에서 따로 제거할 수 없음)
디폴트는 Backward 방법. (가장 자주 쓰임)
R studio로 Backward 실습
AIC 값
hp - 63.198
cyl - 63.840
wt - 76.750
아무 변수도 빠지지 않은 경우(none)에서
AIC 값 비교
=> wt 변수가 이 모델에서 빠지면 AIC 값이 76.750으로 가장 높게 나옴
=> wt 변수가 이 모델에서 상대적으로 가장 중요한 변수
=> 비교를 해보고 AIC 함수 값이 크게 변하는 부분은 주의해서 봐야한다.
다중선형모형의 쟁점
BLUE(Best Linear Unbiased Estimators)를 가정.
독립변수를 전부 넣었는데 어떤 특정 변수에 문제가 생기면 그걸 제거해야 함.
step() 함수
step() 함수 안에 direction= 옵션을 넣어서 backward, forward, stepwise 중 적절한 것으로 적용 가능.
ex) step(선형회귀변수명, direction = "backward")
'데이터 분석을 위한 통계 & R 언어' 카테고리의 다른 글
나이브 베이즈 분류기 (0) | 2021.11.18 |
---|---|
정규화 회귀 / 단순 선형 회귀 헷갈린 부분 정리 (0) | 2021.11.06 |
로그선형 회귀, 국지가중 회귀 (0) | 2021.11.05 |
다항회귀분석 (0) | 2021.11.05 |
BLUE 가정 (0) | 2021.11.05 |