일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 프로그래머스
- 최소스패닝트리
- 그리디알고리즘
- codetree
- 소프트웨어공학
- Planned
- 실습
- minimum spanning tree
- DFS
- 함밥
- 장고
- Kruskal
- DP
- 모각코
- BFS
- MyPlaylist
- 데이터베이스
- 백준
- Bellman-Ford
- 알고리즘
- 마라마라빔
- 코드트리
- B대면노래방
- programmers
- 동적계획법
- django
- 백트래킹
- SQL
- 종합설계
- 파이썬
- Today
- Total
목록데이터 분석을 위한 통계 & R 언어 (10)
Leta Learns
R 데이터 수 확인하는 함수 length(): 길이 반환 dim(): 차원 반환 nrow(): 행의 수 반환 ncol(): 열의 수 반환 행렬 만들기 dim(iris)[1] #number of row dim(iris)[2] #number of column
서포트 벡터 머신 : 서로 다른 분류에 속한 데이터 간에 간격이 최대가 되는 선 혹은 초평면을 찾아 이를 기준으로 데이터를 분류하는 모델 svm 변수명
결정 트리. 의사 결정 나무 : 예/아니오 질문을 이어나가면서 학습하는 모델. (like 스무고개) 여러가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형. 여러가지 독립 변수들 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값을 정한다. 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드1)과 기준값보다 큰 데이터 그룹(자식 노드2)로 나눈다. 2번 단계를 반복하여 계속 하위의 자식 노드를 만든다. 자식 노드에 한 가지 클래스의 데이터만 존재하게 될 때 더 이상 자식 노드를 나누지 않고 중지하여 결과를 도출. 불순도 label이 여러가지면 불순도 높아짐. label이 적을수록 불순도 낮아짐. 의사결정나무 장단점 : 만들어진 ..
앙상블 : 여러 개의 알고리즘을 사용하여, 그 예측을 결합 => 보다 정확한 예측을 도출하는 기법 ex) 배깅(Bagging), 부스팅(Boosting) 배깅 Bagging. Bootstrap Aggregating : 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifier)를 생성한 후 그 결과를 앙상블 하는 방법. 반복추출방법 사용 -> 같은 데이터가 한 표본에 여러 번 추출될 수도. 어떤 데이터는 추출되지 않을 수도. 모집단이 작을 때 사용. mfinal = 반복수 or 트리의 수 (default = 100) 부스팅 Boosting. : 배깅 과정과 유사. 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일..
나이브 베이즈 분류기 : 베이즈 정리를 이용해 만든 확률 분류기 베이즈 정리 P(H): 사전 확률(prior) P(H|E): 사후 확률(posterior) 베이즈 정리: 사전확률과 사후확률 사이의 관계를 나타내는 정리. H: Hypothesis (가설) E: Evidence (새로운 정보) table() : 빈도 수 구하기
정규화 회귀 (Regularized regression) : 선형 회귀 계수에 대한 제약 조건을 추가함으로써 과적합 현상을 막는 방법. 정규화 : 벡터의 크기를 최소화하는 것. (놈의 크기를 최소화 하는 것) ex) 랏소(Lasso), 릿지(Ridge) 회귀모형 벡터의 크기: 놈(norm) 컴퓨터는 직접 계산 못하고 벡터로 연산. (행렬 형태로 바꿔서 처리함) 과적합 : 기계학습에서 학습데이터를 과도하게 학습한 것. Lasso 회귀모형 : 가중치의 절대값의 합을 최소화. Ridge 회귀모형 : 가중치들의 제곱합을 최소화. 단순선형회귀 헷갈린 부분 정리 등분산, 이분산 귀무가설: 기울기 0 귀무가설을 기각할 수 있어야 해당 모형이 의미 있는 모형이라고 할 수 있다. 잔차진단 (plot 함수 사용) 1) 모..
로그선형 회귀 Log-linear models 로그 처리를 원하는 변수에 log() 함수를 씌워준다. 데이터가 간단한 선형이 아니라 촘촘하게 붙어있는 경우. x축의 독립변수가 증가할 때 종속변수의 증가량이 작은 수치로 변하는 경우. => 로그를 취하면 보기 수월해짐. 국지가중회귀 Locally Weighted Regression 특정 데이터만 이용 ex) lm.autos4
다항회귀분석 Polynomial Regression Rstudio 실습 선형모형 #abline() : R 그래프에 직선 추가. 다항모형 #lines(women$height, fitted(lm.women2)) 다항함수 그림 그리는 건 이 함수를 잘 이용하면 된다. 선형모형과 다항모형 비교 => lm.women2 AIC 모델 값이 더 좋다. => 직선 모델보다는 곡선 모델이 더 설명을 잘한다. y = a + bx lm(y변수 ~ x변수, data = data_frame) lm(y변수 ~ (I*x변수^2), data = data_frame) lm(y변수 ~ (I*x변수^2) + (I*x변수^3), data = data_frame) 이런 식으로 증가. 4차 함수까지도 가능. 5차 함수부터는 안 된대.
다중회귀분석 : 종속변수 1개에 독립변수 2개 이상인 경우 사용 Linear model 함수를 돌리고 summary 함수를 돌렸을 때 coefficient 옆에 별표가 나온다. 별표 개수 多 => 해당 독립변수는 모형에 영향력이 있다. => p-value 값이 0.05보다 작다. 0 ~ 0.001 별 3개. 0.001 ~ 0.01 별 2개 0.01 ~ 0.05 별 1개 별이 없으면 irrelevant variable (모델에 큰 영향 x) Adjusted R-squared (수정 결정계수): 독립 변수 개수가 늘어나면 R-squared 값도 같이 증가. AIC : Akaike Information Criterion 다중공선성 회귀분석 시 기본 전제: 독립변수 간에는 서로 영향을 미치지 않는다. But, ..