'데이터 분석을 위한 통계 & R 언어' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

fati
jenn

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 분석을 위한 통계 & R 언어 (10)

Leta Learns

R 데이터 개수 확인하는 함수

R 데이터 수 확인하는 함수 length(): 길이 반환 dim(): 차원 반환 nrow(): 행의 수 반환 ncol(): 열의 수 반환 행렬 만들기 dim(iris)[1] #number of row dim(iris)[2] #number of column

데이터 분석을 위한 통계 & R 언어 2021. 11. 19. 17:27

서포트 벡터 머신 Support Vector Machines

서포트 벡터 머신 : 서로 다른 분류에 속한 데이터 간에 간격이 최대가 되는 선 혹은 초평면을 찾아 이를 기준으로 데이터를 분류하는 모델 svm 변수명

데이터 분석을 위한 통계 & R 언어 2021. 11. 18. 23:13

결정 트리. 의사 결정 나무.

결정 트리. 의사 결정 나무 : 예/아니오 질문을 이어나가면서 학습하는 모델. (like 스무고개) 여러가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형. 여러가지 독립 변수들 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값을 정한다. 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드1)과 기준값보다 큰 데이터 그룹(자식 노드2)로 나눈다. 2번 단계를 반복하여 계속 하위의 자식 노드를 만든다. 자식 노드에 한 가지 클래스의 데이터만 존재하게 될 때 더 이상 자식 노드를 나누지 않고 중지하여 결과를 도출. 불순도 label이 여러가지면 불순도 높아짐. label이 적을수록 불순도 낮아짐. 의사결정나무 장단점 : 만들어진 ..

데이터 분석을 위한 통계 & R 언어 2021. 11. 18. 22:41

앙상블 기법 (Ensemble)

앙상블 : 여러 개의 알고리즘을 사용하여, 그 예측을 결합 => 보다 정확한 예측을 도출하는 기법 ex) 배깅(Bagging), 부스팅(Boosting) 배깅 Bagging. Bootstrap Aggregating : 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifier)를 생성한 후 그 결과를 앙상블 하는 방법. 반복추출방법 사용 -> 같은 데이터가 한 표본에 여러 번 추출될 수도. 어떤 데이터는 추출되지 않을 수도. 모집단이 작을 때 사용. mfinal = 반복수 or 트리의 수 (default = 100) 부스팅 Boosting. : 배깅 과정과 유사. 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일..

데이터 분석을 위한 통계 & R 언어 2021. 11. 18. 21:36

나이브 베이즈 분류기

나이브 베이즈 분류기 : 베이즈 정리를 이용해 만든 확률 분류기 베이즈 정리 P(H): 사전 확률(prior) P(H|E): 사후 확률(posterior) 베이즈 정리: 사전확률과 사후확률 사이의 관계를 나타내는 정리. H: Hypothesis (가설) E: Evidence (새로운 정보) table() : 빈도 수 구하기

데이터 분석을 위한 통계 & R 언어 2021. 11. 18. 20:49

정규화 회귀 / 단순 선형 회귀 헷갈린 부분 정리

정규화 회귀 (Regularized regression) : 선형 회귀 계수에 대한 제약 조건을 추가함으로써 과적합 현상을 막는 방법. 정규화 : 벡터의 크기를 최소화하는 것. (놈의 크기를 최소화 하는 것) ex) 랏소(Lasso), 릿지(Ridge) 회귀모형 벡터의 크기: 놈(norm) 컴퓨터는 직접 계산 못하고 벡터로 연산. (행렬 형태로 바꿔서 처리함) 과적합 : 기계학습에서 학습데이터를 과도하게 학습한 것. Lasso 회귀모형 : 가중치의 절대값의 합을 최소화. Ridge 회귀모형 : 가중치들의 제곱합을 최소화. 단순선형회귀 헷갈린 부분 정리 등분산, 이분산 귀무가설: 기울기 0 귀무가설을 기각할 수 있어야 해당 모형이 의미 있는 모형이라고 할 수 있다. 잔차진단 (plot 함수 사용) 1) 모..

데이터 분석을 위한 통계 & R 언어 2021. 11. 6. 00:10

로그선형 회귀, 국지가중 회귀

로그선형 회귀 Log-linear models 로그 처리를 원하는 변수에 log() 함수를 씌워준다. 데이터가 간단한 선형이 아니라 촘촘하게 붙어있는 경우. x축의 독립변수가 증가할 때 종속변수의 증가량이 작은 수치로 변하는 경우. => 로그를 취하면 보기 수월해짐. 국지가중회귀 Locally Weighted Regression 특정 데이터만 이용 ex) lm.autos4

데이터 분석을 위한 통계 & R 언어 2021. 11. 5. 01:04

다항회귀분석

다항회귀분석 Polynomial Regression Rstudio 실습 선형모형 #abline() : R 그래프에 직선 추가. 다항모형 #lines(women$height, fitted(lm.women2)) 다항함수 그림 그리는 건 이 함수를 잘 이용하면 된다. 선형모형과 다항모형 비교 => lm.women2 AIC 모델 값이 더 좋다. => 직선 모델보다는 곡선 모델이 더 설명을 잘한다. y = a + bx lm(y변수 ~ x변수, data = data_frame) lm(y변수 ~ (I*x변수^2), data = data_frame) lm(y변수 ~ (I*x변수^2) + (I*x변수^3), data = data_frame) 이런 식으로 증가. 4차 함수까지도 가능. 5차 함수부터는 안 된대.

데이터 분석을 위한 통계 & R 언어 2021. 11. 5. 01:03

다중회귀분석

다중회귀분석 : 종속변수 1개에 독립변수 2개 이상인 경우 사용 Linear model 함수를 돌리고 summary 함수를 돌렸을 때 coefficient 옆에 별표가 나온다. 별표 개수 多 => 해당 독립변수는 모형에 영향력이 있다. => p-value 값이 0.05보다 작다. 0 ~ 0.001 별 3개. 0.001 ~ 0.01 별 2개 0.01 ~ 0.05 별 1개 별이 없으면 irrelevant variable (모델에 큰 영향 x) Adjusted R-squared (수정 결정계수): 독립 변수 개수가 늘어나면 R-squared 값도 같이 증가. AIC : Akaike Information Criterion 다중공선성 회귀분석 시 기본 전제: 독립변수 간에는 서로 영향을 미치지 않는다. But, ..

데이터 분석을 위한 통계 & R 언어 2021. 11. 5. 01:03

BLUE 가정

BLUE (Best Linear Unbiased Estimators) 선형성을 띤다. 오차의 기대값은 0이다. 등분산성을 띤다. 오차항의 자기상관은 없다. 독립변수는 확률적으로 움직이지 않는다. BLUE 가정을 했을 때, OLS 방법을 쓴다. (최소자승법. 최소제곱법)

데이터 분석을 위한 통계 & R 언어 2021. 11. 5. 01:02

Prev 1 Next

목록데이터 분석을 위한 통계 & R 언어 (10)

Leta Learns

티스토리툴바