본문 바로가기
  • Let's go grab a data
Data/Statistics

[통계학 기초] 다중선형 회귀 모형

by pub-lican-ai 2020. 8. 26.
반응형

다중선형 회귀모형 : Y = a + bx1 + cx2 + ...  형태의 다차원 직선

회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정

 

회귀 모형의 유의성 검정 :

  1) 각 독립 변수의 유의성 검정 : T검정

귀무가설 : b는 0이다

대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다)

 

  2) 모델의 전반적인 유의성 검정은 F검정

귀무가설 : b는 모두 0이다

대립가설 : b는 모두 0이 아니다

 


결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값

1에 가까울 수록 완벽하게 설명

 

다중선형회귀모형에서는 독립변수의 수가 많을 수록 R제곱값이 언제나 증가함

 - Y를 X1으로만 설명하는 모형 

 - Y를 X1, X2으로 설명하는 모형

두 모형중 어느 것이 더 적합도가 높은지 판단 시 R제곱값은 그 기준이 될 수 없음. 

 

수정된 R제곱(Adjusted R)을 이용해 여러 후보 모형간 적합도를 비교하는 지표로 활용

 : 모형에 새로운 독립변수를 추가했을 때 그 독립변수가 종속변수를 설명하는데 기여하는 바가 큰 경우에 감소, 반대 경우 증가하게 됨

 

추정된 회귀 모형에 대해 분석 과정

  - 개별 독립변수 별 유의성 평가 : 개별 t 검정

  - 모형의 전반적 유의성 평가 : 전체 F 검정

  - 모형 설명력 지표 : Adjusted R제곱

  - 잔차분석 통한 모형 가정에 대한 적정성 평가 : 정규성, 등분산성, 독립성

 

다중 공선성 multicolinearity

 : 독립변수간에 아무런 관계가 없어야 이상적 

   독립변수간에 강한 선형관계가 존재하는 경우 회귀계수에 부정적인 영향을 미침 (p-value가 커지는 경향)

 

다중공선성 진단 방법

 산점도 행렬 도출

 상관 행렬 도출

 VIF 분산팽창지수 variance inflation factor 도출

R 코드 예시 (이해를 돕기위한 코드입니다. 데이터 없음)

> cor (house)  - 상관 행렬 도출, 상관관계가 높은 독립변수들을 확인한다

> house.fit <- lm ( price ~ bedrooms + hsize + lotsize , data = house)

> library(car)

> vif(house.fit)

  bedrooms    hsize      lotsize

  3.539           83.066  78.84

vif값이 10이 넘어가면 다중공선성 유발

hsize와 lotsize중 각각 제외된 모형을 분석해보고 더 설명력이 높은 독립변수로 선택

 

아래 이미지는 다중선형회귀 R 결과 예시

출처: https://freshrimpsushi.tistory.com/670

반응형