다중선형 회귀모형 : Y = a + bx1 + cx2 + ... 형태의 다차원 직선
회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정
회귀 모형의 유의성 검정 :
1) 각 독립 변수의 유의성 검정 : T검정
귀무가설 : b는 0이다
대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다)
2) 모델의 전반적인 유의성 검정은 F검정
귀무가설 : b는 모두 0이다
대립가설 : b는 모두 0이 아니다
결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값
1에 가까울 수록 완벽하게 설명
다중선형회귀모형에서는 독립변수의 수가 많을 수록 R제곱값이 언제나 증가함
- Y를 X1으로만 설명하는 모형
- Y를 X1, X2으로 설명하는 모형
두 모형중 어느 것이 더 적합도가 높은지 판단 시 R제곱값은 그 기준이 될 수 없음.
수정된 R제곱(Adjusted R)을 이용해 여러 후보 모형간 적합도를 비교하는 지표로 활용
: 모형에 새로운 독립변수를 추가했을 때 그 독립변수가 종속변수를 설명하는데 기여하는 바가 큰 경우에 감소, 반대 경우 증가하게 됨
추정된 회귀 모형에 대해 분석 과정
- 개별 독립변수 별 유의성 평가 : 개별 t 검정
- 모형의 전반적 유의성 평가 : 전체 F 검정
- 모형 설명력 지표 : Adjusted R제곱
- 잔차분석 통한 모형 가정에 대한 적정성 평가 : 정규성, 등분산성, 독립성
다중 공선성 multicolinearity
: 독립변수간에 아무런 관계가 없어야 이상적
독립변수간에 강한 선형관계가 존재하는 경우 회귀계수에 부정적인 영향을 미침 (p-value가 커지는 경향)
다중공선성 진단 방법
산점도 행렬 도출
상관 행렬 도출
VIF 분산팽창지수 variance inflation factor 도출
R 코드 예시 (이해를 돕기위한 코드입니다. 데이터 없음)
> cor (house) - 상관 행렬 도출, 상관관계가 높은 독립변수들을 확인한다
> house.fit <- lm ( price ~ bedrooms + hsize + lotsize , data = house)
> library(car)
> vif(house.fit)
bedrooms hsize lotsize
3.539 83.066 78.84
vif값이 10이 넘어가면 다중공선성 유발
hsize와 lotsize중 각각 제외된 모형을 분석해보고 더 설명력이 높은 독립변수로 선택
아래 이미지는 다중선형회귀 R 결과 예시
'Data > Statistics' 카테고리의 다른 글
[통계학 기초] 선형회귀모형 Linear regression model (0) | 2020.08.24 |
---|---|
[통계학 기초] 분산분석(Analysis of Variance; ANOVA) (0) | 2020.08.24 |
[통계학 기초] 범주형 자료분석(Categorical Data Analysis) (0) | 2020.08.23 |
EDA(Exploratory Data Analysis) - 이산형(범주형) 변수 (0) | 2019.07.23 |
[통계학 Talk]공분산Covariance과 상관계수Correlation (2) | 2017.06.13 |