[통계학 기초] 분산분석(Analysis of Variance; ANOVA)
분산분석 : 연속형 자료에 대한 2개 이상의 그룹간의 평균 차이 검정
용어 : 요인(factor) - 모집단(그룹)의 구분 기준 예) 색깔
처리(treatment, levels) - 요인을 구성하는 각 모집단(그룹), 예) 빨, 노, 파
방법 : 총 변동(SST) = 오차에 의한 변동(SSE, 그룹내 변동) + 요인에 의한 변동 (SSTR, 그룹간 변동)
평균제곱은 각 제곱합들을 각각의 자유도로 나눈 값
MSTR = SSTR/k-1 MSE = SSE/(nk-k)
검정통계량 : F = MSTR / MSE
요인의 갯수에 따라 일원분산분석(one-way ANOVA), 이원분산분석(two-way ANOVA)등으로 구분
일원분산분석 (one-way ANOVA)
같은 요인 (디자인)의 다른 타입 3종류(A/B/C)의 성능
A B C
15 18 22
11 17 23
12 16 19
13 17 18
12 16 19
귀무가설 : 집단 간 평균의 차이가 없다.
대립가설 : 집단 간 평균의 차이가 존재한다. (해당 요인의 처리 효과가 있음)
R 코드 예시
> y1 <- c(15,11,12,13,12)
> y2 <- c(18,17,16,17,16)
> y3 <- c(22,23,19,18,19)
> y <- c(y1,y2,y3)
> group <- rep(c("A","B","C"), each=5)
> group_df <- data.frame(y, group)
> boxplot(y~group)
> summary(aov(y~group, data = group_df))
F value : 28.23 p-value : 2.9e-05 ***
p-value가 1%의 유의수준보다 작음
따라서 귀무가설을 기각하고 대립가설을 채택하여
위 요인(디자인)의 처리(A/B/C)는 유의미한 차이를 만들어 냄.
'Data > Statistics' 카테고리의 다른 글
[통계학 기초] 다중선형 회귀 모형 (0) | 2020.08.26 |
---|---|
[통계학 기초] 선형회귀모형 Linear regression model (0) | 2020.08.24 |
[통계학 기초] 범주형 자료분석(Categorical Data Analysis) (0) | 2020.08.23 |
EDA(Exploratory Data Analysis) - 이산형(범주형) 변수 (0) | 2019.07.23 |
[통계학 Talk]공분산Covariance과 상관계수Correlation (2) | 2017.06.13 |