본문 바로가기
  • Let's go grab a data
Data/Statistics

[통계학 기초] 분산분석(Analysis of Variance; ANOVA)

by pub-lican-ai 2020. 8. 24.
반응형

[통계학 기초] 분산분석(Analysis of Variance; ANOVA)

분산분석 : 연속형 자료에 대한 2개 이상의 그룹간의 평균 차이 검정

용어 : 요인(factor) - 모집단(그룹)의 구분 기준 예) 색깔

         처리(treatment, levels) - 요인을 구성하는 각 모집단(그룹), 예) 빨, 노, 파

방법 : 총 변동(SST) = 오차에 의한 변동(SSE, 그룹내 변동) + 요인에 의한 변동 (SSTR, 그룹간 변동)

         평균제곱은 각 제곱합들을 각각의 자유도로 나눈 값

         MSTR = SSTR/k-1  MSE = SSE/(nk-k)

검정통계량 :  F = MSTR / MSE

 

요인의 갯수에 따라 일원분산분석(one-way ANOVA), 이원분산분석(two-way ANOVA)등으로 구분

 

일원분산분석 (one-way ANOVA)

같은 요인 (디자인)의 다른 타입 3종류(A/B/C)의 성능

A   B  C

15  18  22

11  17  23

12  16  19

13  17  18

12  16  19

 

귀무가설 : 집단 간 평균의 차이가 없다.

대립가설 : 집단 간 평균의 차이가 존재한다. (해당 요인의 처리 효과가 있음)

 

R 코드 예시

> y1 <- c(15,11,12,13,12)

> y2 <- c(18,17,16,17,16)

> y3 <- c(22,23,19,18,19)

> y <- c(y1,y2,y3)

> group <- rep(c("A","B","C"), each=5)

> group_df <- data.frame(y, group)

> boxplot(y~group)

> summary(aov(y~group, data = group_df))

F value : 28.23  p-value : 2.9e-05  ***

p-value가 1%의 유의수준보다 작음

따라서 귀무가설을 기각하고 대립가설을 채택하여

위 요인(디자인)의 처리(A/B/C)는 유의미한 차이를 만들어 냄.

 

출처: https://howecoresearch.blogspot.com/2019/01/using-analysis-of-variance-anova-in.html

반응형