본문 바로가기
  • Let's go grab a data
Data/Statistics

[통계학 기초] 범주형 자료분석(Categorical Data Analysis)

by pub-lican-ai 2020. 8. 23.
반응형

카이제곱 검정 (Chi-Squared Test)

 1. 적합도 검정 : 하나의 범주형 변수에 대해 관측값들이 어떤 분포를 띄는지 검정

2. 독립성 검정 : 서로 다른 두 범주형 변수 간에 연관성이 있는지 검정

 

1. 카이제곱 적합도(goodness-of-fit) 검정

 각 범주별 빈도와 기대빈도가 얼마나 유사한가

 

A사 시장 점유율 60% B사 20% C사 20%

400명 대상 설문조사로 200, 100, 100 명 대답

유의 수준 5%

귀무가설 : 각 범주별로 주어진 확률은 사실이다.

대립가설 : 각 범주별로 주어진 확률 중 하나 이상은 사실이 아니다.

 

R 함수 예시 (데이터를 보기좋게 바꾸어서 실제와 값이 다를 수 있음)

> obs <- c(60,20,20)

> ms <- c(200,100,100)

> chisq.test(obs, p = ms)

X-squared = 4.791, df = 3, p-value = 0.1877

으로 유의수준 0.05보다 크기 때문에 귀무가설 채택

 

2. 카이제곱 독립성(Independence) 검정

결함 유형 구분   생산라인1   생산라인2  생산라인3

상판                   11              25             27

다리                   15              31              28

서랍                   44             24              52

도색                   10              17              16

주장 : 책상이 어떤 '생산라인'을 통해 생산 되었는지가 '결함 유형'에 영향을 미칠 것

귀무가설 : 두 범주형 변수는 서로 독립적이다 (관계가 없다)

대립가설 : 두 범주형 변수는 독립적인 관계가 아니다 (관계가 있다)

 

R함수 예시

>chisq.test(def.table)

x-squared = 17.847, df = 6, p-value = 0.006625

으로 유의수준 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택 

 

이미지 출처 : https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EB%B6%84%ED%8F%AC

반응형