[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 #귀무가설 #대립가설 #제 1종 오류 #유의 수준 #p-value #유의성 검정
통계적 검정 Hypothesis testing
227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이 있는지 없는지 알 고 싶다.
모평균 227g 표본평균 222g 표본 수n 4
가설 Hypothesis
가설 검정 Tests of statistical hypotheses
- 귀무가설/대립가설을 설정하고 얻어진 자료를 근거로 어느 가설이 더 타당한지 판단
유의성 검정 Tests of statistical significance
- 얻어진 자료보다 더 극단적인 자료가 얻어질 가능성을 계산하여, 이를 근거로 주어진 가설의 유효성Validity를 판단
귀무가설 Null hypothesis : 효과가 없다, 차이가 없다, 서로 다르지 않다
모평균이 227g 이다 (기계에 이상이 없다)
대립가설 Alternative hypothesis : 효과가 있다. 차이가 있다, 서로 다르다
모평균이 227g이 아니다 (기계에 이상이 있다)
예) 비타민 C가 감기예방에 효과가 있다
귀무가설: 효과가 없다
대립가설: 효과가 있다
비타민 C 먹은 집단 400명 감기 걸린 비율 78%
비타민 C 안먹은 집단 400명 감기 걸린 비율 82%
가능한 결론
1) 효과가 있다. 4%차이는 약효차이로 발생하는 당연한 결과이다. 귀무가설을 기각한다
2) 효과가 있다고 할수 없다. 4%차이는 우연히 발생한 결과이다.
4%이상의 약효차이가 날 가능성이 1%라면 4%는 유효하며 1번 결론을 내릴 수 있고
4%이상의 약효차이가 날 가능성이 35%라면 4%는 유효하지 않으며 2번 결론을 내릴 수 있다.
2 종류의 오류
- 제 1종 오류 type 1 error : 귀무가설 참 -> 귀무가설 기각, 대립가설 채택 하는 오류
- 제 2종 오류 type 2 error : 귀무가설 거짓 -> 귀무가설 채택 하는 오류
유의 수준 significance level : 제 1종 오류를 허용할 최대 확률(알파)
p-value : 귀무가설이 사실이라는 가정에서 현재와 같거나 더 극단적인 자료가 얻어질 확률
현재의 표본 결과를 가지고 귀무가설을 기각하는 결정을 하는 경우 저지르게 될 제 1종 오류의 최대 확률
p-value가 크다?
- 귀무가설이 참이라는 가정에서 너는 거짓으로 생각해서 귀무가설을 기각하는 오류를 낼 확률이 높다.
즉, 귀무가설이 참일 가능성이 높다
p-value가 작다?
- 귀무가설이 참이라는 가정에서 너는 거짓으로 생각해서 귀무가설을 기각하는 오류를 낼 확률이 낮다.
즉, 귀무가설이 거짓일 가능성이 높다
p-value가 크다 작다를 판단하는 기준은 유의수준(알파)을 이용
p-value > a 귀무가설을 채택한다
p-value < a 귀무가설을 기각한다
유의성 검정의 단계
1) 가설(귀무가설, 대립가설)을 세운다
2) 유의수준 a를 정한다
3) 검정통계량을 결정한다
4) 관측된 자료에 대한 p-value를 계산한다
5) p-value < a -> 귀무가설 기각
p-value > a -> 귀무가설 채택
양측검정
귀무 가설: 효과가 없다, 차이가 없다, 서로 다르지 않다
예) 227g으로 담는 기계는 이상이 없다
대립 가설: 효과가 있다. 차이가 있다, 서로 다르다
예) 227g으로 담지 못한다. 기계는 이상이 있다
단측 검정
귀무 가설 : 효과가 없다, 차이가 없다, 서로 다르지 않다
예) 227g으로 담는 기계는 이상이 없다
대립 가설 : 어느 쪽으로 효과가 있다. 어느 쪽으로 차이가 있다, 어느 쪽으로 서로 다르다
예) 227g 초과로 담는다 또는 227 미만으로 담는다. 즉 기계는 이상이 있는데 어느 방향으로 이상이 있다.
예시문제)
지지율이 50% 표본조사 10명시 지지하는 사람의 수 X
귀무 가설 : 지지율이 달라지지 않았다 P=0.5
대립 가설 : 지지율이 달라졌다 P!=0.5
검정 방법 X<=2 X>=8일때 귀무가설을 기각한다
즉, 3~7명이 지지하면 50%지지율이 유지되었다라고 판단하고
0~2명 또는 8~10명이 지지하면 좋던 나쁘던 지지율이 달라졌다라고 판단한다.
이때 유의 확률 a 즉, p-value를 구하라.
X 는 이항분포 B(10,0.5)를 따르고 아래와 같은 확률 분포를 가질때,
a 는 X가 0~2 8~10의 확률을 모두 더한 값으로 0.11가 된다
이로써 95%의 유의수준에서
p-value : 0.11 > a : 0.05 이기 때문에 귀무가설을 채택하며 이는 지지율이 달라지지 않았다라고 판단한다
참고: 이항분포 http://terms.naver.com/entry.nhn?docId=1135793&cid=40942&categoryId=32215
'Data > Statistics' 카테고리의 다른 글
[통계학 기초]6. 상관 분석 (0) | 2016.03.04 |
---|---|
[통계학 기초]5. 모평균 검정 (0) | 2016.03.04 |
[통계학 기초]3. 표본분포, 중심극한정리, 통계적 추론, 신뢰구간 (0) | 2016.03.03 |
[통계학 기초] 2. 확률변수와 분포, 정규분포 (3) | 2016.03.02 |
[통계학 기초]1. 자료 형태 및 요약 (0) | 2016.03.01 |