본문 바로가기
  • On the ball
Data/Statistics

[통계학 기초]3. 표본분포, 중심극한정리, 통계적 추론, 신뢰구간

by pub-lican-ai 2016. 3. 3.
반응형

[통계학 기초]3. 표본분포와 중심극한정리, 통계적 추론, 신뢰구간 #sampling #Statistical Inference #


모집단 Population : 전체

표본 Sample : 일부

모수 Parameter : 모집단의 특성을 나타내는 숫자

통계량 Statistic : 표본의 특성을 나타내는 숫자, 표본에 따라 다른 값을 갖는 확률변수, 모수를 추정함


표본분포 Sampling distribution : 통계량의 확률 분포

표본평균 분포 : 표본을 무수히 많이 추출한 후 각 표본 평균의 분포

 표본평균의 평균은 모집단의 평균과 같다

 표본평균의 표준편차는 모집단의 표준편차보다 작으며 비율로 줄어든다


예제) 1) 모집단 평균 3.8, 표준편차 0.3 x=3.5보다 낮을 확률

       

         2) 4개 표본에 의해 평균 x=3.5보다 낮을 확률




중심극한정리 The central limit theorem

표본의 크기n이 크면 표본평균 분포는 근사적으로 정규분포를 따른다.

표본의 크기는?

모집단이 정규분포와 많이 다를수록 표본의 크기는 더 많이 필요하다




통계적 추론 Statistical Inference

통계량에 의해 모집단에 있는 모수를 추론한다


구간추정(신뢰구간) Confidence interval

중심극한정리에 의해 표본평균의 95% 정도가 모평균으로 부터 1.96표준편차 이상 떨어져있지 않다.

즉, 매우 많은 표본을 뽑아서 각각 표본평균을 계산했을 때 

그 가운데 95%이상의 표본 평균이 모평균에서 1.96표준편차 이상 떨어져 있지 않다.

수식으로 모평균의 95% 신뢰구간은 아래와 같다



예제) 평균 65, 표준편차 5, 표본 12개, 표본평균 65, 표준편차 1.44 (5/sqrt(12)) 이때 신뢰수준이 95%인 신뢰구간은?

      


z*값 찾기

신뢰수준C는 95% 일때 신뢰구간을 계산하는 상수는 1.96 이다 그렇다면 신뢰수준C가 변화할때 상수z*값은?

 

신뢰수준 C는 정규분포곡선에서 -z*과 z*사이의 면적이다. 

따라서 정규확률표 또는 SW에서 해당 %의 면적이 포함되는 구간과 z*값을 찾을 수 있다.


예제) 신뢰수준80%인 신뢰구간은

      정규확률표에서 z가 1.28정도 되는 곳이 C가 80%면적을 차지하는 곳이다


표본의 크기n 구하기

1) 모집단의 표준편차를 아는 경우 

   원하는 신뢰구간의 길이m를 얻기 위해서는 얼마 이상의 표본의 크기n이 필요한가

   

 예제) 표준편차 10^6 신뢰수준은 90% 신뢰구간은 10^6일때 적절한 표본 크기 n은?

 

여기서 1.645는 정규확률표에서 확률이 90%가 되는 z값이며, 적절한 n은 11개의 관측치가 필요하다


2) 모집단의 표준편차를 모르는 경우 (거의 대부분)

표본표준편차s로 모표준편차(시그마)를 추정하고, 표본평균(x바)로 모평균(뮤)를 추정한다

t 분포 (일표본 t통계량) 

자유도가 클수록 정규분포에 가까워지고 줄어들수록 t분포의 분산은 늘어남(s로 표준편차를 추정하는 정확도가 떨어짐)

 

(자유도가 n-1인 t 분포를 따른다)


신뢰수준 C인 신뢰구간

t*값 찾기

신뢰수준 C는 t(n-1)분포곡선에서 -t*과 t*사이의 면적이다. 

따라서 t critical value table 또는 SW에서 해당 %의 면적이 포함되는 구간과 t*값을 찾을 수 있다. 



예제) 표본평균 5.5, 표본표준편차s 2.517, 표본 개수 9, 자유도 8, 신뢰수준C 95% -> t* 2.306 일때 신뢰구간은?

      

(95%의 신뢰도로 3.5%~7.9% 참값을 보임)




출처 : http://www.kocw.net/home/cview.do?cid=08b0c5f1f6959396

반응형