[통계학 기초]3. 표본분포와 중심극한정리, 통계적 추론, 신뢰구간 #sampling #Statistical Inference #
모집단 Population : 전체
표본 Sample : 일부
모수 Parameter : 모집단의 특성을 나타내는 숫자
통계량 Statistic : 표본의 특성을 나타내는 숫자, 표본에 따라 다른 값을 갖는 확률변수, 모수를 추정함
표본분포 Sampling distribution : 통계량의 확률 분포
표본평균 분포 : 표본을 무수히 많이 추출한 후 각 표본 평균의 분포
표본평균의 평균은 모집단의 평균과 같다
표본평균의 표준편차는 모집단의 표준편차보다 작으며 비율로 줄어든다
예제) 1) 모집단 평균 3.8, 표준편차 0.3 x=3.5보다 낮을 확률
2) 4개 표본에 의해 평균 x=3.5보다 낮을 확률
중심극한정리 The central limit theorem
표본의 크기n이 크면 표본평균 분포는 근사적으로 정규분포를 따른다.
표본의 크기는?
모집단이 정규분포와 많이 다를수록 표본의 크기는 더 많이 필요하다
통계적 추론 Statistical Inference
통계량에 의해 모집단에 있는 모수를 추론한다
구간추정(신뢰구간) Confidence interval
중심극한정리에 의해 표본평균의 95% 정도가 모평균으로 부터 1.96표준편차 이상 떨어져있지 않다.
즉, 매우 많은 표본을 뽑아서 각각 표본평균을 계산했을 때
그 가운데 95%이상의 표본 평균이 모평균에서 1.96표준편차 이상 떨어져 있지 않다.
수식으로 모평균의 95% 신뢰구간은 아래와 같다
예제) 평균 65, 표준편차 5, 표본 12개, 표본평균 65, 표준편차 1.44 (5/sqrt(12)) 이때 신뢰수준이 95%인 신뢰구간은?
z*값 찾기
신뢰수준C는 95% 일때 신뢰구간을 계산하는 상수는 1.96 이다 그렇다면 신뢰수준C가 변화할때 상수z*값은?
신뢰수준 C는 정규분포곡선에서 -z*과 z*사이의 면적이다.
따라서 정규확률표 또는 SW에서 해당 %의 면적이 포함되는 구간과 z*값을 찾을 수 있다.
예제) 신뢰수준80%인 신뢰구간은
정규확률표에서 z가 1.28정도 되는 곳이 C가 80%면적을 차지하는 곳이다
표본의 크기n 구하기
1) 모집단의 표준편차를 아는 경우
원하는 신뢰구간의 길이m를 얻기 위해서는 얼마 이상의 표본의 크기n이 필요한가
예제) 표준편차 10^6 신뢰수준은 90% 신뢰구간은 10^6일때 적절한 표본 크기 n은?
여기서 1.645는 정규확률표에서 확률이 90%가 되는 z값이며, 적절한 n은 11개의 관측치가 필요하다
2) 모집단의 표준편차를 모르는 경우 (거의 대부분)
표본표준편차s로 모표준편차(시그마)를 추정하고, 표본평균(x바)로 모평균(뮤)를 추정한다
t 분포 (일표본 t통계량)
자유도가 클수록 정규분포에 가까워지고 줄어들수록 t분포의 분산은 늘어남(s로 표준편차를 추정하는 정확도가 떨어짐)
(자유도가 n-1인 t 분포를 따른다)
신뢰수준 C인 신뢰구간
t*값 찾기
신뢰수준 C는 t(n-1)분포곡선에서 -t*과 t*사이의 면적이다.
따라서 t critical value table 또는 SW에서 해당 %의 면적이 포함되는 구간과 t*값을 찾을 수 있다.
예제) 표본평균 5.5, 표본표준편차s 2.517, 표본 개수 9, 자유도 8, 신뢰수준C 95% -> t* 2.306 일때 신뢰구간은?
(95%의 신뢰도로 3.5%~7.9% 참값을 보임)
'Data > Statistics' 카테고리의 다른 글
[통계학 기초]6. 상관 분석 (0) | 2016.03.04 |
---|---|
[통계학 기초]5. 모평균 검정 (0) | 2016.03.04 |
[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 (1) | 2016.03.03 |
[통계학 기초] 2. 확률변수와 분포, 정규분포 (3) | 2016.03.02 |
[통계학 기초]1. 자료 형태 및 요약 (0) | 2016.03.01 |