본문 바로가기
  • On the ball
Data/Talk

표본은 믿을만한가~ 모집단, 모수, 표본, 통계량, 중심극한정리

by pub-lican-ai 2016. 8. 1.
반응형

모집단Population -> 모수Parameter: 모집단의 수치적 요약으로 예를 들면 모평균, 모표준편차

표본Sample -> 통계량Statistic : 표본의 수치적 요약으로 예를 들면 표본평균, 표본 표준편차

우리는 모평균과 모표준편차를 구하기가 거의 어려우며(데이터양이 많은 경우)

표본평균과 표본 표준편차를 가지고 모평균과 모표준편차를 추측합니다.


1) 우리가 샘플링을 해야하는 이유는 무엇일까요? 데이터양의 관점, 통계적 추정 관점

   (검색 키워드 : 중심극한 정리)


어떻게 표본추출을 했느냐에 따라서 믿을만 할 수도 있고 그렇지 않을 수도 있다!!!

그럼 믿을 만한 자료를 만들기 위해선는 전수조사를 하면된다!


하지만 그럴 여력(시간과 비용)이 없기 때문에 전수조사 보다는 시간과 비용 대비

경제적인 방법으로 표본이라는 것을 추출한 후 통계적으로 표본을 통해 모집단을 추론 검증 후

모집단의 특성을 일반화 할 수 있는 근거 제공


모집단 자체가 작을 경우 표본추출 자체가 무의미하며,

표본추출로 인해 표본 오차가 발생하지 않도록 유의해야 한다.


신뢰를 높이기 위해서 우리는 현실과 유사한 표본을 원한다!!!

그러기 위해서는 얼마나 표본조사 결과를 얼마나 신뢰할 수 있느냐? 일반화 가능하냐? 라는 질문에

통계적 근거 (확률적 추정) 제시를 해줘야 한다.


추정방식에는 두가지가 존재

- 점 추정 : 정확한 수치를 선택 (예시 키> 170cm)해서 모집단 추정

  > 모수와 정확하게 일치하기 어려움

- 구간 추정 : 추정이 가능한 구간 (예시 키> 165~170cm)을 선택해서 추정

  > 모수에 대해서 어림잡아 추정 가능


-참고-

- 모집단 : 연구자가 실제로 관심을 가지고 있는 모든 구성원들의 전체집합

- 모수 : 모집단의 속성, 특징을 나타내는 통계값 (모집단 평균, 표준편차, 상관계수 등등...)

- 표본 : 모집단에서 특정한 추출과정을 통해 추출된 특정 집단

- 통계량 : 표본의 속성, 특징을 나타내는 통계값 (표본의 평균, 표준편차, 상관계수 등등...)

- 표본추출 프레임 : 표본추출 단위에 대한 목록 (모집단을 구성하는 요소들의 목록)


표본 잘 추출하는 방법에는 크게 두가지가 있음

1. 확률표본추출법 (모집단을 구성하는 구성원들의 정보를 알고 있을 경우)

2. 비확율표본 추출법 (모집단을 대표하는 구성원을 알 수 없는 경우)


1. 확률표본추출법은 세부적으로 보면 여러가지 방법들이 있음

- 단순무작위표본 추출법

  > 컴퓨터에서 50,000개의 난수와 일련번호를 발생시킨 후 50,000개 중 500개를 추출

  * 계층무작위표출법

  > 전체모집단수를 표본의 수(600÷100=6)로 나눈다. 표본추출간격은 6번째마다 추출

- 체계적 표본 추출법

  * 층화표본추출법 (비례층화표본추출, 불비례층화 추출법)

  > 비례 예: 모집단 1만명의 남녀 비율이 7:3이라면 표본 역시 7:3의 비율인 1400명:600명

  * 군집표본추출법 (체계적추출법, 비체계적추출법)

   > 국내 거주자를 대상으로 흡연여부를 조사-> 먼저 시·도를 무작위로 선정-> 구·군을 >동·읍을

      -> 마지막으로 주민등록부등을 사용하여 특정한 표본을 무작위로 선정


2. 비확율표본 추출법

- 편의표본추출법

  > 가까이 있어 손쉽게 접근할 수 있는 사람들을 표본으로 선택

    -> 연구를 위해 사전정보가 필요할 때 편의적 정보수집용으로 사용

    : 시간과 비용단축할 수 있으나 일반화 어려움

- 판단표본추출법

  : 제한된 집단 대상으로 연구시 활용

- 할당표본추출법

  : 사람이 많은 단대나 학과에 편중 될 가능성이 있으므로 단대별 또는 학과별로 몇 명씩 추출


2) 신뢰구간과 신뢰수준의 의미를 간략하게 찾아봅시다

   [신뢰구간 구하기]

   모표준편차를 알 경우 - 표본평균 ± 1.96*모표준편차/표본수의 제곱근 (95% 신뢰수준 = 알파값 0.05)

   모표준편차를 모를 경우(대부분) - 표본평균 ± t분포의 임계값*표본표준편차/표본수의 제곱근 (95% 신뢰수준 = 알파값 0.05)

                                               t분포의 임계값 : t분포표에서 자유도(n-1)와 신뢰수준 알파에 해당하는 확률값


신뢰구간 : 모집단의 평균이나 분산을 추정할 경우, 표본에서 얻을 수 있는 구간 / 어떤 모집단 안에 참모수(population parameter)가 존재할 것으로 추정되는 구간, 실제 모수가 있을 것인라고 생각하는 구간 (상한값과 하한값 표기)

신뢰수준 : 신뢰구간에 모수의 참값이 얼마나 신뢰할 수 있는가를 나타내는 정도. 

(연구자의 예측이 틀릴 수 있는 허용오차 수준 결정)

ㅇ일반적으로 90%, 95% 99%를 자주 사용



-참고-

http://www.rossmanchance.com/applets/OneProp/OneProp.htm?candy=1

위 사이트는 무수히 많이 섞여있는 캔디들 중에서 Orange 캔디를 뽑을 확률을 설정해두고, 샘플링 할때마다 몇 개씩 몇 번 뽑았을 때

그 분포를 확인하고, 무수히 많은 샘플링을 시도한 후에 그 평균이 위 Orange 캔디 뽑을 확률과 같아진다는 것을 확인할 수 있고요

http://onlinestatbook.com/stat_sim/sampling_dist/

위 사이트도 모집단이 유니폼 형태던 Skewed된 형태던 샘플링을 무수히 하고나면 그 평균이 모집단의 평균에 수렴하게 되는 것을

볼 수 있고 표준편차는 샘플링 수 N의 제곱근으로 나눈 값 만큼 줄어드는 중심극한정리를 확인할 수 있습니다.

한번 씩 해보세요~~^_^


반응형