본문 바로가기
  • On the ball
Data/Statistics

[통계학 기초]1. 자료 형태 및 요약

by pub-lican-ai 2016. 3. 1.
반응형

[통계학 기초]1. 자료의 형태 및 요약 #mean #median #Spread #variance #IQR #시각화


1) 범주형Categorical

   명목Nominal : 순서없는 범주 (남/여)

   순서Ordinal : 순서있는 범주 (소형/중형/대형)


   시각화 - 도수분포표Frequency table 빈도수 또는 %, 

             막대그래프Bar graph 순위별로 정리하여 해석이 용이함, 

             파이 차트Pie chart 면적이나 각도의 차이로 총합을 100%으로 했을때 나눔


2) 양적Quantitative

   연속Continuous : 무수히 많은 다른 값 (키, 몸무게)

   이산Discrete : 몇 개의 다른 값 (가족 구성원의 수)

 

   시각화 - Dot plot 이산 데이터의 점 수치로 표현, 

             Stem plot 잎-줄기 수치를 그대로 사용하며 분포의 형태 보여줌, 

             Histogram 구간을 나누고 관측치의 빈도를 나타냄, 

             Line graph(time plot) 시계열 자료, Trend와 Seasonal variation 찾을 수 있음

             Box plot 다섯 숫자 요약의 결과로 상자는 중앙 50%자료를 표시, Q1과 Q3로 끝나는 상자(상자의 길이는 IQR) 

             대표값Center of distribution, 산포도Spread of distribution



자료의 요약


1) 산술평균Mean : 계산이 쉽지만 모든 관측치를 사용하므로 특이값에 영향을 많이 받음

  

                        


2) 중앙값Median : 순서대로 배열하여 가장 중앙에 있는 값, 특이값에 영향을 받지 않음

                            n이 홀수 - (n+1)/2 번째 관측치

                            n이 짝수 - n/2, n/2+1번째 관측치의 평균

3) 최빈값Mode : 관측치중 가장 여러번 나타난 값


치우친 분포 : Left skew에서는 평균값이 중앙값보다 작음

                    Right skew에서는 평균값이 중앙값보다 큼


산포도Spread

1) 범위Range : 최대값-최소값

2) 4분위 범위(IQR, interquatile range)

    백분위수 percentile, quantile

    중앙값Median Q2 : 50 quantile

    Q1 : 25 quantile

    Q2 : 75 quantile

    IQR : Q3-Q1 (Box plot의 상자 길이)

    다섯 숫자 요약Five-number summary : min 25 median 75 max



3) 분산variance 표준편차 통계적 추론에 유용함, 특이값에 영향을 받음

   분산 : 

   표준편차 :


<box plot>


<histogram>


<stemplot>



출처 : http://www.kocw.net/home/cview.do?cid=08b0c5f1f6959396


반응형