[통계학 기초]1. 자료의 형태 및 요약 #mean #median #Spread #variance #IQR #시각화
1) 범주형Categorical
명목Nominal : 순서없는 범주 (남/여)
순서Ordinal : 순서있는 범주 (소형/중형/대형)
시각화 - 도수분포표Frequency table 빈도수 또는 %,
막대그래프Bar graph 순위별로 정리하여 해석이 용이함,
파이 차트Pie chart 면적이나 각도의 차이로 총합을 100%으로 했을때 나눔
2) 양적Quantitative
연속Continuous : 무수히 많은 다른 값 (키, 몸무게)
이산Discrete : 몇 개의 다른 값 (가족 구성원의 수)
시각화 - Dot plot 이산 데이터의 점 수치로 표현,
Stem plot 잎-줄기 수치를 그대로 사용하며 분포의 형태 보여줌,
Histogram 구간을 나누고 관측치의 빈도를 나타냄,
Line graph(time plot) 시계열 자료, Trend와 Seasonal variation 찾을 수 있음
Box plot 다섯 숫자 요약의 결과로 상자는 중앙 50%자료를 표시, Q1과 Q3로 끝나는 상자(상자의 길이는 IQR)
대표값Center of distribution, 산포도Spread of distribution
자료의 요약
1) 산술평균Mean : 계산이 쉽지만 모든 관측치를 사용하므로 특이값에 영향을 많이 받음
2) 중앙값Median : 순서대로 배열하여 가장 중앙에 있는 값, 특이값에 영향을 받지 않음
n이 홀수 - (n+1)/2 번째 관측치
n이 짝수 - n/2, n/2+1번째 관측치의 평균
3) 최빈값Mode : 관측치중 가장 여러번 나타난 값
치우친 분포 : Left skew에서는 평균값이 중앙값보다 작음
Right skew에서는 평균값이 중앙값보다 큼
산포도Spread
1) 범위Range : 최대값-최소값
2) 4분위 범위(IQR, interquatile range)
백분위수 percentile, quantile
중앙값Median Q2 : 50 quantile
Q1 : 25 quantile
Q2 : 75 quantile
IQR : Q3-Q1 (Box plot의 상자 길이)
다섯 숫자 요약Five-number summary : min 25 median 75 max
3) 분산variance 표준편차 통계적 추론에 유용함, 특이값에 영향을 받음
분산 :
표준편차 :
<box plot>
<histogram>
<stemplot>
출처 : http://www.kocw.net/home/cview.do?cid=08b0c5f1f6959396
'Data > Statistics' 카테고리의 다른 글
[통계학 기초]6. 상관 분석 (0) | 2016.03.04 |
---|---|
[통계학 기초]5. 모평균 검정 (0) | 2016.03.04 |
[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 (1) | 2016.03.03 |
[통계학 기초]3. 표본분포, 중심극한정리, 통계적 추론, 신뢰구간 (0) | 2016.03.03 |
[통계학 기초] 2. 확률변수와 분포, 정규분포 (3) | 2016.03.02 |