숫자의 거짓말~ 평균, 분산, 표준편차, 변동계수 원리 파악하기
1) 평균의 함정The catch of average은 무엇일까요? http://tvcast.naver.com/v/295418 평균의 함정이란 재미있는 동영상입니다. 5분만 투자해서 봐요^^ 동영상에서 나타난 분포는 왼쪽으로 skewed 되어 있네요! 평균은 데이터 집단을 대표하는 지표로 가장 널리 알려지고 쓰이는 것이지만 가장 정확한 것은 아닙니다. 데이터에 따라 중위값Median, 최빈값Mode, 분산Variance, 표준편차 등이 더욱 가치있는 대표값으로 사용될 때도 있죠. 예를 들어 직원1이 1월 100, 2월 110, 3월 120 매출을 올렸고 직원 2가 1월 50, 2월 330, 3월 40 매출을 올렸다 할때 평균으로 보면 직원 2가 평가를 잘 받을 텐데 '얼마나 안정적인가' 라는 새로운 차원..
2016. 6. 27.
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 통합, 데이터 변환 #missing value #outlier #noise 결측치 채워넣기 Missing Value Imputation1) 중심 경향 값 넣기 (평균, 중앙값, 최빈값 등) - 분산이 줄어들고, 소수의 평균이 전체를 대표하는 경우가 생김, 극단값에의해 평균이 영향 받음, Mid-minimum spacing: 양측 5%제거하고 평균 예) 피겨스케이팅 점수 계산2) 랜덤 추출(분포 기반) - 랜덤에의해 자주 나타나는 값이 채워짐3) Regression Imputation 회귀 삽입 - 변수내의 값들의 평균이 아닌 각 관측치의 특성을 고려하여 삽입, 기초 Imputation 먼저하고 회귀식에 의해 타겟 소실 데이터를 채움4) EM algo..
2016. 3. 30.