본문 바로가기
  • On the ball
Data/Talk

숫자의 거짓말~ 평균, 분산, 표준편차, 변동계수 원리 파악하기

by pub-lican-ai 2016. 6. 27.
반응형

1) 평균의 함정The catch of average은 무엇일까요?


http://tvcast.naver.com/v/295418 평균의 함정이란 재미있는 동영상입니다. 5분만 투자해서 봐요^^ 동영상에서 나타난 분포는 왼쪽으로 skewed 되어 있네요!

 평균은 데이터 집단을 대표하는 지표로 가장 널리 알려지고 쓰이는 것이지만 가장 정확한 것은 아닙니다. 데이터에 따라 중위값Median, 최빈값Mode, 분산Variance, 표준편차 등이 더욱 가치있는 대표값으로 사용될 때도 있죠.

 예를 들어 직원1이 1월 100, 2월 110, 3월 120 매출을 올렸고 직원 2가 1월 50, 2월 330, 3월 40 매출을 올렸다 할때 평균으로 보면 직원 2가 평가를 잘 받을 텐데  '얼마나 안정적인가' 라는 새로운 차원에서 평가하면 분산이 사용되면서 직원1이 평가를 잘받겠죠. 다양한 지표를 알면 새로운 시각으로 데이터를 볼수 있습니다.


2) 실제 업무 경험상 분산, 표준편차를 사용해야 하는 경우가 언제 있었나요?


VA솔루션 성능 테스트를 진행할때도 사람이 생각하는 예상 연령(답안지, 모평균)에 ML에의해 예측한 예상 연령(예측치, 표본평균)이 얼마나 비슷한지만 따지면

오류가 날 가능성이 있습니다. 우선 답안지의 분산과 예측치의 분산이 얼마나 비슷한지 분산분석이 필요하고, 모평균과 표본 평균이 얼마나 가까우면서 분산도 최소화 되는지 확인할 필요가 있습니다.

만약 전체적인 답안지 평균과 예측치 평균이 다르다면, 성능이 낮다고 성급한 결론을 내릴 것이 아니라 솔루션에 탑재된 offset 기능을 사용해볼 필요가 있습니다.

*offset for age 기능: 예측치에 일괄적으로 age를 더하거나 빼는 기능, 실제로 Asian버전은 일본, 한국, 몽골 얼굴DB를 혼재하여 사용했기 때문에 각 나라별로 offset기능을 사용하기를 권장함


3) 3시그마가 의미하는 바는 무엇일까요?  검색 키워드 68-95-99.7 규칙


https://ko.wikipedia.org/wiki/68-95-99.7_%EA%B7%9C%EC%B9%99 3시그마법칙은 굉장히 간단하면서도 유용하게 사용되는 이상치Outlier 제거법입니다. 정규분포의 가정에서 분포의 평균으로부터 3시그마(99.7%) 이상 떨어진 관측치들은 일반적으로 제거하도 되는 값들입니다. 물론 이상치가 항상 제거 대상은 아닙니다.

 그렇다면 우리가 많이 들어본 6시그마는? 무려 99.9999998027% 506,842,372번 제품을 만들 때 1번꼴로 잘못된 제품이 나타나게되는 확률을 말합니다.


평균 : 모든 관측치의 합 / 관측치 갯수

분산 : 모든 (평균-각 관측치)^2의 합 / 관측치 갯수

표준편차 : 분산의 제곱근

변동계수 : 표준편차 / 평균

반응형