[통계학 Talk]공분산Covariance과 상관계수Correlation

확률값에 따른 분포 즉, 확률변수 X를 가장 잘 나타내는 것은

평균, 분산

평균은 분포의 중간 위치를 알아내는 것이고

분산은 분포가 얼마나 퍼져있는지 알아내는 것

왜 공분산이 필요한가?

확률변수가 2개일때는

각 평균을 구해보면 얼마나 가까운지 알 수있다

그런데 두개의 분포가 얼마나 퍼져있는지? 두 확률변수가 어떻게 퍼져있는지 나타내는 것은

공분산Covariance 즉, 두 확률변수 X가 커지면 Y도 커지는지, 혹은 작아지는지, 혹은 상관이 없는지 알려주는 지표

공분산의 특성

공분산이 >0 양의 상관관계 - X가 커지면 Y도 커진다

공분산이 <0 음의 상관관계 - X가 커지면 Y는 작아진다

공분산이 =0 두변수는 아무런 선형관계가 없으며 독립적인 관계이다.

공분산 구하는 원리는

각각 확률변수의 평균(기대값)을 구하고

(X 확률변수값 - X평균)*(Y 확률변수값 - Y평균)의 평균

즉, X의 편차와 Y의 편차를 곱한 것의 평균

공분산의 문제점은?

X와 Y의 단위 크기에 영향을 받는다

이를 보완하기 위해 상관계수Correlation의 개념이 나타남.

확률변수의 절대적인 크기에 영향을 받지 않도록 단위화, Scaling

상관계수 구하는 원리는

공분산을 각각 분산의 크기로 나눔

상관계수 특성

1. 절대값은 1을 넘을 수 없다.

2. 확률변수 X,Y가 독립이라면 상관계수는 0이다

3. 1에 가까우면 양의 상관관계, -1에 가까우면 음의 상관관계가 있다

[통계학 기초] 범주형 자료분석(Categorical Data Analysis) (0)	2020.08.23
EDA(Exploratory Data Analysis) - 이산형(범주형) 변수 (0)	2019.07.23
[통계학 기초]6. 상관 분석 (0)	2016.03.04
[통계학 기초]5. 모평균 검정 (0)	2016.03.04
[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 (1)	2016.03.03

On the ball