데이터를 보라! 상관은 있는데 인과는 모른다?
1) 데이터를 나누고 쪼개기(분석(分析))전에 데이터를 보아야 합니다.
본다는 의미는 무엇일까요? 엑셀을 보고 RDB 테이블을 보라는 걸까요?
본다는 의미는 그 자체로 데이터를 요약하거나 시각화하여 어떤 군집으로 되어 있는지 어떤 추세가 있는지
대표값은 어떤지 이상값은 있는지 결측치는 얼마나 있는지 데이터 변수 사이에는 어떤 관계가 있는지
그려서 그 패턴을 보라는 말입니다.
R 스튜디오에서 아래의 스텝에 따라 데이터를 봐보고 어떤 상관관계가 있는지, 상관관계 테스트를 진행해 봅시다
>library('Hmisc')
>data(mtcars)
>head(mtcars)
>summary(mtcars)
>drat<-mtcars$drat
>disp<-mtcars$disp
>plot(drat,disp)
>cor(drat,disp)
>cor.test(drat,disp)
2) 국어를 잘하면 수학실력도 늘어난다?
어느 학교의 시험성적을 봤을 때 국어 점수와 수학 점수의 상관계수가 0.6을 넘었다고 한다.
국어와 수학실력에는 인과관계가 있을까? 또는 어떤 상관관계가 있을까?
양의 상관관계가 있지만 인과관계가 있다고 말할 수 없습니다.
3) 상관계수
분산 Variance
의미 : 하나의 데이터 셋의 각 관측치가 평균으로 부터 얼마나 떨어져 있는가
계산 원리 : (평균-각 관측치)^2의 합 / 관측치 갯수
말로 풀어쓰기 : 하나의 데이터 셋에서 평균을 구할 수 있고
평균으로부터 각 데이터 항목들에 대한 편차(평균 - 각 관측치)를 구할 수 있고
음(-)의 값이 나올 수 있기 때문에 제곱을 한 후(편차제곱)
각 편차제곱들의 합을 구한 후(편차제곱합)
총 관측치 갯수로 나누어 위 편차제곱합에 대한 상쇄를 시킨 값
표준편차 Standard deviation
의미 : 분산은 양을 나타내기 때문에 평균과 함께(동일 선상) 쓰기 위해서는 표준화를 시켜야함
계산 원리 : 분산의 제곱근
말로 풀어쓰기 : 분산을 구하는 과정에서의 편차제곱을 상쇄 시키기 위해 전체 분산 값에 제곱근을 구한 값
공분산 Covariance
의미 : 두개 이상의 데이터 셋이 동시에 변하는 정도를 양으로 나타낸 것
계산 원리 : (x변수 평균-x변수 각 관측치) * (y변수 평균-y변수 각 관측치)의 전체 합 / 관측치 갯수
말로 풀어쓰기 : 두개 이상의 데이터 셋에서 각각의 평균을 구할 수 있고
각 변수의 평균으로부터 각 데이터 항목들에 대한 편차(x변수 평균-x변수 각 관측치)를 구할 수 있고
편차의 곱들의 합을 구한 후(편차곱합) *제곱합이 아닙니다. 그래서 음수가 나올 수 있어요
총 관측치 갯수로 나누어 위 편차곱합에 대한 상쇄를 시킨 값
상관계수 Correlation
의미 : 공분산은 각 데이터 셋 별 측정 단위의 영향을 받기 때문에 값이 일정하지 않음. 표준화를 시켜야 함.
계산 원리(피어슨) : 공분산 / ((x변수 평균 - x변수 각 관측치)^2 * (y변수 평균 - y변수 각 관측치)^2)의 전체 합
말로 풀어쓰기 : 각 변수의 평균으로 부터 각 데이터 항목들에 대한 편차를 구할 수 있고
표준화를 위해 나누어야 하기 때문에 제곱을 한 후
편차제곱의 곱들의 합을 구한 후 (편차곱곱합?)
공분산을 나누어 주어 표준화 시킨 값
4) 피어슨Pearson과 스피어만Spearman
피어슨 특징 : R에서 cor 함수를 사용하여 상관계수를 구할 때 default다
사회과학의 많은 논문에서 피어슨을 활용
-1~0~1사이의 값을 가지며 0에 가까울 수록 상관관계가 없음
-는 음의 상관관계 +는 양의 상관관계
측정 단위의 영향을 받지 않음
단순 적률 상관계수 계산 공식 (적률moment: 평균, 분산, 공분산을 이용하여 계산하는 방법)
스피어만 특징 : 두 변수가 서열 척도일 경우 사용
변수 값의 순위를 매겨 그 순위값을 이용하여 상관계수를 계산
피어슨의 단순 적률상관계수 계산 공식에서 도출된 간편식 또는 변형식
'Data > Talk' 카테고리의 다른 글
Bias-Variance Tradeoff / Andrew Ng의 데이터셋 나누기 (0) | 2017.03.27 |
---|---|
누구나 처할 문제 오버피팅overfitting 과적합 (0) | 2017.03.24 |
네가 만든 가설은 기각한다~ 귀무가설, 대립가설, 유의수준, 유의확률, 통계적 가설검정 (0) | 2016.08.01 |
표본은 믿을만한가~ 모집단, 모수, 표본, 통계량, 중심극한정리 (0) | 2016.08.01 |
언제 들어도 헷갈리는 확률~ 확률이론, 조건부확률, 기대값 (0) | 2016.08.01 |