본문 바로가기
  • Let's go grab a data
Data/Talk

데이터를 보라! 상관은 있는데 인과는 모른다?

by pub-lican-ai 2016. 8. 23.
반응형

데이터를 보라! 상관은 있는데 인과는 모른다?


1) 데이터를 나누고 쪼개기(분석(分析))전에 데이터를 보아야 합니다.

   본다는 의미는 무엇일까요? 엑셀을 보고 RDB 테이블을 보라는 걸까요?

   본다는 의미는 그 자체로 데이터를 요약하거나 시각화하여 어떤 군집으로 되어 있는지 어떤 추세가 있는지

   대표값은 어떤지 이상값은 있는지 결측치는 얼마나 있는지 데이터 변수 사이에는 어떤 관계가 있는지

   그려서 그 패턴을 보라는 말입니다. 


   R 스튜디오에서 아래의 스텝에 따라 데이터를 봐보고 어떤 상관관계가 있는지, 상관관계 테스트를 진행해 봅시다

   >library('Hmisc')

   >data(mtcars)

   >head(mtcars)

   >summary(mtcars)

   >drat<-mtcars$drat

   >disp<-mtcars$disp

   >plot(drat,disp)

   >cor(drat,disp)

   >cor.test(drat,disp)


2) 국어를 잘하면 수학실력도 늘어난다?

   어느 학교의 시험성적을 봤을 때 국어 점수와 수학 점수의 상관계수가 0.6을 넘었다고 한다.

   국어와 수학실력에는 인과관계가 있을까? 또는 어떤 상관관계가 있을까?


   양의 상관관계가 있지만 인과관계가 있다고 말할 수 없습니다.


3) 상관계수


   분산 Variance

   의미 : 하나의 데이터 셋의 각 관측치가 평균으로 부터 얼마나 떨어져 있는가

   계산 원리 : (평균-각 관측치)^2의 합 / 관측치 갯수

   말로 풀어쓰기 : 하나의 데이터 셋에서 평균을 구할 수 있고

                        평균으로부터 각 데이터 항목들에 대한 편차(평균 - 각 관측치)를 구할 수 있고

                        음(-)의 값이 나올 수 있기 때문에 제곱을 한 후(편차제곱)

                        각 편차제곱들의 합을 구한 후(편차제곱합)

                        총 관측치 갯수로 나누어 위 편차제곱합에 대한 상쇄를 시킨 값


   표준편차 Standard deviation

   의미 : 분산은 양을 나타내기 때문에 평균과 함께(동일 선상) 쓰기 위해서는 표준화를 시켜야함

   계산 원리 : 분산의 제곱근

   말로 풀어쓰기 : 분산을 구하는 과정에서의 편차제곱을 상쇄 시키기 위해 전체 분산 값에 제곱근을 구한 값


   공분산 Covariance

   의미 : 두개 이상의 데이터 셋이 동시에 변하는 정도를 양으로 나타낸 것

   계산 원리 : (x변수 평균-x변수 각 관측치) * (y변수 평균-y변수 각 관측치)의 전체 합 / 관측치 갯수

   말로 풀어쓰기 : 두개 이상의 데이터 셋에서 각각의 평균을 구할 수 있고

                        각 변수의 평균으로부터 각 데이터 항목들에 대한 편차(x변수 평균-x변수 각 관측치)를 구할 수 있고

                        편차의 곱들의 합을 구한 후(편차곱합)  *제곱합이 아닙니다. 그래서 음수가 나올 수 있어요

                        총 관측치 갯수로 나누어 위 편차곱합에 대한 상쇄를 시킨 값


   상관계수 Correlation

   의미 : 공분산은 각 데이터 셋 별 측정 단위의 영향을 받기 때문에 값이 일정하지 않음. 표준화를 시켜야 함.

   계산 원리(피어슨) : 공분산 / ((x변수 평균 - x변수 각 관측치)^2 * (y변수 평균 - y변수 각 관측치)^2)의 전체 합

   말로 풀어쓰기 : 각 변수의 평균으로 부터 각 데이터 항목들에 대한 편차를 구할 수 있고

                        표준화를 위해 나누어야 하기 때문에 제곱을 한 후

                        편차제곱의 곱들의 합을 구한 후 (편차곱곱합?)

                        공분산을 나누어 주어 표준화 시킨 값


4) 피어슨Pearson과 스피어만Spearman

   피어슨 특징 : R에서 cor 함수를 사용하여 상관계수를 구할 때 default다

                     사회과학의 많은 논문에서 피어슨을 활용

                     -1~0~1사이의 값을 가지며 0에 가까울 수록 상관관계가 없음

                     -는 음의 상관관계 +는 양의 상관관계

                     측정 단위의 영향을 받지 않음

                     단순 적률 상관계수 계산 공식 (적률moment: 평균, 분산, 공분산을 이용하여 계산하는 방법)


  스피어만 특징 : 두 변수가 서열 척도일 경우 사용

                      변수 값의 순위를 매겨 그 순위값을 이용하여 상관계수를 계산

                      피어슨의 단순 적률상관계수 계산 공식에서 도출된 간편식 또는 변형식


반응형