본문 바로가기
  • Let's go grab a data
반응형

Data/Talk14

데이터를 보라! 상관은 있는데 인과는 모른다? 데이터를 보라! 상관은 있는데 인과는 모른다? 1) 데이터를 나누고 쪼개기(분석(分析))전에 데이터를 보아야 합니다. 본다는 의미는 무엇일까요? 엑셀을 보고 RDB 테이블을 보라는 걸까요? 본다는 의미는 그 자체로 데이터를 요약하거나 시각화하여 어떤 군집으로 되어 있는지 어떤 추세가 있는지 대표값은 어떤지 이상값은 있는지 결측치는 얼마나 있는지 데이터 변수 사이에는 어떤 관계가 있는지 그려서 그 패턴을 보라는 말입니다. R 스튜디오에서 아래의 스텝에 따라 데이터를 봐보고 어떤 상관관계가 있는지, 상관관계 테스트를 진행해 봅시다 >library('Hmisc') >data(mtcars) >head(mtcars) >summary(mtcars) >dratdispplot(drat,disp) >cor(drat,di.. 2016. 8. 23.
네가 만든 가설은 기각한다~ 귀무가설, 대립가설, 유의수준, 유의확률, 통계적 가설검정 귀무가설(H0)이란 관습적이고 보수적인 주장, 차이가 없다, 0이다 등의 우리가 타파하고자 하는 주장을 말하며대립가설(H1)이란 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장을 말합니다.유의수준(알파a)이란 오류를 허용할 범위를 말하며유의확률(p-value)이란 대립가설일 틀릴 확률을 말합니다.유의확률이 유의수준보다 작으면 해당 귀무가설을 기각(타파)할 수 있으며 우리가 주장하고자 하는 대립가설을 채택할 수 있습니다 1) A나라의 평균수명은 70세라고 통상 알려져 있습니다. 실제로 평균 수명이 70세인지 아닌지 검정하고 싶습니다. - 귀무가설과 대립가설은? 샘플링한 데이터를 t-test를 진행한 결과 p-value가 0.04로 나왔습니다. - 유의수준 5%에서.. 2016. 8. 1.
표본은 믿을만한가~ 모집단, 모수, 표본, 통계량, 중심극한정리 모집단Population -> 모수Parameter: 모집단의 수치적 요약으로 예를 들면 모평균, 모표준편차표본Sample -> 통계량Statistic : 표본의 수치적 요약으로 예를 들면 표본평균, 표본 표준편차우리는 모평균과 모표준편차를 구하기가 거의 어려우며(데이터양이 많은 경우)표본평균과 표본 표준편차를 가지고 모평균과 모표준편차를 추측합니다. 1) 우리가 샘플링을 해야하는 이유는 무엇일까요? 데이터양의 관점, 통계적 추정 관점 (검색 키워드 : 중심극한 정리) 어떻게 표본추출을 했느냐에 따라서 믿을만 할 수도 있고 그렇지 않을 수도 있다!!!그럼 믿을 만한 자료를 만들기 위해선는 전수조사를 하면된다! 하지만 그럴 여력(시간과 비용)이 없기 때문에 전수조사 보다는 시간과 비용 대비경제적인 방법으로.. 2016. 8. 1.
언제 들어도 헷갈리는 확률~ 확률이론, 조건부확률, 기대값 1) 스팸 걸러내기의 원리는 무엇일까요? 검색 키워드 베이즈 정리 특정 단어의 유무에 따라, 예를들어 '대출'이 들어가면 스팸, 안들어가면 정상메일로 구분하면 쉬운 일입니다. 다만 '대출'이라는 단어가 정상메일에도 존재할 수 있는 확률을 가지죠. 따라서 기존의 수신메일을 사람이 스팸으로 분류한 데이터를 학습 데이터로 스팸과 정상 메일의 확률, 각각의 상황에서 해당 단어 유무에 따른 스팸 확률을 계산해놓습니다. 예를 들면) 제가 지금까지 받은 메일을 분석해 보니 80%는 스팸이고 20%는 정상메일이었습니다. 각 메일의 단어를 조사해보니 스팸메일 중 95%에 '대출'이라는 단어가 포함되어 있었고, 정상메일의 2%에서도 '대출'이라는 단어를 볼 수 있었습니다. 이제 새로운 메일을 받았는데 '대출'이라는 단어가.. 2016. 8. 1.
숫자의 거짓말~ 평균, 분산, 표준편차, 변동계수 원리 파악하기 1) 평균의 함정The catch of average은 무엇일까요? http://tvcast.naver.com/v/295418 평균의 함정이란 재미있는 동영상입니다. 5분만 투자해서 봐요^^ 동영상에서 나타난 분포는 왼쪽으로 skewed 되어 있네요! 평균은 데이터 집단을 대표하는 지표로 가장 널리 알려지고 쓰이는 것이지만 가장 정확한 것은 아닙니다. 데이터에 따라 중위값Median, 최빈값Mode, 분산Variance, 표준편차 등이 더욱 가치있는 대표값으로 사용될 때도 있죠. 예를 들어 직원1이 1월 100, 2월 110, 3월 120 매출을 올렸고 직원 2가 1월 50, 2월 330, 3월 40 매출을 올렸다 할때 평균으로 보면 직원 2가 평가를 잘 받을 텐데 '얼마나 안정적인가' 라는 새로운 차원.. 2016. 6. 27.
반응형