본문 바로가기
  • On the ball
Review/Book_Data

데이터 분석 전문가 가이드 과목 4. 데이터 분석

by pub-lican-ai 2019. 1. 8.
반응형

 오른쪽을 클릭하여 바로 구매 데이터 분석 전문가 가이드(ADP)(ADsP), 한국데이터산업진흥원

*파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음


과목 4. 데이터 분석

  • 1 R 기초와 데이터 마트

1 R 기초 : R 특징- 그래픽 처리, 데이터 처리 계산 능력, 패키지 R 설치 http://r-project.org

R 패키지 설치 install.packages(‘패키지 이름’) library(패키지 이름) ?par help(par) 

R 데이터 구조 : 벡터, 행렬, 데이터 프레임, 데이터불러오기 read.table(‘.csv’, header=T, sep=‘,’) rep(1,3) seq(1,3)….


2 데이터 마트

  1. R reshape 활용한 데이터 마트 개발 : Reshape melt cast 이용해 데이터를 재구성하거나 밀집화 데이터를 생성
  2. Sqldf SQL에서 사용하는 쿼리 문장 사용 가능
  3. Plyr 데이터 분리 다시 결함 처리 기능 ddply, ply
  4. 데이터 테이블 : data.table 패키지 데이터 프레임과 유사하지만 빠른 그룹화와 순서화 지원


3 결측치 처리 이상값 검색 

  1. 데이터 탐색 
  2. 결측값 처리 : Amelia 패키지
  3. 이상값 검색 : outliers 패키지


  • 2 통계분석

1 통계학 개론

  1. 통계분석 개요: 통계- 자료로 부터 유용한 정보를 이끌어내는 학문, 자료의 수집 정리 해석, 모집단, 표본, 표본 추출(단순랜덤추출법, 계통추출법, 집락추출법, 층화추출법), 자료의 종류(명목척도, 순서척도, 구간척도, 비율척도)
  2. 통계분석 : Statistical analysis 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 통계분석 방법을 이용해 의사결정하는 과정 (통계적 추론), 기술 통계, 추정, 가설검정, 예측
  3. 확률 확률 분포 : 확률 특정사건이 일어날 있는 가능성의 척도, 조건부확률, 확률변수, 확률 분포, 기댓값과 분산, 백분위수
  4. 추정과 가설검정 : 점추정- 모수, 모집단 모평균, 표본평균, 표본분산, 구간추정- 신뢰수준, 가설검정- 귀무가설, 대립가설, 검정통계량, p-value (관측자료가 특정 분포를 따른다고 가정하는 경우)
  5. 비모수검정: 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 방법 (관측 자료가 특정 분포를 따른다고 가정할수 없는 경우)


2 기초통계분석

  1. 기술 통계 Descriptive Statistics 자료를 요약하는 기초적인 통계 R함수(data, summary, mean, median, sd, var, quantile, min, max )
  2. 회귀 분석 Regression Analytics : 하나나 이상의 변수들이 다른 변수에 미치는 영향에 대해 추론하는 통계 기법 (단순회귀, 다중회귀, 다항회귀, 비선형회귀) R함수(lm, plot)

        설명(독립)변수의 선택 - 모든 가능한 조합의 회귀분석, 단계적 변수선택(전진선택법, 후진선택법, 단계별방법stepwise) R함수(step)


3 다변량 분석

  1. 상관분석 Correlation Analysis: 두변수간의 관계 확인, 상관계수(피어슨-등간척도, 스피어만-서열척도) R함수(cor, rcorr, cov)
  2. 다차원 척도법 Multidimensional Scaling, MDS) : 여러 대상 간의 거리가 주어져 있을 , 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 R함수(abline, cmdscale)
  3. 주성분 분석 Principal Component Analysis, PCA) : 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환 시키는 방법 R함수(princomp, loading)


4 시계열 예측 Time-series Data

  1. 정상성 : 평균이 일정하다, 분산이 시점에 의존하지 않는다. 공분산은 시차에만 의존하고 시점 자체에는 의존하지 않는다. 이상점Outlier, 개입Intervention, 차분Difference, 변환Transformation
  2. 시계열 모형: 자기회귀 모형Autoregressive model, AR - 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 있다는 의미 백색잡음과정, 자기상관함수ACF 부분자기상관함수PACF

                          이동평균 모형(Moving Average model, MR - 현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현, 항상 정상성을 만족하여, 정상성가정이 필요없다.

                          자기회귀누적이동평균(ARIMA 모형)-차분을 통해AR,MR,ARMA정상화, 분해 시계열 - 추세 요인, 계절 요인, 순환요인, 불규칙요인  R함수(decompose, diff, act, pack, auto.arima, forecast)


  • 3 정형 데이터 마이닝

1 데이터 마이닝 개요 : 데이터베이스에서의 지식발견, 지식추출, 정보수확, 정보고고학, 데이터패턴프로세싱

  1. 분류 Classification : 분류하고 범주화하고 등급을 나눔 - decision trees, memory-based reasoning, link analysis
  2. 추정 Estication : 수입, 수준, 신용카드 잔고 연속된 변수의 값을 추정 -신경망 모형neural networks
  3. 예측 Prediction : 미래의 양상을 예측하거나 미래의 값을 추정 - 장바구니 분석, decision trees, memory-based reasoning, 신경망
  4. 연관분석 Association Analysis : 같이 팔리는 물건과 같이 아이템의 연관성 파악 - 연관규칙 Association rules
  5. 군집 Clustering : 이질적인 모집단을 동질성을 지닌 그룹별로 세분화, 분류와의 차이는 선분류되어있는 기준에 의존하지 않고 자체의 유사성에 의해 그룹화됨
  6. 기술 Description : 데이터가 가지고 있는 의미를 기술하는 -목적 정의, 데이터 준비, 가공, 데이터마이닝 기법의 적용, 검증


2 분류 분석 : 종속변수가 알려진 다변량 자료를 이용하여 모형을 구축하고 이를 통해 새로운 자료에 대한 예측 분류 수행

  1. 로지스틱 회귀모형 Logistic Regression : 종속변수가 범주형일때 적용되는 회귀분석 R함수(glm, chef, exp, confine, exp, fitted, predict, cdplot, lines, vs, anova)
  2. 신경망 모형 Artificial neural networks : 동물의 신경계를 모방하여 분류 또는 예측을 위해 만들어진 모형, 활성함수 -sign, step, sigmoid, softmax, tanh, gauss R함수(nnet, plot.nnet, neuralnet, net.infert, compute, set.seed)
  3. 의사결정나무 모형 Decision Tree : 나무구조로 분류 예측, 분류기준값 선택 방법- 카이제곱통계량, pvalue, 지니지수, 엔트로피 지수 r함수(rpart, rpart.plot, prp, rpart.plotcp, ctree)
  4. 앙상블 모형 Ensemble : 여러 분류 모형의 결과를 종합하여 분류의 정확도를 높이는 방법, 

     1) 배깅Bagging - 크기가 같은 표본을 여러번 단순 임의 복원추출하여 표본에 대해 분류기를 생성한 결과를 앙상블 R함수(adabag.bagging)

     2) 부스팅Boosting - 재표본 과정에서 동일한 확률이 아니라 분류가 잘못된 데이터에 가중을 두어 표본을 추출하는 방식(확률 조정됨) 대표적인 아다부스팅AdaBoosting) R함수(adabag.boosting, barplot, pairs)

     3) 랜덤포레스트Random Forest - 배깅에 랜덤 과정 추가 예측변수를 임의로 추출하고 추출된 변수내에 최적의 분할을 만들어 나가는 방법 R함수(randomForest, importance, varImpPlot)

  1. 모형평가 : 기준 (일반화의 가능성, 효율성, 예측과분류의 정확성) 검증용 자료 추출(홀드아웃방법랜덤 7:3, 교차검증k-fold, 붓스트랩방법 복원추출법) R함수(sample) 분류 모형 평가-

      1) 오분류표(accuracy, error rate, sensitivity, specificity, Precisoin, Recall) R함수(caret.confusionMatrix)

      2) ROC(reciever operation characteristic) R함수(Epi.ROC) 

      3) 이익도표(gain chart), 향상도곡선lift curve R함수(ROCR.prediction, performance)

   

3 군집분석 : 여러 변수 값들로 부터 n개의 개체를 유사한 성격을 가지는 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 기법

  1. 계층적 군집 hierarchical clustering : 계통도, dendrogram, 병합적방법, 분할적 방법  거리 측정 방법(최단 연결법, 최장 연결법, 중심연결법, 평균연결법, 와드연결법-군집내 오차제곱합 이용) 

        거리(유클리드 거리, 맨하튼 거리, 민코우스키 거리, 표준화 거리, 마할라노비스 거리 ) R함수(hclust, dist, agnes, mclust, Diana, mona, cutree, rect.hclust cluster.agnes)

  1. K-means 군집 : 원하는 군집 수만큼 초기값을 지정하고 개체를 가까운 초기값에 할당하여 군집을 형성한 군집의 평균을 재계산하여 초기값 갱신, 반복하여 최종군집형성하는 방법 R함수(kmeans, scale, wssplot, Nbclust.nbclust, aggregate, flexclust.randIndex, flexclust.kcca, cclust.cclust, cluster.clusplot)
  2. 혼합 분포 군집 mixture distribution clustering : model based 군집방법, 데이터 k 모수적 모형의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정에 모수와 함께 가중치를 자료로 부터 추정하는 방법

       EM알고리즘 R함수(mixtools.normalmixEM, mclust.Mclust)

  1. SOM(Self-Organizing Maps): 코호넨 , 비지도 신경망으로 고차원 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 R함수(som, plot.kohonen, ggplot)


4 연관분석 : 연관규칙- 항목간의 조건-결과식으로 표현되는 유용한 패턴,  장바구니 분석, 측정지표(

    1)지지도support-전체거래중 품목 AB 동시에 포함되는 거래비율, 

    2)신뢰도confidence-품목A 포함된 거래중에서 품목 A,B 동시에 포함된 거래수, 

    3)향상도lift - 품목B 구매한 고객 대비 품목 A 구매한 품목 B 구매하는 고객에 대한 확률)

 

  • 비정형 데이터 마이닝

1 텍스트 마이닝

  1. 텍스트 마이닝의 기능 : 문서요약, 분류, 군집, 특성 추출
  2. 텍스트 마이닝의 기본 프로세스: tm패키지, 1)데이터 수집 twitteR 패키지

       2)데이터 전처리 가공 Corpus 문서를 관리하는 기본구조 tm_map 

       3)자연어처리 스테밍- 공통어간을 가지는 단어를 묶기 위해 처리 koKLP 패키지

       4)TDM구축 TermDocumentMatrix 

       5)분석 시각화 Association arules.apriori wordcloud 감성분석 


2 사회연결망 분석 SNA 

기법: 중심성, 밀도, 중심화

중심성 방법: 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성

SNA 적용 - 노드, , 에지, 링크


반응형