*파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
과목 4. 데이터 분석
- 1장 R 기초와 데이터 마트
1절 R 기초 : R 특징- 그래픽 처리, 데이터 처리 및 계산 능력, 패키지 R 설치 http://r-project.org
R 패키지 설치 install.packages(‘패키지 이름’) library(패키지 이름) ?par help(par)
R 데이터 구조 : 벡터, 행렬, 데이터 프레임, 데이터불러오기 read.table(‘.csv’, header=T, sep=‘,’) rep(1,3) seq(1,3)….
2절 데이터 마트
- R reshape를 활용한 데이터 마트 개발 : Reshape melt와 cast를 이용해 데이터를 재구성하거나 밀집화 된 데이터를 생성
- Sqldf SQL에서 사용하는 쿼리 문장 사용 가능
- Plyr 데이터 분리 다시 결함 등 처리 기능 ddply, ply 등
- 데이터 테이블 : data.table 패키지 데이터 프레임과 유사하지만 빠른 그룹화와 순서화 지원
3절 결측치 처리 및 이상값 검색
- 데이터 탐색
- 결측값 처리 : Amelia 패키지
- 이상값 검색 : outliers 패키지
- 2장 통계분석
1절 통계학 개론
- 통계분석 개요: 통계- 자료로 부터 유용한 정보를 이끌어내는 학문, 자료의 수집 정리 해석, 모집단, 표본, 표본 추출(단순랜덤추출법, 계통추출법, 집락추출법, 층화추출법), 자료의 종류(명목척도, 순서척도, 구간척도, 비율척도)
- 통계분석 : Statistical analysis 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 통계분석 방법을 이용해 의사결정하는 과정 (통계적 추론), 기술 통계, 추정, 가설검정, 예측
- 확률 및 확률 분포 : 확률 특정사건이 일어날 수 있는 가능성의 척도, 조건부확률, 확률변수, 확률 분포, 기댓값과 분산, 백분위수
- 추정과 가설검정 : 점추정- 모수, 모집단 모평균, 표본평균, 표본분산, 구간추정- 신뢰수준, 가설검정- 귀무가설, 대립가설, 검정통계량, p-value (관측자료가 특정 분포를 따른다고 가정하는 경우)
- 비모수검정: 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 방법 (관측 자료가 특정 분포를 따른다고 가정할수 없는 경우)
2절 기초통계분석
- 기술 통계 Descriptive Statistics 자료를 요약하는 기초적인 통계 R함수(data, summary, mean, median, sd, var, quantile, min, max 등)
- 회귀 분석 Regression Analytics : 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론하는 통계 기법 (단순회귀, 다중회귀, 다항회귀, 비선형회귀) R함수(lm, plot)
설명(독립)변수의 선택 - 모든 가능한 조합의 회귀분석, 단계적 변수선택(전진선택법, 후진선택법, 단계별방법stepwise) R함수(step)
3절 다변량 분석
- 상관분석 Correlation Analysis: 두변수간의 관계 확인, 상관계수(피어슨-등간척도, 스피어만-서열척도) R함수(cor, rcorr, cov)
- 다차원 척도법 Multidimensional Scaling, MDS) : 여러 대상 간의 거리가 주어져 있을 때 , 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 R함수(abline, cmdscale)
- 주성분 분석 Principal Component Analysis, PCA) : 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환 시키는 방법 R함수(princomp, loading)
4절 시계열 예측 Time-series Data
- 정상성 : 평균이 일정하다, 분산이 시점에 의존하지 않는다. 공분산은 시차에만 의존하고 시점 자체에는 의존하지 않는다. 이상점Outlier, 개입Intervention, 차분Difference, 변환Transformation
- 시계열 모형: 자기회귀 모형Autoregressive model, AR - 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다는 의미 백색잡음과정, 자기상관함수ACF 부분자기상관함수PACF
이동평균 모형(Moving Average model, MR - 현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현, 항상 정상성을 만족하여, 정상성가정이 필요없다.
자기회귀누적이동평균(ARIMA 모형)-차분을 통해AR,MR,ARMA정상화, 분해 시계열 - 추세 요인, 계절 요인, 순환요인, 불규칙요인 R함수(decompose, diff, act, pack, auto.arima, forecast)
- 3장 정형 데이터 마이닝
1절 데이터 마이닝 개요 : 데이터베이스에서의 지식발견, 지식추출, 정보수확, 정보고고학, 데이터패턴프로세싱
- 분류 Classification : 분류하고 범주화하고 등급을 나눔 - decision trees, memory-based reasoning, link analysis
- 추정 Estication : 수입, 수준, 신용카드 잔고 등 연속된 변수의 값을 추정 -신경망 모형neural networks
- 예측 Prediction : 미래의 양상을 예측하거나 미래의 값을 추정 - 장바구니 분석, decision trees, memory-based reasoning, 신경망
- 연관분석 Association Analysis : 같이 팔리는 물건과 같이 아이템의 연관성 파악 - 연관규칙 Association rules
- 군집 Clustering : 이질적인 모집단을 동질성을 지닌 그룹별로 세분화, 분류와의 차이는 선분류되어있는 기준에 의존하지 않고 자체의 유사성에 의해 그룹화됨
- 기술 Description : 데이터가 가지고 있는 의미를 기술하는 것 -목적 정의, 데이터 준비, 가공, 데이터마이닝 기법의 적용, 검증
2절 분류 분석 : 종속변수가 알려진 다변량 자료를 이용하여 모형을 구축하고 이를 통해 새로운 자료에 대한 예측 및 분류 수행
- 로지스틱 회귀모형 Logistic Regression : 종속변수가 범주형일때 적용되는 회귀분석 R함수(glm, chef, exp, confine, exp, fitted, predict, cdplot, lines, vs, anova)
- 신경망 모형 Artificial neural networks : 동물의 뇌 신경계를 모방하여 분류 또는 예측을 위해 만들어진 모형, 활성함수 -sign, step, sigmoid, softmax, tanh, gauss R함수(nnet, plot.nnet, neuralnet, net.infert, compute, set.seed)
- 의사결정나무 모형 Decision Tree : 나무구조로 분류 예측, 분류기준값 선택 방법- 카이제곱통계량, pvalue, 지니지수, 엔트로피 지수 r함수(rpart, rpart.plot, prp, rpart.plotcp, ctree)
- 앙상블 모형 Ensemble : 여러 분류 모형의 결과를 종합하여 분류의 정확도를 높이는 방법,
1) 배깅Bagging - 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 R함수(adabag.bagging)
2) 부스팅Boosting - 재표본 과정에서 동일한 확률이 아니라 분류가 잘못된 데이터에 더 큰 가중을 두어 표본을 추출하는 방식(확률 조정됨) 대표적인 아다부스팅AdaBoosting) R함수(adabag.boosting, barplot, pairs)
3) 랜덤포레스트Random Forest - 배깅에 랜덤 과정 추가 예측변수를 임의로 추출하고 추출된 변수내에 최적의 분할을 만들어 나가는 방법 R함수(randomForest, importance, varImpPlot)
- 모형평가 : 기준 (일반화의 가능성, 효율성, 예측과분류의 정확성) 검증용 자료 추출(홀드아웃방법랜덤 7:3, 교차검증k-fold, 붓스트랩방법 복원추출법) R함수(sample) 분류 모형 평가-
1) 오분류표(accuracy, error rate, sensitivity, specificity, Precisoin, Recall) R함수(caret.confusionMatrix)
2) ROC(reciever operation characteristic) R함수(Epi.ROC)
3) 이익도표(gain chart), 향상도곡선lift curve R함수(ROCR.prediction, performance)
3절 군집분석 : 여러 변수 값들로 부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 기법
- 계층적 군집 hierarchical clustering : 계통도, dendrogram, 병합적방법, 분할적 방법 거리 측정 방법(최단 연결법, 최장 연결법, 중심연결법, 평균연결법, 와드연결법-군집내 오차제곱합 이용)
거리(유클리드 거리, 맨하튼 거리, 민코우스키 거리, 표준화 거리, 마할라노비스 거리 등) R함수(hclust, dist, agnes, mclust, Diana, mona, cutree, rect.hclust cluster.agnes)
- K-means 군집 : 원하는 군집 수만큼 초기값을 지정하고 각 개체를 가까운 초기값에 할당하여 군집을 형성한 후 각 군집의 평균을 재계산하여 초기값 갱신, 반복하여 최종군집형성하는 방법 R함수(kmeans, scale, wssplot, Nbclust.nbclust, aggregate, flexclust.randIndex, flexclust.kcca, cclust.cclust, cluster.clusplot)
- 혼합 분포 군집 mixture distribution clustering : model based 군집방법, 데이터 k가 모수적 모형의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정에 모수와 함께 가중치를 자료로 부터 추정하는 방법
EM알고리즘 R함수(mixtools.normalmixEM, mclust.Mclust)
- SOM(Self-Organizing Maps): 코호넨 맵, 비지도 신경망으로 고차원 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 R함수(som, plot.kohonen, ggplot)
4절 연관분석 : 연관규칙- 항목간의 조건-결과식으로 표현되는 유용한 패턴, 장바구니 분석, 측정지표(
1)지지도support-전체거래중 품목 AB가 동시에 포함되는 거래비율,
2)신뢰도confidence-품목A가 포함된 거래중에서 품목 A,B를 동시에 포함된 거래수,
3)향상도lift - 품목B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률)
- 비정형 데이터 마이닝
1절 텍스트 마이닝
- 텍스트 마이닝의 기능 : 문서요약, 분류, 군집, 특성 추출
- 텍스트 마이닝의 기본 프로세스: tm패키지, 1)데이터 수집 twitteR 패키지
2)데이터 전처리 가공 Corpus 문서를 관리하는 기본구조 tm_map
3)자연어처리 스테밍- 공통어간을 가지는 단어를 묶기 위해 처리 koKLP 패키지
4)TDM구축 TermDocumentMatrix
5)분석 및 시각화 Association arules.apriori wordcloud 감성분석
2절 사회연결망 분석 SNA
기법: 중심성, 밀도, 중심화
중심성 방법: 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성
SNA 적용 - 노드, 점, 에지, 링크
'Review > Book_Data' 카테고리의 다른 글
데이터 분석 전문가 가이드 과목 5. 데이터 시각화 (0) | 2019.01.09 |
---|---|
데이터 분석 전문가 가이드 과목 3. 데이터 분석 기획 (0) | 2019.01.04 |
데이터 분석 전문가 가이드 과목 2. 데이터 처리 기술 이해 (0) | 2019.01.04 |
데이터 분석 전문가 가이드 과목1. 데이터 이해 (0) | 2018.12.16 |
한계 비용 체증의 법칙 (0) | 2016.07.09 |