[데이터 마이닝] 개요, 소개, 데이터 전처리
[데이터 마이닝 개요]
데이터 마이닝 정의
- 데이터 분석툴을 통해 데이터 속의 패턴과 관계를 찾는 프로세스
- 사람의 적은 노력 또는 노력 없이 진행하는 탐색적 데이터 분석
Exploratory Data Analysis with little or no human interaction using computationally feasible techniques.
데이터 마이닝과 통계학의 차이는?
통계학은 과거 학습 데이터를 통해 현황을 파악하고 데이터의 설명력을 높이기 위한 목적
데이터 마이닝은 예측 모형을 만들어 새로운 fresh 데이터에서 예측력을 높이기 위한 목적
과대적합 over-fitting
데이터를 설명하는 R제곱 값만 높인다는 것은 outlier들을 모두 포함하기 때문에 데이터 마이닝에서는 기피대상
빅데이터 분석과 데이터 마이닝의 차이는?
빅데이터는 데이터를 저장(수집) - 가공(전처리, 변환) - 분석 - 처리(해석, 전략도출) 하는 프로세스
데이터 마이닝은 가장 중요한 분석 부분 중점
모형별 데이터 마이닝 분류
- 예측 모형Predictive Model : 1) 회귀 Regression 연속적인 값, 선형 비선형 회귀분석, 학습/테스트 데이터
2) 분류 Classification 관리되는Supervised, 학습/테스트 데이터, 예) direct mail, 신용도 평가
- 기술 모형Descriptive Model : 1) 군집 Clustering 관리되지 않는 Unsupervised, 해석가능한
2) 관계 Link Analysis 연관성 발견 예)장바구니 분석
데이터 마이닝 예시
신용 평가Credit Scoring, Direct mail을 통한 New Customers 분석, 고객 이탈 방지 Retaining good customers, 고객 관계 관리 Customer Relationship Management, 보험 사기 발견Fraud Detection, 보험 청구 예측Insurance Application, E-commerce, Retailer, Medical Applications, Pharmaceutical Applications
Steps in Data Mining
1. Define/understand purpose
2. Obtain data (may involve random sampling)
3. Explore, Clean, pre-process data
- Cleaning : 결측치 대체, 잡음 평활, 이상치 확인 및 제거, 불일치 해결
- Integration : 일관성 있는 데이터 형태로 변환
- Transformation : 정규화normalization, 집합화Aggregation, 요약Summarization
4. Reduce the data
- Reduction : 차원 축소, 샘플링, 컴퓨팅 시간 고려한 데이터 축소
- Discretization : 수치형을 범주형으로 변환
- Descriptive characteristics minig 데이터 표현 특징 추출 : 대표 특징feature 추출
5. Specify task (classification, clustering, etc.)
6. Choose the techniques (regression, CART, neural networks, etc.)
7. Iterative implementation and "tuning"
8. Assess results - compare models
9. Deploy best model
2~4는 데이터 전처리
'Data > DataMining' 카테고리의 다른 글
[데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에변환 (3) | 2016.03.31 |
---|---|
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환 (0) | 2016.03.30 |