본문 바로가기
  • On the ball
반응형

Data/DataMining3

[데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에변환 [데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에 변환 #feature vector #Correlation #Covariance #Dimensionality Reduction #PCA #FFT 데이터 특징 추출 Feature Vector generation[목적]- 모든 데이터 셋의 변수를 모두 측정하고 다룰 수 없다- 측정가능한 subset으로 추출/변환/축소하여 Summarization한다- 특징 추출은 데이터 마이닝의 중요한 컨셉이다 상관도와 공분산 또한 데이터의 특징 추출하는 중요한 방법 상관도Correlation두 변수간의 관계를 -1~1값으로 표현함-1에 가까울 수록 음의 상관관계, 1에 가까울 수록 양의 상관관계 공분산Covariance상관도에 각 표준편차를 곱한 값.. 2016. 3. 31.
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환 [데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 통합, 데이터 변환 #missing value #outlier #noise 결측치 채워넣기 Missing Value Imputation1) 중심 경향 값 넣기 (평균, 중앙값, 최빈값 등) - 분산이 줄어들고, 소수의 평균이 전체를 대표하는 경우가 생김, 극단값에의해 평균이 영향 받음, Mid-minimum spacing: 양측 5%제거하고 평균 예) 피겨스케이팅 점수 계산2) 랜덤 추출(분포 기반) - 랜덤에의해 자주 나타나는 값이 채워짐3) Regression Imputation 회귀 삽입 - 변수내의 값들의 평균이 아닌 각 관측치의 특성을 고려하여 삽입, 기초 Imputation 먼저하고 회귀식에 의해 타겟 소실 데이터를 채움4) EM algo.. 2016. 3. 30.
[데이터 마이닝] 개요, 과대적합, 예시, 프로세스 [데이터 마이닝] 개요, 소개, 데이터 전처리 [데이터 마이닝 개요]데이터 마이닝 정의- 데이터 분석툴을 통해 데이터 속의 패턴과 관계를 찾는 프로세스- 사람의 적은 노력 또는 노력 없이 진행하는 탐색적 데이터 분석 Exploratory Data Analysis with little or no human interaction using computationally feasible techniques. 데이터 마이닝과 통계학의 차이는?통계학은 과거 학습 데이터를 통해 현황을 파악하고 데이터의 설명력을 높이기 위한 목적데이터 마이닝은 예측 모형을 만들어 새로운 fresh 데이터에서 예측력을 높이기 위한 목적 과대적합 over-fitting데이터를 설명하는 R제곱 값만 높인다는 것은 outlier들을 모두 포.. 2016. 3. 14.
반응형