[데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에 변환 #feature vector #Correlation #Covariance #Dimensionality Reduction #PCA #FFT
데이터 특징 추출 Feature Vector generation
[목적]
- 모든 데이터 셋의 변수를 모두 측정하고 다룰 수 없다
- 측정가능한 subset으로 추출/변환/축소하여 Summarization한다
- 특징 추출은 데이터 마이닝의 중요한 컨셉이다
상관도와 공분산 또한 데이터의 특징 추출하는 중요한 방법
상관도Correlation
두 변수간의 관계를 -1~1값으로 표현함
-1에 가까울 수록 음의 상관관계, 1에 가까울 수록 양의 상관관계
공분산Covariance
상관도에 각 표준편차를 곱한 값
차원 축소 Demensionality Reduction
[목적]
-Curse of Dimensionality 차원의 저주 : 많은 차원의 데이터를 다루는 것은 효율성과 정확도가 감소함
-실제 데이터에 영향을 미치는 고유차원은 작다
주성분 분석 PCA(Principal Components Analysis)
[목적]
- 데이터를 대표하는 주성분(Principal Components)을 찾아 변수의 차원(개수)을 줄이는 목적
- 변수에 의한 데이터의 overlap을 감소시키는 목적
[방법]
- 데이터를 가장 잘 설명하는 회귀 계수를 생성하고 선형 결합한 회귀식을 각각 주성분으로 추출하며, 각 주성분은 직교orthogonal하는 특징을 가짐
- PCA를 수행하기 전에 반드시 normalization을 통해 데이터를 일반화 해야 함.
[표현]
기존의 변수 X1,X2,...,Xk
생성된 주성분 Y1,Y2,...,Yk
Y1 = a11X1 + a12X2 + ... + a1kXk
Y2 = a21X1 + a22X2 + ... + a2kXk
...
Yk = ak1X1 + ak2X2 + ... + akkXk
Yk는 uncorrelated(orthogonal)함
Y1이 원본 데이터 셋을 가장 많이 설명하며, Y1부터 임의의 Y까지 데이터 설명력이 충분히 높은 것을 선별하여 변수 갯수를 축소할 수 있음
푸리에 변환 분석 Fourier Transform
[Idea]
시간 영역의 신호를 주파수 영역으로 변환하는 Fourier알고리즘을 통해 눈에 보이지 않는 신호의 특징을 추출함
[방법]
Fourier Transform
-모든 주기 신호는 사인 함수와 코사인 함수의 합으로 표현 가능 (Fourier)
-비주기 신호는 사인, 코사인 함수의 적분으로 표현 가능 (Fourier)
-n개 샘플링을 통해 변환하는 Discrete Fourier Transform 제안(Cooley and Tukey)
-DFT를 회귀적으로 계산하는 Fast Fourier Transform 제안(Cooley and Tukey)
-임의의 기본파형wavelet으로 변환하는 Wavelet Transform 제안(Alfred Haar)
[표현] FFT
'Data > DataMining' 카테고리의 다른 글
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환 (0) | 2016.03.30 |
---|---|
[데이터 마이닝] 개요, 과대적합, 예시, 프로세스 (0) | 2016.03.14 |