본문 바로가기
  • Let's go grab a data
Data/DataMining

[데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에변환

by pub-lican-ai 2016. 3. 31.
반응형

[데이터 전처리]특징 추출, 차원 축소, 상관 분석, 주성분 분석, 푸리에 변환 #feature vector #Correlation #Covariance #Dimensionality Reduction #PCA #FFT


데이터 특징 추출 Feature Vector generation

[목적]

- 모든 데이터 셋의 변수를 모두 측정하고 다룰 수 없다

- 측정가능한 subset으로 추출/변환/축소하여 Summarization한다

- 특징 추출은 데이터 마이닝의 중요한 컨셉이다


상관도와 공분산 또한 데이터의 특징 추출하는 중요한 방법 

상관도Correlation

두 변수간의 관계를 -1~1값으로 표현함

-1에 가까울 수록 음의 상관관계, 1에 가까울 수록 양의 상관관계



공분산Covariance

상관도에 각 표준편차를 곱한 값


차원 축소 Demensionality Reduction

[목적]

-Curse of Dimensionality 차원의 저주 : 많은 차원의 데이터를 다루는 것은 효율성과 정확도가 감소함

-실제 데이터에 영향을 미치는 고유차원은 작다


주성분 분석 PCA(Principal Components Analysis)

[목적]

- 데이터를 대표하는 주성분(Principal Components)을 찾아 변수의 차원(개수)을 줄이는 목적

- 변수에 의한 데이터의 overlap을 감소시키는 목적


[방법]

- 데이터를 가장 잘 설명하는 회귀 계수를 생성하고 선형 결합한 회귀식을 각각 주성분으로 추출하며, 각 주성분은 직교orthogonal하는 특징을 가짐

- PCA를 수행하기 전에 반드시 normalization을 통해 데이터를 일반화 해야 함.


[표현]

기존의 변수 X1,X2,...,Xk

생성된 주성분 Y1,Y2,...,Yk

Y1 = a11X1 + a12X2 + ... + a1kXk

Y2 = a21X1 + a22X2 + ... + a2kXk

...

Yk = ak1X1 + ak2X2 + ... + akkXk

Yk는 uncorrelated(orthogonal)함

Y1이 원본 데이터 셋을 가장 많이 설명하며, Y1부터 임의의 Y까지 데이터 설명력이 충분히 높은 것을 선별하여 변수 갯수를 축소할 수 있음


푸리에 변환 분석 Fourier Transform

[Idea]

시간 영역의 신호를 주파수 영역으로 변환하는 Fourier알고리즘을 통해 눈에 보이지 않는 신호의 특징을 추출함


[방법]

Fourier Transform

-모든 주기 신호는 사인 함수와 코사인 함수의 합으로 표현 가능 (Fourier)

-비주기 신호는 사인, 코사인 함수의 적분으로 표현 가능 (Fourier)

-n개 샘플링을 통해 변환하는 Discrete Fourier Transform 제안(Cooley and Tukey)

-DFT를 회귀적으로 계산하는 Fast Fourier Transform 제안(Cooley and Tukey)

-임의의 기본파형wavelet으로 변환하는 Wavelet Transform 제안(Alfred Haar)


[표현] FFT



반응형