반응형
데이터의 질 - intra-/inter-class variability
데이터의 질에 따라 머신러닝을 통한 분석의 결과가 바뀐다
Intra- 클래스 내부의 분산이 어떤가
Inter- 클래스간 분산이 어떠냐
위 이미지에서 위쪽 줄은 Intra-class variability가 작다 아래 줄은 크다
왼쪽 두 산점도는 Inter-class variability가 크다 오른쪽 두 산점도는 작다
그래서 inter-가 크고 intra-가 작은 Input으로 만들어주는 것이 좋다
= 클래스 별로 잘 구분되는 것이 좋고 클래스 내부에 서로 뭉쳐있는 것이 좋다
예) 성적을 예측하라
X: 키, 몸무게, 사교육, IQ, 소득, 형제, 이성친구, 인터넷 사용시간, 게임 시간, 소비금액, 등등
high dimension - 다 때려 넣을 수 없고, 많은 데이터가 필요하다.
Feature selection - 어떤 Feature가 좋은지 선택
Feature extraction - Feature간의 관계에 의해 새로운 수식으로 만드는 새로운 Feature
반응형
'Data > Talk' 카테고리의 다른 글
Accuracy, Precision, Recall (0) | 2018.05.09 |
---|---|
순환신경망 RNN (Recurrent Neural Network) (0) | 2017.06.09 |
합성곱신경망 CNN (Convolutional Neural Network) (0) | 2017.06.02 |
인공신경망ANN (단일, 다중 계층 퍼셉트론) (0) | 2017.05.23 |
딥러닝과 머신러닝의 차이는? (0) | 2017.04.26 |