Data/Talk
데이터의 질 - intra-/inter-class variability
pub-lican01
2017. 7. 20. 10:19
데이터의 질 - intra-/inter-class variability
데이터의 질에 따라 머신러닝을 통한 분석의 결과가 바뀐다
Intra- 클래스 내부의 분산이 어떤가
Inter- 클래스간 분산이 어떠냐
위 이미지에서 위쪽 줄은 Intra-class variability가 작다 아래 줄은 크다
왼쪽 두 산점도는 Inter-class variability가 크다 오른쪽 두 산점도는 작다
그래서 inter-가 크고 intra-가 작은 Input으로 만들어주는 것이 좋다
= 클래스 별로 잘 구분되는 것이 좋고 클래스 내부에 서로 뭉쳐있는 것이 좋다
예) 성적을 예측하라
X: 키, 몸무게, 사교육, IQ, 소득, 형제, 이성친구, 인터넷 사용시간, 게임 시간, 소비금액, 등등
high dimension - 다 때려 넣을 수 없고, 많은 데이터가 필요하다.
Feature selection - 어떤 Feature가 좋은지 선택
Feature extraction - Feature간의 관계에 의해 새로운 수식으로 만드는 새로운 Feature
반응형