누구나 처할 문제 오버피팅overfitting 과적합
[Overfitting]
underfit : 너무 단순하게 모델 생성하여 모델의 데이터 설명력이 떨어짐
overfit : 너무 테스트 데이터에만 함몰된 모델 생성
미지의 데이터까지 어떻게 generalization 하느냐가 중요함.
적절한 복잡도의 model selection problerm
Train error가 0이 될 수 있지만 이보다 Test error를 잡는것이 중요함
[Overfitting 피하기]
- Train / Test / Validation Set
Train을 하면 할 수록 error가 내려가지만
Test error는 감소하다가 증가하는 시점이 나타남 그 이후가 Overfitting 시점
방법 Validation set에서의 에러가 증가하는 시점에서 Training을 멈추고 마지막에 한번 Test Set으로 결과 산출
가정) Test Set은 전체 데이터를 잘 대표할 수 있어야 함
Validation Set은 Test Set을 잘 대표할 수 있어야 함
데이터가 많으면 더 많은 Validation을 거칠 수록 좋음
[Bias-Variance Tradeoff]
2가지 종류의 에러
- Bias: 잘 모여있긴 한데 중앙에서 멀어짐
- Variance: 평균은 정답에 가깝지만 값별로 차이가 큼
에러는 Bias+Variance+noise
Variance - Overfitting이 일어날 수록 커짐
Bias - Underfitting일 수록 커질 수 있음
두 가지는 Trade off 관계
Train이 진행될 수록(함수가 복잡해질 수록) Bias가 내려가고 Variance가 올라가기 때문에
두 가지 에러의 합이 최저가 되는 점을 찾는 것이 Overfitting을 피하는 방법
'Data > Talk' 카테고리의 다른 글
David Barber의 Machine Learning 분류 (0) | 2017.03.28 |
---|---|
Bias-Variance Tradeoff / Andrew Ng의 데이터셋 나누기 (0) | 2017.03.27 |
데이터를 보라! 상관은 있는데 인과는 모른다? (0) | 2016.08.23 |
네가 만든 가설은 기각한다~ 귀무가설, 대립가설, 유의수준, 유의확률, 통계적 가설검정 (0) | 2016.08.01 |
표본은 믿을만한가~ 모집단, 모수, 표본, 통계량, 중심극한정리 (0) | 2016.08.01 |