[Bias-Variance Tradeoff]
2가지 종류의 에러
- Bias: 잘 모여있긴 한데 중앙에서 멀어짐
- Variance: 평균은 정답에 가깝지만 값별로 차이가 큼
에러는 Bias+Variance+noise
Variance - Overfitting이 일어날 수록 커짐
Bias - Underfitting일 수록 커질 수 있음
두 가지는 Trade off 관계
Train이 진행될 수록(함수가 복잡해질 수록) Bias가 내려가고 Variance가 올라가기 때문에
두 가지 에러의 합이 최저가 되는 점을 찾는 것이 Overfitting을 피하는 방법
[Andrew Ng의 데이터 셋 나누기]
기존의 Train - Validation - Test데이터로 나누던 것을
Train - Train_Validation - Test_Validation - Test 데이터로 나누면 좋음
1) Human -> Training Set 에서 오차가 있어 보이는 것은 Bias 에러일 수 있음 : Bigger model, Train longer 할 필요가 있음
2) Training Set -> Train_Validation 의 오차는 Variance 에러 일 수 있음 (Validation set에 너무 overfit 한 경우) : 더 많은 데이터로 정규화 필요
3) Train_Validation 과 Test_Validation의 오차는 Train 데이터와 Test 데이터의 mismatch가 있을 수있음 : 실제 환경에 가까운 Train 데이터가 필요
4) Test_Validation과 Test 데이터의 오차는 Test-Validation이 Overfit한 경우 : 더 많은 Test-Validation 파일이 필요함
출처 : ㅇNIPS2016 Lecture https://www.youtube.com/watch?v=F1ka6a13S9I
'Data > Talk' 카테고리의 다른 글
딥러닝과 머신러닝의 차이는? (0) | 2017.04.26 |
---|---|
David Barber의 Machine Learning 분류 (0) | 2017.03.28 |
누구나 처할 문제 오버피팅overfitting 과적합 (0) | 2017.03.24 |
데이터를 보라! 상관은 있는데 인과는 모른다? (0) | 2016.08.23 |
네가 만든 가설은 기각한다~ 귀무가설, 대립가설, 유의수준, 유의확률, 통계적 가설검정 (0) | 2016.08.01 |