Bias-Variance Tradeoff / Andrew Ng의 데이터셋 나누기

[Bias-Variance Tradeoff]

2가지 종류의 에러

- Bias: 잘 모여있긴 한데 중앙에서 멀어짐

- Variance: 평균은 정답에 가깝지만 값별로 차이가 큼

에러는 Bias+Variance+noise

Variance - Overfitting이 일어날 수록 커짐

Bias - Underfitting일 수록 커질 수 있음

두 가지는 Trade off 관계

Train이 진행될 수록(함수가 복잡해질 수록) Bias가 내려가고 Variance가 올라가기 때문에

두 가지 에러의 합이 최저가 되는 점을 찾는 것이 Overfitting을 피하는 방법

[Andrew Ng의 데이터 셋 나누기]

기존의 Train - Validation - Test데이터로 나누던 것을

Train - Train_Validation - Test_Validation - Test 데이터로 나누면 좋음

1) Human -> Training Set 에서 오차가 있어 보이는 것은 Bias 에러일 수 있음 : Bigger model, Train longer 할 필요가 있음

2) Training Set -> Train_Validation 의 오차는 Variance 에러 일 수 있음 (Validation set에 너무 overfit 한 경우) : 더 많은 데이터로 정규화 필요

3) Train_Validation 과 Test_Validation의 오차는 Train 데이터와 Test 데이터의 mismatch가 있을 수있음 : 실제 환경에 가까운 Train 데이터가 필요

4) Test_Validation과 Test 데이터의 오차는 Test-Validation이 Overfit한 경우 : 더 많은 Test-Validation 파일이 필요함

딥러닝과 머신러닝의 차이는? (0)	2017.04.26
David Barber의 Machine Learning 분류 (1)	2017.03.28
누구나 처할 문제 오버피팅overfitting 과적합 (0)	2017.03.24
데이터를 보라! 상관은 있는데 인과는 모른다? (0)	2016.08.23
네가 만든 가설은 기각한다~ 귀무가설, 대립가설, 유의수준, 유의확률, 통계적 가설검정 (0)	2016.08.01

On the ball