Classification 분류 종속변수가 정수 또는 클래스
Regression 회귀 종속변수가 실수
Regression에서의 Metric 측정은
실제와 예측 함수(회귀함수) 사이의 거리값의 합으로 성능을 평가할 수 있음
그 거리가 클 수록 정확도가 떨어짐
예를 들어 L2 norm, L1 norm, L-infinite norm 값
Classification 에서의 Metric 측정은
Accuracy 전체 정답률 - 일반적이지만 inbalance한 데이터의 경우 눈 먼 값이 될 수 있음
Precision 양성 항목 정답률 - 여기서 양성 항목이란 내가 집중하는 항목
Recall 양성 항목 검출률 - 여기서 검출률이란 실제 내가 집중하는 항목만 봤을 때 판정 정답률
1000명 환자 |
정상판정 |
암판정 |
정상환자 |
988 |
2 |
암환자 |
1 |
9 |
여기서 Accuracy는 1000명 중 맞춘 것 988명 + 9명 = 99.7% 와 정확도 좋네~ 하지만!
Precision은 실제 중요한건 대부분이 정상인 사람들을 정상이라고 판정해서 좋을게 아니라
몇 안되는 암판정 중에 실제 암환자를 맞춘게 내 암판정 알고리즘의 정확도이다.
그래서 내가 내린 암판정 11명(2+9) 중에 실제 암인 사람 9명이 내 암판정 알고리즘의 정확도 정답률 = 81.8%
Recall은 실제 암환자가 총 10명인데 그중에 내가 검출해 낸 사람은? 10명 검출능력 = 90%
데이터를 먼저 보고 3가지를 모두 확인할 필요가 있다.
출처 : https://www.youtube.com/watch?v=1jboC7nWnfM
'Data > Talk' 카테고리의 다른 글
데이터의 질 - intra-/inter-class variability (0) | 2017.07.20 |
---|---|
순환신경망 RNN (Recurrent Neural Network) (0) | 2017.06.09 |
합성곱신경망 CNN (Convolutional Neural Network) (0) | 2017.06.02 |
인공신경망ANN (단일, 다중 계층 퍼셉트론) (0) | 2017.05.23 |
딥러닝과 머신러닝의 차이는? (0) | 2017.04.26 |