본문 바로가기
  • On the ball
Data/Talk

Accuracy, Precision, Recall

by pub-lican-ai 2018. 5. 9.
반응형

Classification 분류   종속변수가 정수 또는 클래스

Regression 회귀    종속변수가 실수


Regression에서의 Metric 측정은

실제와 예측 함수(회귀함수) 사이의 거리값의 합으로 성능을 평가할 수 있음

그 거리가 클 수록 정확도가 떨어짐

예를 들어 L2 norm, L1 norm, L-infinite norm 값


Classification 에서의 Metric 측정은

Accuracy 전체 정답률  - 일반적이지만 inbalance한 데이터의 경우 눈 먼 값이 될 수 있음

Precision 양성 항목 정답률  - 여기서 양성 항목이란 내가 집중하는 항목

Recall 양성 항목 검출률  - 여기서 검출률이란 실제 내가 집중하는 항목만 봤을 때 판정 정답률


 1000명 환자

정상판정 

암판정 

정상환자 

 988

 2

암환자

 1

 9


여기서 Accuracy는 1000명 중 맞춘 것 988명 + 9명 = 99.7%   와 정확도 좋네~ 하지만!

Precision은 실제 중요한건 대부분이 정상인 사람들을 정상이라고 판정해서 좋을게 아니라

몇 안되는 암판정 중에 실제 암환자를 맞춘게 내 암판정 알고리즘의 정확도이다.

그래서 내가 내린 암판정 11명(2+9) 중에 실제 암인 사람 9명이 내 암판정 알고리즘의 정확도 정답률 = 81.8%

Recall은 실제 암환자가 총 10명인데 그중에 내가 검출해 낸 사람은? 10명 검출능력 = 90%


데이터를 먼저 보고 3가지를 모두 확인할 필요가 있다. 



출처 : https://www.youtube.com/watch?v=1jboC7nWnfM


반응형