본문 바로가기
  • Let's go grab a data
Data/Info.

기계학습Machine Learning - 지도 학습 유형

by pub-lican-ai 2016. 2. 6.
반응형

지도 학습 Supervised Learning

  • 훈련 데이터(Training Data)로부터 하나의 함수를 유추함
  • 훈련 데이터는 일반적으로 입력 객체에 대해 속성을 벡터 형태로 포함하고 있으며, 각각 벡터(독립변수)에 대해 원하는 결과(종속변수)가 포함
지도학습 검증방법 (Accuracy, Sensitivity, Specificity, Precision, ROC, AUC)
  • 교차 검증(Cross-Validation) : Training Set, Test Set의 7:3 또는 8:2 샘플링
  • 유추된 함수에 대해 Test Set을 입력 시 추론된 결과(종속 변수)와 실제 결과의 비교를 통해 정확도 측정 가능
     - True Positive : 유추된 함수에 의해 추론된 결과(참)와 실제 결과가 같음. 관심 범주를 정확하게 분류
     - False Positive : 실제 결과가 거짓인데 참으로 추론한 경우. 관심 범주로 잘못 분류
     - False Negative : 실제 결과가 참인데 거짓으로 추론한 경우. 관심 범주가 아닌 것으로 잘못 분류
     - True Negative : 유추된 함수에 의해 추론된 결과(거짓)와 실제 결과가 같음. 관심 범주가 아닌 것을 정확하게 분류

실제 결과 / 분류

 참

 거짓 
추론된
결과 / 분류

TP
(true positive)

FP
(false positive)

거짓FN
(false negative)

TN
(true negative)

Confusion Matrix  

(TPR : True Positive rate)

(TNR : True Negative Rate)

 (PPV : Positive Predict Value)



ROC (Receiver Operating Characteristics) 수신자 조작 특성

2차 세계대전 중 진짜 신호와 거짓 알람을 구별하는 방법에서 개발

민감도 / 특이도 도표로써 기계 학습 모델의 시각화에 유용

완벽한 분류기 Perfect Classifier는 민감도 1 특이도 0인 직선이며, 이에 가까울 수록 성능이 좋음


AUC (Area Under Curve) 

ROC 커브의 면적 통계에 의해 측정

1에 가까워야 기계 학습 모델의 성능이 좋음



ROC cut off 구하기

ROC 커브를 구성하는 각각의 점들이 모두 하나의 cut off가 되며

어느 특별한 cut off에서 그 지점에서의 민감도/특이도를 구할 수 있음

cut-off value를 구하는 것은 모델의 성능을 비교하는데 있어서 

AUC 즉, 면적을 통한 비교와 cut-off value 즉, 얼마나 이상치(민감도 1, 1-특이도 0)와 가까운 점이 있는지 비교함.

cut-off value를 구하기 위해서는 아래와 같은 방법들이 있음

  • Euclidean method : 이상치(민감도 1, 1-특이도 0)으로 부터  ROC 커브의 각 점들까지의 거리를 계산해 가장 작은 값  

                              


  • Youden Index : ROC 커브의 각 점에서 기울기가 1인 직선을 그렸을 때 y절편이 가장 큰 값

  • Efficiency : 유병률(prevalence)를 고려한 계산

 



지도 학습을 이용한 알고리즘 예 (각 예시 실습을 Lecture 메뉴에서 R이나 Spark로 진행 예정)



출처 : 

https://ko.wikipedia.org/wiki/%EB%A8%B8%EC%8B%A0_%EB%9F%AC%EB%8B%9D

https://en.wikipedia.org/wiki/Receiver_operating_characteristic

https://en.wikipedia.org/wiki/Integral

http://blog.naver.com/kjhnav/220505025154

반응형