지도 학습 Supervised Learning
- 훈련 데이터(Training Data)로부터 하나의 함수를 유추함
- 훈련 데이터는 일반적으로 입력 객체에 대해 속성을 벡터 형태로 포함하고 있으며, 각각 벡터(독립변수)에 대해 원하는 결과(종속변수)가 포함
- 교차 검증(Cross-Validation) : Training Set, Test Set의 7:3 또는 8:2 샘플링
- 유추된 함수에 대해 Test Set을 입력 시 추론된 결과(종속 변수)와 실제 결과의 비교를 통해 정확도 측정 가능
실제 결과 / 분류 | |||
---|---|---|---|
참 | 거짓 | ||
추론된 결과 / 분류 | 참 | TP | FP |
거짓 | FN (false negative) | TN |
Confusion Matrix
(TPR : True Positive rate)
(TNR : True Negative Rate)
(PPV : Positive Predict Value)
ROC (Receiver Operating Characteristics) 수신자 조작 특성
2차 세계대전 중 진짜 신호와 거짓 알람을 구별하는 방법에서 개발
민감도 / 특이도 도표로써 기계 학습 모델의 시각화에 유용
완벽한 분류기 Perfect Classifier는 민감도 1 특이도 0인 직선이며, 이에 가까울 수록 성능이 좋음
AUC (Area Under Curve)
ROC 커브의 면적 통계에 의해 측정
1에 가까워야 기계 학습 모델의 성능이 좋음
ROC cut off 구하기
ROC 커브를 구성하는 각각의 점들이 모두 하나의 cut off가 되며
어느 특별한 cut off에서 그 지점에서의 민감도/특이도를 구할 수 있음
cut-off value를 구하는 것은 모델의 성능을 비교하는데 있어서
AUC 즉, 면적을 통한 비교와 cut-off value 즉, 얼마나 이상치(민감도 1, 1-특이도 0)와 가까운 점이 있는지 비교함.
cut-off value를 구하기 위해서는 아래와 같은 방법들이 있음
Euclidean method : 이상치(민감도 1, 1-특이도 0)으로 부터 ROC 커브의 각 점들까지의 거리를 계산해 가장 작은 값
Youden Index : ROC 커브의 각 점에서 기울기가 1인 직선을 그렸을 때 y절편이 가장 큰 값
Efficiency : 유병률(prevalence)를 고려한 계산
지도 학습을 이용한 알고리즘 예 (각 예시 실습을 Lecture 메뉴에서 R이나 Spark로 진행 예정)
- 서포트 벡터 머신 (support vector machine)
- 은닉 마르코프 모델 (Hidden Markov model)
- 회귀 분석 (Regression)
- 신경망 (Neural network)
- 나이브 베이즈 분류 (Naive Bayes Classification)
출처 :
https://ko.wikipedia.org/wiki/%EB%A8%B8%EC%8B%A0_%EB%9F%AC%EB%8B%9D
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
'Data > Info.' 카테고리의 다른 글
머신러닝 딥러닝 온라인 강의 / SNS / 논문 (0) | 2017.03.23 |
---|---|
기계학습Machine Learning - 강화 학습 유형(Multi armed bandit) (0) | 2016.02.07 |
기계학습Machine Learnig - 비지도 학습 (0) | 2016.02.07 |
기계학습Machine Learning - 정의, 목적별 분류 (0) | 2016.02.06 |
Big Data Overview (0) | 2016.01.01 |