본문 바로가기
  • Let's go grab a data
Data/Talk

언제 들어도 헷갈리는 확률~ 확률이론, 조건부확률, 기대값

by pub-lican-ai 2016. 8. 1.
반응형
1) 스팸 걸러내기의 원리는 무엇일까요? 검색 키워드 베이즈 정리

특정 단어의 유무에 따라, 예를들어 '대출'이 들어가면 스팸, 안들어가면 정상메일로 구분하면 쉬운 일입니다. 다만 '대출'이라는 단어가 정상메일에도 존재할 수 있는 확률을 가지죠. 따라서 기존의 수신메일을 사람이 스팸으로 분류한 데이터를 학습 데이터로 스팸과 정상 메일의 확률, 각각의 상황에서 해당 단어 유무에 따른 스팸 확률을 계산해놓습니다.

예를 들면) 제가 지금까지 받은 메일을 분석해 보니 80%는 스팸이고 20%는 정상메일이었습니다. 각 메일의 단어를 조사해보니 스팸메일 중 95%에 '대출'이라는 단어가 포함되어 있었고, 정상메일의 2%에서도 '대출'이라는 단어를 볼 수 있었습니다. 이제 새로운 메일을 받았는데 '대출'이라는 단어가 들어있을 경우, 이 메일이 스팸일 확률은?

[문제에서 알려준 확률]

P(스팸): 스팸 메일일 확률 -> 0.8   P(정상): 정상 메일일 확률 -> 0.2
P(대출|스팸): 스팸 메일 중 대출 단어가 포함될 조건부확률 -> 0.95
P(대출|정상): 정상 메일 중 대출 단어가 포함될 조건부확률 -> 0.02

[우리가 알고자하는 확률]
P(스팸|대출): 대출 단어가 포함된 이 메일이 스팸 메일일 조건부확률 -> ?

[베이즈정리에 의해 알아낼 수 있는 확률]
P(스팸|대출) = P(스팸∩대출)/P(대출) = P(대출|스팸)P(스팸)/P(대출)

[여기서 우리가 이미 아는 확률은]
P(대출|스팸) -> 0.95, P(스팸) -> 0.8

[우리가 유추해낼 수 있는 확률은]
P(대출) = P(대출∩스팸)+P(대출∩정상) = P(대출|스팸)P(스팸)+P(대출|정상)P(정상) = 0.95*0.8+0.02*0.2 = 0.764

[계산]
P(스팸|대출) = P(스팸∩대출)/P(대출) = P(대출|스팸)P(스팸)/P(대출) = 0.95 * 0.8 / 0.764 = 0.9948 즉 99.5%확률로 스팸이다!

[여기서 헷갈리는거 하나]
P(대출∩스팸): 결합Joint 확률로써 스팸이면서 대출 단어가 있을 확률 -> 각각의 확률을 곱하여 계산, P(스팸∩대출)과 같은 값
P(대출|스팸): 조건부Conditional 확률로써 스팸메일의 경우의 수 기반으로(공역) 대출 단어가 있을 확률 -> P(대출∩스팸)/P(스팸) 으로 계산, P(스팸|대출)과 다른 값

-참고-
a. 사전확률(prior probablility); 관측자가 이미 알고 있는 사전으로부터 나온 확률
b. 우도 (likehood probability); 이미 알고 있는 사건이 발생했다는 조건하에 다른 사건이 발생할 확률
c. 사후확률(posterior probability); 사전확률과 우도를 통해서 알게되는 조건부 확률

2) 복권 1등 상금 1000원 확률 1/4

    복권 2등 상금 200원 확률 1/2

    복권 3등 상금 -1500원 확률 1/4

    우리는 이 복권을 사야할까? 사지 말아야 할까? 검색 키워드 확률변수의 기대값

.

복권에서의 상금은 1등, 2등, 3등이 연속적인 값이 아닌 각각이 이산적인 값으로 상금을 주기 때문에 이산확률변수라고 볼 수 있습니다.

기대값Expected Value란 확률분포의 집중화 경향을 나타내는 것으로 확률변수가 취할 수 있는 모든 값들의 평균을 의미합니다

분산Variance란 확률변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는 지를 알 수 있는 것으로 확률분포가 어느 정도 퍼져 있는가를 나타냅니다.

이산 확률 분포에서 기대값은 각각 이산확률변수의 * 확률을 곱해 모두 더한 값으로 계산할 수 있습니다.

즉, 1000*1/4 + 200*1/2 + -1500*1/4 = -25(원) 우리는 이 복권을 사지 말아야겠네요~!

반응형