베이지안 스팸 필터란 것을 알게 된 건 "넘버스"라는 미국 드라마를 통해서 이다. 예전에 케이블 TV에서 얼핏 해주던 것을 봤었는데 범죄수사에 수학이 사용되는 것을 소재로 한 드라마다. 개인적인 소견이지만 정말 재미있다. 강추 강추. ㅋ
소재상 많은 수학적 개념(가끔 통계적인 용어도 등장하지만 통계학도 크게보면 수학에 포함 되니...)이 등장하는데 매번 등장하는 용어들이 나의 호기심을 자극하곤 했다. 그 중의 하나가 "베이지안 스팸 필터"라는 건데 많은 수의 용의자들 가운데 가장 범행 동기가 강력한 자를 추려내는데 이용했다.
궁금해서 조금 찾아 봤는데 기본적인 이론은 "베이즈 정리"를 이용한 방법이다. (참고사이트 : 베이지안 스팸 필터 간략 소개)
베이즈 정리는 18세기 영국인 수학자 베이즈(R.T. Bayes, 1702~1762)가 제안한 것으로 다음과 같다.('통계학 - 엑셀을 이용한분석' 참조)

참고사이트에서와 동일하게 개념을 전개 해보면
A : 임의의 단어(word)가 메일에 포함된 사건
W1 : 받은 메일이 스팸메일일 사건
W2 : 받은 메일이 클린메일일 사건
으로 정의 할 때 A에 어떤 단어(word)가 포함 되면 그 메일을 스팸메일이라고 하고 싶다면 A사건이 발행 했을 때 메일은 스팸메일이 될 확률이 클린 메일이 될 확률보다 높을 것이다.
P(W2|A) < P(W1|A)
이를 정리하면
P(A|W1) / P(A|W2) < P(W1) / P(W2)
로 정리가 된다. 지금까지 수집된 메일에서 스팸메일일 확률 P(W1), 클린메일일 확률 P(W1), 스팸메일중에서 word가 포함되었을 확률 P(A|W1), 클린 메일 중에서 word가 포함되었을 확률 P(A|W2)를 계산 할 수 있다. 예를 들면 스팸메일일 확률 P(W1)의 경우 다음과 같이 계산 할 수 있다.
스팸메일의 수
P(W1) = -----------------
전체 메일의 수
즉 지정 되어지는 단어 각각에 대한 확률을 계산하여 해당 메일의 class를 구별할 수 있다. P(W1)/P(W2)를 threadhold라고 하는데 이 값이 좌변보다 크면 우리는 메일을 스팸메일이라고 판단하는 것이다. (인용된 사이트에 베이지안 결정론이라고 적혀있던데 좀 찾아봐야 할 것 같다...)
이제까지의 내용으로 (드라마에서의 )적용을 추측해보면 판사의 부인을 살해한 사건에 관련 되는 여러 항목들을 만들어 낸다. 예를들면 과거 판결의 관련성(판사일 때 판결로 인한 직접 또는 간접적 불이익, 검사일 때 판결로 인한 직접 또는 간접적 불이익), 차후 판결의 관련성, 개인적인 원한 등등 사건 유발과 관련된 항목들을 정리 하고 각 항목에 대한 베이지안 필터링을 적용한다.
각 항목에 대한 위협도(일종의 가중치)를 부과하여 가장 높은 점수를 받는 용의자를 추려낸다.
이상으로 추측을 했는데 각 항목에 대한 내용이 드라마에 나오지 않으니 추측이 정확하다는 생각이 들지 않는다. 'ㅅ') 어쨌든 다음에 어떻게든 이용, 응용이 가능하리라 생각되고 재미있는 내용이라 정리를 한다. 'ㅅ')/
수학이나 물리에 관심 있으시면 한번 보세요 'ㅅ')b
P.S. 드라마에서는 많은 수학적 용어를 사용하고 대략적인 예를 들고 있는데 정보가 너무 적어서 조금 답답하다. 조금 더 자세하면 좋겠는데..
P.S.2. 드라마 보면서 아쉬운건 수학자 치고 수식을 너무 못적는다.. = _=) 수식을 적는건지 그리는건지....ㅋ 그래도 연기는 잘하더라 - 0-)b
소재상 많은 수학적 개념(가끔 통계적인 용어도 등장하지만 통계학도 크게보면 수학에 포함 되니...)이 등장하는데 매번 등장하는 용어들이 나의 호기심을 자극하곤 했다. 그 중의 하나가 "베이지안 스팸 필터"라는 건데 많은 수의 용의자들 가운데 가장 범행 동기가 강력한 자를 추려내는데 이용했다.
궁금해서 조금 찾아 봤는데 기본적인 이론은 "베이즈 정리"를 이용한 방법이다. (참고사이트 : 베이지안 스팸 필터 간략 소개)
베이즈 정리는 18세기 영국인 수학자 베이즈(R.T. Bayes, 1702~1762)가 제안한 것으로 다음과 같다.('통계학 - 엑셀을 이용한분석' 참조)

참고사이트에서와 동일하게 개념을 전개 해보면
A : 임의의 단어(word)가 메일에 포함된 사건
W1 : 받은 메일이 스팸메일일 사건
W2 : 받은 메일이 클린메일일 사건
으로 정의 할 때 A에 어떤 단어(word)가 포함 되면 그 메일을 스팸메일이라고 하고 싶다면 A사건이 발행 했을 때 메일은 스팸메일이 될 확률이 클린 메일이 될 확률보다 높을 것이다.
P(W2|A) < P(W1|A)
이를 정리하면
P(A|W1) / P(A|W2) < P(W1) / P(W2)
로 정리가 된다. 지금까지 수집된 메일에서 스팸메일일 확률 P(W1), 클린메일일 확률 P(W1), 스팸메일중에서 word가 포함되었을 확률 P(A|W1), 클린 메일 중에서 word가 포함되었을 확률 P(A|W2)를 계산 할 수 있다. 예를 들면 스팸메일일 확률 P(W1)의 경우 다음과 같이 계산 할 수 있다.
스팸메일의 수
P(W1) = -----------------
전체 메일의 수
즉 지정 되어지는 단어 각각에 대한 확률을 계산하여 해당 메일의 class를 구별할 수 있다. P(W1)/P(W2)를 threadhold라고 하는데 이 값이 좌변보다 크면 우리는 메일을 스팸메일이라고 판단하는 것이다. (인용된 사이트에 베이지안 결정론이라고 적혀있던데 좀 찾아봐야 할 것 같다...)
이제까지의 내용으로 (드라마에서의 )적용을 추측해보면 판사의 부인을 살해한 사건에 관련 되는 여러 항목들을 만들어 낸다. 예를들면 과거 판결의 관련성(판사일 때 판결로 인한 직접 또는 간접적 불이익, 검사일 때 판결로 인한 직접 또는 간접적 불이익), 차후 판결의 관련성, 개인적인 원한 등등 사건 유발과 관련된 항목들을 정리 하고 각 항목에 대한 베이지안 필터링을 적용한다.
각 항목에 대한 위협도(일종의 가중치)를 부과하여 가장 높은 점수를 받는 용의자를 추려낸다.
이상으로 추측을 했는데 각 항목에 대한 내용이 드라마에 나오지 않으니 추측이 정확하다는 생각이 들지 않는다. 'ㅅ') 어쨌든 다음에 어떻게든 이용, 응용이 가능하리라 생각되고 재미있는 내용이라 정리를 한다. 'ㅅ')/
수학이나 물리에 관심 있으시면 한번 보세요 'ㅅ')b
P.S. 드라마에서는 많은 수학적 용어를 사용하고 대략적인 예를 들고 있는데 정보가 너무 적어서 조금 답답하다. 조금 더 자세하면 좋겠는데..
P.S.2. 드라마 보면서 아쉬운건 수학자 치고 수식을 너무 못적는다.. = _=) 수식을 적는건지 그리는건지....ㅋ 그래도 연기는 잘하더라 - 0-)b



덧글
까칠한JC 2008/10/11 23:05 # 답글
베이지안 결정론은 변수의 수가 많아질수록 추정법이 복잡해지며, 추정 정확도가 떨어지는 이상 현상을 보이기도 합니다. ^^ 그러나 스팸 메일 필터링에서는 단어 몇개만을 가지고 작동하기 때문에 간편하면서도 잘 추정한다고 하더군요.
불탄五징어 2008/10/12 10:06 #
오호.. 그런 단점이 있군요 'ㅅ') 제가 찾아본 것에는 그런 이야기가 전혀 없어서.. =ㅅ=);조언 감사합니다! ^^)
organizer 2008/10/12 11:50 # 답글
흥미는 있는데, 도통, 공부, 특히 수학이나 물리 따위에는 젬병이라는....내용 중에 이 베이시안(? 베이지안) 필터를 이용해서 용의자를 가려 낸다는 방법은 참신해 보입니다.
(우리 나라 경찰/검찰들도 이런 방법을 사용하고 있겠지요..??)
불탄五징어 2008/10/12 11:53 #
재미있는게 드라마에서도 초기에 찰스 교수(수학자)가 형(던, FBI 반장)의 일을 돕겠다고 할때주의의 반응은 그다지 긍정적이진 않더라구요.
"오 신기하네, 그렇것도 있나?, 뭐 해서 도움되면 좋고"라는 식의 반응이 대부분이더군요 'ㅅ')
우리나라에서는 어떨지 모르겠네요 ^^)