기본적으로 활용되는 베이즈 정리에 대해 알아보자.

 

우선 베이즈 정리의 공식부터 확인해보도록 하자.

총 네 개의 확률값이 적혀져 있으며, 생김새도 거의 비슷비슷해 그냥 보기에는 의미를 파악하기가 어렵다.

P(H) : 사전 확률

P(H|E) : 사후 확률

 

네 개의 확률 값 중  는 각각 사전 확률, 사후 확률이라고 부른다.

베이즈 정리는 근본적으로 사전확률과 사후확률 사이의 관계를 나타내는 정리이다.

그렇다면, 우리는 사전확률과 사후확률의 의미를 파악함으로써 베이즈 정리가 말하는 바와 그 의의를 이해할 수 있을 것이다.


베이즈 정리를 이해하기 어려웠던 이유

베이즈 정리를 이해함에 있어서 가장 먼저 정리해야 할 개념은 ‘확률’에 관한 관점이다.

 

베이즈 정리의 의미를 이해하기 어려운 이유 중 하나는 고등학교 수준까지의 확률론에서는 ‘전통적인 관점’으로 확률을 정의해오고 이해해왔기 때문이다.

 

여기서는 확률이라는 단어를 ‘주장에 대한 신뢰도’로 생각해보자.

 

이러한 관점은 확률에 대한 베이지안 주의(Bayesianism) 관점으로 볼 수 있다.

반면, 전통적인 확률관은 빈도주의(frequentism)이라고 볼 수 있다.

 

확률에 대해 다르게 보는 방법이 바로 베이지안 주의이다.

주장에 대한 신뢰도로 봐야 한다는 것이다.

 

가령 동전의 앞면이 나올 확률이 50%라고 하면,

빈도주의자들은 100번 동전을 던졌을 때 50번은 앞면이 나온다고 해석하고,

베이지안 주의자들은 동전의 앞면이 나왔다는 주장의 신뢰도가 50%라고 보는 것.


용어 정리

E와 H가 무엇인지 알아보자.

 

H는 Hypothesis의 약자로써 가설 혹은 ‘어떤 사건이 발생했다는 주장’을 의미한다.

E는 Evidence의 약자로 ‘새로운 정보’를 의미한다.

 

따라서 는 어떤 사건이 발생했다는 주장에 관한 신뢰도, 

는 새로운 정보를 받은 후 갱신된 신뢰도를 의미한다.

 

그리고  는 각각 사전 확률, 사후 확률이라고 부르는데, 사전(事前), 사후(事後)라는 단어를 생각해본다면 어떤 일[事], 즉 여기선 ‘evidence를 관측하여 갱신하기 전 후의 내 주장에 관한 신뢰도’ 정도로 이해하면 될것이다.

사전 확률은 불확실성이 있다.

이것을 사건이나 근거를 가지고 이 신뢰도를 어떻게 하면 갱신할 수 있는지 수학적으로 해석해 놓은 것이 베이즈 정리이다.


확률론 패러다임의 전환 : 연역적 추론에서 귀납적 추론으로

베이즈 정리가 획기적인 이유는 통계학의 근본적인 패러다임을 수정했기 때문이다.

기존의 통계학은 앞서 설명했듯이 ‘빈도주의’ 관점을 기반으로 구성되어 있으며, 모두 연역적인 사고에 기반한다.

 

기존의 통계학에서는

엄격하게 확률 공간을 정의하거나

집단(모집단 혹은 표본집단)의 분포를 정의하고

그 뒤에 계산을 통해 파생되는 결과물들을 수용하는 패러다임을 차용한다.

 

반면에 베이지안 관점의 통계학에서는

사전 확률과 같은 경험에 기반한 선험적인, 혹은 불확실성을 내포하는 수치를 기반으로 하고,

거기에 추가 정보를 바탕으로 사전확률을 갱신한다.

 

P(H)P(H|E) 로 갱신하는 것이다.

 

이와 같은 방법은 귀납적 추론 방법이며, 베이지안 관점의 확률론/통계학에서는 추가적인 근거의 확보를 통해 진리로 더 다가갈 수 있다는 철학을 내포하고 있다는 점에서 확률론 패러다임에 큰 변화를 가져왔다고 할 수 있다.


예제 1.

질병 A의 발병률은 0.1%로 알려져있다. 이 질병이 실제로 있을 때 질병이 있다고 검진할 확률(민감도)은 99%, 질병이 없을 때 없다고 실제로 질병이 없다고 검진할 확률(특이도)는 98%라고 하자.

만약 어떤 사람이 질병에 걸렸다고 검진받았을 때, 이 사람이 정말로 질병에 걸렸을 확률은?

 

H : 실제로 병에 걸렸다.

E : 병에 걸렸다고 진단을 받았다.

 

이 세가지를 잘 정의할 수 있는 것이 중요하다.

  1. P(H) = 0.001
  2. P(E|H) = 0.99
  3. P(Ec|Hc) = 0.98

 

 

아직 우리는 P(E) 를 모른다.

P(E) : 질병에 걸렸다고 판단 받을 확률

= (질병에 걸릴 확률 x 질병에 걸렸는데 질병이 있다고 검진할 확률) + (질병에 안걸릴 확률 x 질병이 없는데 질병이 있다고 오진할 확률)

= {P(H) x P(E|H)} + {P(Hc) x P(E|Hc)}

P(E) 는 파란색 박스와 녹색 박스를 합친 값이다.

 


예제 2.

예제 1에서 한 번 양성 판정을 받았던 사람이

두 번째 검진을 받고 또 양성 판정을 받았을 때,

이 사람이 실제로 질병에 걸린 확률은?

 

예제 1에서 P(H) = 0.001 에서 

P(H|E) = 0.047 로 신뢰도가 갱신 되었다.

 

예제 2에서는 예제 1에서 갱신되었던 사후확률이 다시 사전확률로 사용이 된다.

 

결국 베이즈 정리가 말해주는 것은

사전확률과 사후확률의 관계에 대해서 말해주는데,

우리가 불확실성을 내포하는 사전확률에 대해서 추가정보를 통해 사전확률을 갱신함으로써

조금더 내 주장에 대한 신뢰도를 높여갈 수 있는 것이 베이즈 정리라고 할 수 있다.

 

Ref : https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

복사했습니다!