bayes
寫在前面:這篇文章是用來幫助理解貝氏分類器的前置作業的一篇直觀理解的文章
,有鑑於許多人對數學符號不熟悉,因此我希望用稍微故事一點的方式說明。
射飛鏢遊戲

夜市是台灣特殊的文化,講到夜市,除了吃之外,最讓人津津樂道的還有各種帶點運氣味道的遊戲。舉例來說,像是用超 市買的到的紅標米酒的空罐擺滿

一個約莫四五個人站的小區塊,老闆總是笑吟吟的拿著擴音器喊著價,一組圈圈50元,套中玻璃瓶有賞,還有類似的提供一組飛鏢,射破氣球有賞。類似這種遊戲總是能吸引過客駐足,雖然大部分的時候沒看見什麼人抱走大獎,不過也是一個令人感到親切的夜市文化。提到這個有趣的文化,我們就利用這個回憶來做一個思想實驗。這會幫助我們直覺的理解貝氏分類器的原理。

好進入正題,首先我們想像一下一個特別的射飛鏢遊戲,如下圖,我們用一隻飛鏢去射眼前藍色和紫色圓的區域,為了保證隨機性,我們只能閉上眼朝前面射出,因此我們不會預先知道飛鏢可能落入的範圍。

01

直覺告訴我們,射中紫色的機會一定比藍色的大,這是為何呢?因為面積較大,比較有機會中。因此,就這個衡量飛鏢落入藍色或紫色的範圍的可能程度,我們就用面積表示。此時第一個公式出現了,我們用P(X) 且X=藍或紫 表示射中藍或紫的機率大小。基於射中機率正比於藍或紫的面積,反比於全部面積,可以寫成以下公式:

P(藍)=藍色面積/全部面積

P(紫)=紫色面積/全部面積

這個公式就是古典機率公式,事件發生的機率=該事件的所有排列組合/全部事件的排列組合。

接下來發揮一點想像力,如果們的紫色標靶和藍色標靶是可以被射破的,現在我們把此色標靶往前面挪,藍色標靶往後,類似下圖的側視立體圖。這樣一前一後的標靶,讓我在玩一次射飛鏢。如果我們在飛鏢已經射入紫色區域的附近,但還沒飛到藍色區域的時候我們在此刻觀測飛鏢的位置會得到三種結論:

飛鏢A-射破紫色區域,也會射到藍色區域的飛鏢,飛鏢B-射破紫色區域但不會射到藍色區域的飛鏢,飛鏢C-沒有射中紫色區域也不會落入藍色區域的飛鏢。

02.png

我們感興趣的是飛鏢的狀態。這種已經確定射破紫色區域,然後會落入藍色區域的機率如何計算?根據前面面積的想法,我們可以說這樣的機率等於紫且藍的面積大小除以紫色面積(假設觀測者只知道飛鏢已經穿過紫色區域,但不知道未來會不會掉進藍色區域)。第二個公式出現了,這就是所謂的條件機率

P(藍|紫)=藍且紫的面積/紫色面積

數學的嚴格定義如下:

若A,B為樣本空間中的兩事件,且P(B)>0 ,
則在給定B發生之下,A的條件機率以P(A|B)表示,
定義為P(A|B)=P(A^B)/P(B)

最後,我們再來看如果我們直接去看既穿過紫色區塊且又穿過藍色區塊的飛鏢的機率,我們直覺上還是用第一個公式的方法,藍且紫的面積/全部面積。數學上稱之為聯合機率 。稍微整理一下這三種面積計算機率的方法:

P(紫)=紫面積/全面積

P(藍|紫)=藍且紫的面積/紫色面積

P(藍^紫)=藍且紫的面積/全部面積

可以發現

P(藍|紫)* P(紫)=(藍且紫的面積/紫色面積)*(紫色面積/全面積)= P(藍^紫)

P(A^B) = P(A|B) *P(B)=P(B|A) *P(A)

P(A|B) *P(B)=P(B|A) *P(A)

得到

貝氏定理

P(A|B) = P(B|A) *P(A)/ P(B)

寫到這裡,如果對貝氏定理的數學計算有興趣的話,可以參考一位教授周志成教授寫的文章 條件機率與貝氏定理 會有更數理的抽象計算。 我會在下一篇文章用故事的方式來講貝氏分類器的範例。