如何用簡單易懂的語言描述樸素貝葉斯分類器?
簡單來說,它是基于出現概率進行粗略的分類
初次接觸到這個概念是在大學選修數據挖掘的時候,貝葉斯分類基于貝葉斯定理,屬于分類中的基本概念。
簡單來說,它是基于出現概率進行粗略的分類,比說,要將若干電影分類,一個電影出現親吻的鏡頭以及一男一女單獨的鏡頭概率大,就將此分為愛情片,如果打斗場面出現的概率大就將電影分為動作片。聽上去不太“靠譜”,但是分類算法的比較研究發現,樸素貝葉斯分類法可以與決策樹和經過挑選的神經網絡媲美。用于大型數據庫,貝葉斯分類法也已表現出高準確率和高速度。
樸素貝葉斯分類法假定一個屬性值在給定類上的影響獨立于其他屬性的值。這一假定稱為類條件獨立性。做此假定是為了簡化計算,并在此意義下稱為“樸素的”。
工作流程:
第一階段——準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。
第二階段——分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。
第三階段——應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
