上篇文章我们先容了K隔壁算法,本日我们接着来学习另一个根本的分类方法,朴素贝叶斯算法。

朴素贝叶斯(Naive Bayes)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。

那么我们须要先理解一下贝叶斯算法。

一、贝叶斯公式

贝叶斯公式又被称为贝叶斯规则,其事理大概是:当不能准确知道事物实质时,可以根据与事物特定实质干系的事宜涌现的多少去判断该事物的实质。

朴素贝叶斯算法若何用AI买到好瓜

比如,我们虽然无法准确的知道某个西瓜是不是好西瓜,但是我们可以通过敲击声、光荣、根蒂形状等特色去判断是否是好西瓜,如果它的敲击声沉闷、光荣青绿、根蒂蜷缩,那我们根据履历可以判断它大概率是个好西瓜。

贝叶斯公式中涉及到先验概率、条件概率、后验概率、联合概率等根本观点,详细阐明如下:

先验概率:事宜A根据履历来判断发生的概率,记作P(A)。
比如从历史数据中统计出西瓜“光荣青绿”事宜的概率为60%,那么P(光荣青绿)=60%条件概率:事宜B在事宜A已发生条件下的概率,记作P(B|A)。
比如从历史数据中统计出西瓜为“好瓜”时,“光荣青绿”的概率为80%,那么P(光荣青绿|好瓜)=80%后验概率:基于先验概率求得的反向条件概率。
P(B|A)是A发生后B的条件概率,也可以称作B的后验概率,所往后延概率的公式和条件概率一样,但差异在于条件概率是从历史数据中统计得来,而后验概率是基于先验概率和条件概率打算得来。
联合概率:表示两个事宜共同发生的概率。
A与B的联合概率一样平常表示为P(AB)或P(A,B)。
比如“光荣青绿”(事宜A)和“敲击声沉闷”(事宜B)同时发生的概率为30%,则事宜A和事宜B同时发生的概率P(AB)=30%

实际上,贝叶斯的事理便是根据先验概率和条件概率估算得到后验概率。

二、朴素贝叶斯的事理

朴素贝叶斯是在贝叶斯事理的根本上,假定特色与特色之间相互独立,从而得到了如下朴素贝叶斯的公式:

我们以挑选好西瓜为例,拆解一下这个公式,为了方便理解,我们从西瓜的浩瀚特色中,仅挑选“光荣青绿”一个特色,来表达如果一个西瓜“光荣青绿”的话,如何打算它为“好瓜”的概率。

假设公式里的A代表“好瓜”,B代表“光荣青绿”,那么我们可以得到如下几个概率:

P(A):历史数据中,统计西瓜为“好瓜”的概率,比如70%P(B):历史数据中,统计西瓜为“光荣青绿”的概率,比如60%P(B|A):历史数据中,统计西瓜为“好瓜”时,“光荣青绿”的概率,比如75%

那么我们就可以根据这几个概率,代入公式,打算得到P(A|B),即西瓜“光荣青绿”时,为“好瓜”的概率:P(A|B) = P(B|A)P(A)/P(B) = 0.750.7/0.6 = 87.5%

也便是说,当西瓜“光荣青绿”时,有87.5%的概率是“好瓜”。

当然,仅仅靠一个特色是无法判断西瓜好坏的,那么多个特色的时候要怎么打算呢?我们来扩展一下,再引入一个“敲击声沉闷”特色。

也便是假设A1代表“好瓜”,A2代表“坏瓜”,B1代表“光荣青绿”,B2代表“敲击声沉闷”,打算当西瓜同时具备“光荣青绿”和“敲击声沉闷”特色时,为好瓜或坏瓜的概率。

P(A1):历史数据中,统计西瓜为“好瓜”的概率,比如70%P(A2):历史数据中,统计西瓜为“坏瓜”的概率,比如30%P(B1B2):历史数据中,统计西瓜同时具备“光荣青绿”和“敲击声沉闷”特色的概率,比如30%P(B1B2|A1):历史数据中,统计西瓜为“好瓜”时,同时具备“光荣青绿”和“敲击声沉闷”特色的概率,比如40%P(B1B2|A2):历史数据中,统计西瓜为“坏瓜”时,同时具备“光荣青绿”和“敲击声沉闷”特色的概率,比如15%

我们将以上概率代入公式,分别得到如下结果:

P(A1|B1B2) = P(B1B2|A1)P(A1)/P(B1B2) = 0.40.7/0.3= 93.33%P(A2|B1B2) = P(B1B2|A2)P(A2)/P(B1B2) = 0.150.3/0.3 = 15%

也便是说,当西瓜同时具备“光荣青绿”和“敲击声沉闷”特色时,有93.33%的概率是“好瓜”,15%的概率是“坏瓜”。

三、运用处景

朴素贝叶斯假设条件之间相互独立,以是比较适用于特色相对独立的场景:

文本分类:朴素贝叶斯算法能够有效地处理高维度的特色空间,而文本常日以词袋模型或者 TF-IDF 来表示,特色维度较高。
垃圾邮件过滤:朴素贝叶斯算法能够通过统计每个词在垃圾邮件和非垃圾邮件中涌现的频率,来打算词的条件概率,自动识别和过滤垃圾邮件。
情绪剖析:朴素贝叶斯算法能够通过统计情绪词汇在正面文本和负面文本中涌现的频率,来打算情绪词的条件概率,判断文本的情绪方向。
个性化推举:朴素贝叶斯算法能够通过统计用户对不同物品的喜好频率,来打算物品的条件概率,从而预测用户对不同物品的喜好程度。

四、优缺陷

朴素贝叶斯算法的优点:

逻辑大略:朴素贝叶斯是一种基于概率统计的分类算法,其打算速率快,适用于大规模数据集。
算法的事理大略,实现随意马虎,不须要太多的参数调度。
快速高效:朴素贝叶斯打算效率高,可以处理具有高维特色空间的大型数据集。
可以处理不干系的特色:朴素贝叶斯可以处理数据集中不干系的特色,并且仍旧表现良好。

朴素贝叶斯算法的缺陷:

假设条件之间相互独立:朴素贝叶斯假设条件之间相互独立,这就导致其有很大的局限性,只有在条件很少且相互独立时,才有较好的效果无法处理连续变量:朴素贝叶斯假设特色是离散的,对付连续型数据须要进行离散化处理,可能会导致信息丢失须要足够的样本数据:朴素贝叶斯是基于统计学的算法,须要足够的样本数据来估计概率分布参数,否则会导致概率估计不准确,影响效果

五、总结