学习目标:
- 说明条件概率与联合概率
- 阐述贝叶斯公式以及特征独立的关系
- 记忆贝叶斯公式的应用
- 理解拉普拉斯平滑系数
- 应用朴素贝叶斯进行概率计算和商品评论的情感分析
概率,定义为事件发生的可能性。
- 例如,抛出一个,结果头像朝上的可能性。
在深入讲解这两个概率之前,我们通过一个实例来计算一些结果:
- 问题一:你喜欢的女生可能的概率是多少?
- 问题二:职业是程序员且体型匀称的概率是多少?
- 问题三:在喜欢的女生中,其职业为程序员的概率是多少?
- 问题四:在喜欢的女生中,职业是程序员且体重超重的概率如何?
思考这些问题后,我们将会用到朴素贝叶斯进行求解。在讲解贝叶斯公式之前,我们先来复习一下联合概率、条件概率和相互独立的概念。
联合概率:包含多个条件,且所有条件同时成立的概率。
- 记作:P(A,B)
条件概率:指在另外一个事件发生的条件下,某个事件发生的概率。
- 记作:P(A|B)
相互独立:如果P(A,B)等于P(A)乘以P(B),则称事件A与事件B相互独立。
公式介绍
接下来,我们将详细介绍贝叶斯公式的原理和应用。
朴素贝叶斯的原理
朴素贝叶斯分类器是基于贝叶斯定理和特征条件独立假设的分类方法。简单来说,它假设特征与特征之间是相互独立的。
朴素贝叶斯的朴素之处:
- 它假定了特征之间的独立性,即当已知类别时,各个特征变量的取值是独立的。
贝叶斯公式的应用实例
以文章分类为例,我们来详细解释贝叶斯公式的应用过程。
P(类别) :每个文档类别的概率(某文档类别数/总文档数量)。
P(词|类别) :给定类别下特征(被预测文档现的词)的概率。
计算方法举例:P(F1|C) = Ni/N(训练文档中计算),其中Ni为词F1在类别C中所有文档现的次数,N为所属类别C下的文档所有词出现的次数和。
对于两个类别的概率比较,我们只需比较前面的大小,得出概率大的类别即可。
文章分类计算实例
需求:通过前四个训练样本(文章),判断第五篇文章是否属于“China”类。
- 朴素贝叶斯分类器
- 'alpha':拉普拉斯平滑系数。