朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率的最大输出 y。
朴素贝叶斯法的学习与分类
基本方法
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
后验概率计算根据贝叶斯定理进行:
朴素贝叶斯法的参数估计
极大似然估计
学习与分类算法
朴素贝叶斯算法(naive Bayes algorithm)
贝叶斯估计
用极大似然估计可能会出现所要估计的概率为 0 的情况。这时会影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地,条件概率的贝叶斯估计是 式中 λ>=0。等价于在随机变量各个取值的频数上赋予一个正数 λ>0。当 λ=0 时就是极大似然估计。常取 λ=1,这时称为拉普拉斯平滑(Laplace smoothing)。显然,对任何 l=1,2,…,K。有 。同样,先验概率的贝叶斯估计是