为什么要有m-估计?
当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:
1、nc/n产生了一个有偏的过低估计概率。
2、当此概率估计为0时,将来的查询此概率项将会在贝叶斯分类器中占统治地位。原因是贝叶斯公式中计算得量其他所有概率项都将乘以此0值。
为了避免此问题,所以需要采用一种估计概率,即如下定义的m-估计:
其中nc为该类别中的样本数量,n为总样本数量,p为将要确定的概率的先验估计,m为等效样本大小的常量。
为什么m-估计的公式是这样的?
首先,请思考问题出现的根本原因,问题出现的根本原因是样本数量过小。所以为了避免此问题,最好的方法是等效的扩大样本的数量,即在为观察样本添加m个等效的样本,所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。
为什么在贝叶斯应用(如mahout)中使用的公式如下呢?
其中nk为单词W出现的次数,n为所有单词出现的次数。
其实,这只是m的取值的关系,当等效样本数m为词汇表中的单词数时,自然取统一的先验概率的p的值就是1/|vocabulary|咯。
http://blog.csdn.net/cyningsun/article/details/8671975
相关推荐
第一卷详细介绍了经典估计理论和贝叶斯估计,总结了各种估计方法,考虑了维纳滤波和卡尔曼滤波,并介绍了对复数据和参数的估计方法。本卷给出了100多个应用实例,范围包括高分辨率谱分析、系统辨识、数字滤波器设计...
为消除朴素贝叶斯分类时的零概率以及过度拟合问题,分析了各种概率平滑方法,给出了基于M估计的多关系朴素贝叶斯分类方法(MRNBC-M)和基于Laplace估计的多关系朴素贝叶斯分类方法(MRNBC-L),分析探讨了M平滑和...
第11章:缺少数据建模和贝叶斯估计视图示例 第12章:蒙特卡洛模拟研究查看示例 第13章:示例:特殊功能 第14章:特殊建模问题 第 15 章:标题、数据、变量和定义命令 第16章:分析命令 第17章:MODEL命令 第 ...
psybayes.m实现了Kontsevich和Tyler(1999)的贝叶斯自适应Ψ方法,通过最大化信息增益(包括失误;参见Prins 2012)来估计心理测验函数的参数。 它还支持Prins(2013)的marginal-Ψ方法。 有关文档和有效的使用示例...
3-estimate_:估计给定数据的模型4-classify_:根据模型和数据进行分类5-测试:使用 alpha=1:0.1:1000 测试 Naive 分类器并在可视化文件夹中打印一个名为 (accuracy 1-1000.pdf) 的图6- InspectTheModel:尝试衡量...
当前文章(第2部分)的目的是通过贝叶斯方法和最大似然(ML)方法确定∧(m,s2)的位置和比例参数(m,s),并比较结果。 分析的结果之一是通过杰弗里斯的规则解决了有关适当贝叶斯先验问题的问题。 结果表明,...
利用Monte Carlo仿真技术,得到不同分位点模型参数后验分布,同时用贝叶斯probit分位回归与分位回归方法和光滑分位回归方法对模型参数估计进行比较分析.研究结果表明:贝叶斯Probit分位回归模型可以更全面描述离散选择...
TVP-VAR模型的贝叶斯估计 此仓库包含有关如何使用TVP-VAR模型进行贝叶斯分析的信息。 在深入研究代码之前,您应该看一下Bayes_TVPVAR_Presentation文件。 这将使您对TVP-VAR与常规VAR模型有何不同以及我们如何在TVP...
该算法首先根据灰色相关度对缺失数据一个估计,估计值作为执行EM算法的初始值,迭代执行E步M步后完成缺失数据的填补,然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明,改进算法具有较高的分类准确度。并将...
贝叶斯方法正在变得越来越常见与重要,但是却没有太多可以借鉴的资料来帮助初学者。基于Allen Downey在大学讲授的本科课程,本书的计算方法能帮助你获得一个良好的开端。 使用已有的编程技巧学习和理解贝叶斯统计...
贝叶斯方法正在变得越来越常见与重要,但是却没有太多可以借鉴的资料来帮助初学者。基于Allen Downey在大学讲授的本科课程,本书的计算方法能帮助你获得一个良好的开端。 使用已有的编程技巧学习和理解贝叶斯统计 ...
Babadi,一种用于非平稳数据的贝叶斯多锥方法及其在EEG分析中的应用; 2017年12月2日,宾夕法尼亚州费城,IEEE医学和生物学信号处理研讨会(SPMB17)。 (关联: ) 日期:2017年6月5日 要求:在Matlab R2016b版本中...
将Iris数据集进行分类,利用最大后验估计的贝叶斯方法。Matlab代码。
贝叶斯模型matlab代码帕累托平滑重要性抽样 (PSIS) 和 PSIS 留一法交叉验证参考代码 介绍 这些文件为 Matlab/Octave 和 Python(由 制作的 Python 端口)实现了帕累托平滑重要性采样 (PSIS) 和 PSIS 留一法交叉验证...
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1 方法概述 学习(参数估计) 实现:朴素贝叶斯下...
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1 方法概述 学习(参数估计) 实现:朴素贝叶斯下...