当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > 为什么说朴素贝叶斯是高偏差低方差?

为什么说朴素贝叶斯是高偏差低方差?

发布时间:2020年09月28日 04:09:30 来源: 点击量:615

【摘要】 大家在学习机器学习的时候可能听说过一种算法,这种算法就是朴素贝叶斯算法,而很多人说朴素贝叶斯算法是高偏差低方差,在这篇文章中我们

大家在学习机器学习的时候可能听说过一种算法,这种算法就是朴素贝叶斯算法,而很多人说朴素贝叶斯算法是高偏差低方差,在这篇文章中我们就详细的为大家介绍一下朴素贝叶斯为什么被说高偏差低方差的原因。

首先,我们假设知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但是我们却拿不到真正的测试数据。那么问题来了,怎么在只看到训练错误率的情况下,去衡量测试错误率呢?

而由于训练样本很少,因此通过训练集得到的模型,不是真正正确的。而且,在实际中,训练样本往往还有一定的噪音误差,所以如果太追求在训练集上的完美而采用一个很复杂的模型,会使得模型把训练集里面的误差都当成了真实的数据分布特征,从而得到错误的数据分布估计。如果按照这样的结果,到了真正的测试集上就错的很明显了。但是也不能用太简单的模型,否则在数据分布比较复杂的时候,模型就不足以刻画数据分布,而体现为连在训练集上的错误率都很高,这种现象较欠拟合。过拟合表明采用的模型比真实的数据分布更复杂,而欠拟合表示采用的模型比真实的数据分布要简单。

当然,在统计学习框架下,大家刻画模型复杂度的时候,很多人认为模型的预测错误率是有两部分组成的,一部分是由于模型太简单而带来的估计不准确的部分,另一部分是由于模型太复杂而带来的更大的变化空间和不确定性。其实这样的想法是正确的,所以说,这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的,是一个被严重简化了的模型。所以,对于这样一个简单模型,大部分场合都会不准确部分大于不确定部分,也就是说高偏差而低方差。所以说在实际中,为了让错误率尽量小,我们在选择模型的时候需要平衡不准确和不确定性所占的比例,这样当模型复杂度上升的时候,偏差会逐渐变小,而方差会逐渐变大。

相信大家看了这篇文章以后已经知道了为什么说朴素贝叶斯是高偏差低方差的原因了吧?大家在进行机器学习的时候一定要做到对每个算法有比较深入的了解。

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部