机器学习中训练样本不均衡问题

发布时间：2020年09月28日 12:11:02 来源：点击量：569

【摘要】机器学习中训练样本不均衡问题在实际中，训练模型用的数据并不是均衡的，在一个多分类问题中，每一类的训练样本并不是一样的，反而是差距

机器学习中训练样本不均衡问题

在实际中，训练模型用的数据并不是均衡的，在一个多分类问题中，每一类的训练样本并不是一样的，反而是差距很大。比如一类10000，一类500，一类2000等。解决这个问题的做法主要有以下几种：

欠采样：就是把多余的样本去掉，保持这几类样本接近，在进行学习。（可能会导致过拟合）

过采样：就是增加比较少样本那一类的样本数量，比如你可以收集多一些数据，或者对数据增加噪声，如果是图像还可以旋转，裁剪，缩放，平移等，或者利用PCA增加一些样本，等方法

第三种：就是直接采用不均衡数据进行训练，可以在代价函数那里需要增加样本权重，用来平衡这个问题，也就是类别数量少的那一类代价就高，权重就比较大。在评价模型好坏的时候也需要考虑样本权重问题。

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：基于大数据的消费者战略

VBA实战速成：从零到一的突破

数据分析师 62次课共11小时

吴开斌

火热报名中

¥1299

WPS高效数据管理

数据分析师 17次课共4小时

王忠超

火热报名中

¥1299

Fine BI 商业智能数据分析

数据分析师 27次课共6小时

王忠超

火热报名中

¥1299

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行