机器学习中训练样本不均衡问题
【摘要】机器学习中训练样本不均衡问题 在实际中,训练模型用的数据并不是均衡的,在一个多分类问题中,每一类的训练样本并不是一样的,反而是差距
机器学习中训练样本不均衡问题
在实际中,训练模型用的数据并不是均衡的,在一个多分类问题中,每一类的训练样本并不是一样的,反而是差距很大。比如一类10000,一类500,一类2000等。解决这个问题的做法主要有以下几种:
欠采样:就是把多余的样本去掉,保持这几类样本接近,在进行学习。(可能会导致过拟合)
过采样:就是增加比较少样本那一类的样本数量,比如你可以收集多一些数据,或者对数据增加噪声,如果是图像还可以旋转,裁剪,缩放,平移等,或者利用PCA增加一些样本,等方法
第三种:就是直接采用不均衡数据进行训练,可以在代价函数那里需要增加样本权重,用来平衡这个问题,也就是类别数量少的那一类代价就高,权重就比较大。在评价模型好坏的时候也需要考虑样本权重问题。
上一篇:excel表格基本操作之从零开始学习
下一篇:基于大数据的消费者战略
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?