机器学习的数据清理以及数据标准化!
【摘要】没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如,1、查看数据,并排除所有缺少大量数据的列。2、再次查看数据,然
没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如,
1、查看数据,并排除所有缺少大量数据的列。2、再次查看数据,然后选择要用于预测的列(特征选择)。进行迭代时,可能需要更改此内容。在其余列中排除仍缺少数据的任何行。3、纠正明显的错别字并合并等效答案。4、排除数据超出范围的行。例如,如果您要分析纽约市内的出租车行程,则需要过滤出市区外边界以外的上,下纬度和经度行。还可以做更多的事情,但这取决于收集的数据。这可能很乏味,但是如果在机器学习过程中设置了数据清理步骤,则可以随意修改并重复进行。
机器学习的数据编码和规范化
要将分类数据用于机器分类,需要将文本标签编码为另一种形式。有两种常见的编码。
一种是标签编码,这意味着每个文本标签值都用数字代替。另一种是一键编码,这意味着每个文本标签值都将变成具有二进制值(1或0)的列。大多数机器学习框架都具有进行转换的功能。通常,独热编码是首选,因为标签编码有时会使机器学习算法混淆,以为编码列应该是有序列表。
要将数字数据用于机器回归,通常需要将数据标准化。否则,具有较大范围的数字可能倾向于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价而被放大,并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习,包括最小-最大标准化,均值标准化,标准化以及按比例缩放到单位长度。此过程通常称为特征缩放。
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?