当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > 机器学习的数据清理以及数据标准化!

机器学习的数据清理以及数据标准化!

发布时间:2020年09月28日 03:54:33 来源: 点击量:448

【摘要】没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如,1、查看数据,并排除所有缺少大量数据的列。2、再次查看数据,然

没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如,

1、查看数据,并排除所有缺少大量数据的列。2、再次查看数据,然后选择要用于预测的列(特征选择)。进行迭代时,可能需要更改此内容。在其余列中排除仍缺少数据的任何行。3、纠正明显的错别字并合并等效答案。4、排除数据超出范围的行。例如,如果您要分析纽约市内的出租车行程,则需要过滤出市区外边界以外的上,下纬度和经度行。

还可以做更多的事情,但这取决于收集的数据。这可能很乏味,但是如果在机器学习过程中设置了数据清理步骤,则可以随意修改并重复进行。

机器学习的数据编码和规范化

要将分类数据用于机器分类,需要将文本标签编码为另一种形式。有两种常见的编码。

一种是标签编码,这意味着每个文本标签值都用数字代替。另一种是一键编码,这意味着每个文本标签值都将变成具有二进制值(1或0)的列。大多数机器学习框架都具有进行转换的功能。通常,独热编码是首选,因为标签编码有时会使机器学习算法混淆,以为编码列应该是有序列表。

要将数字数据用于机器回归,通常需要将数据标准化。否则,具有较大范围的数字可能倾向于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价而被放大,并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习,包括最小-最大标准化,均值标准化,标准化以及按比例缩放到单位长度。此过程通常称为特征缩放。

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部