当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > 数据挖掘中的特征选择问题

数据挖掘中的特征选择问题

发布时间:2020年09月28日 19:52:45 来源: 点击量:449

【摘要】数据挖掘中的特征选择问题 特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而

数据挖掘中的特征选择问题

特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法:

①计算每一个特征与响应变量的相关性:计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;

②构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征;

③通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;

④训练能够对特征打分的预选模型:RandomForest和LogisticRegression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;

⑤通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型。

⑥通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部