机器学习中的有监督和无监督都包括些什么?
【摘要】机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为
机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测数字答案,例如下个月在曼哈顿商店出售的小部件的数量)。
无监督学习可进一步分为聚类(查找类似对象的组,例如跑鞋,步行鞋和正装鞋),关联(查找对象的常见序列,例如咖啡和奶油)和降维(投影,特征选择) ,以及特征提取。
分类算法
分类问题是有监督的学习,要求在两个或多个类别之间进行选择,通常为每个类别提供概率。除了需要大量高级计算资源的神经网络和深度学习之外,最常见的算法是朴素贝叶斯,决策树,逻辑回归,K最近邻和支持向量机(SVM)。也可以使用集成方法(模型的组合),例如“随机森林”,其他“装袋”方法以及增强方法(例如,AdaBoost和XGBoost)。
回归算法
回归问题是有监督的学习,要求模型预测数字。最简单,最快的算法是线性(最小二乘)回归,但一般不应止步于此,因为它通常会返回一个中等的结果。其他常见的机器学习回归算法(缺少神经网络)包括朴素贝叶斯,决策树,K最近邻,LVQ(学习矢量量化),LARS套索,弹性网,随机森林,AdaBoost和XGBoost。值得注意的是,用于回归和分类的机器学习算法之间存在一些重叠。
聚类算法
聚类问题是一种无监督的学习问题,它要求模型查找相似数据点的组。最受欢迎的算法是K-Means聚类;其他包括均值漂移聚类,DBSCAN(基于噪声的应用程序基于空间的聚类),GMM(高斯混合模型)和HAC(分层聚类)。
降维算法
降维是一个无监督的学习,它要求模型删除或组合对结果影响很小或没有影响的变量。这通常与分类或回归结合使用。降维算法包括删除具有许多缺失值的变量,删除具有低方差的变量,决策树,随机森林,删除或组合具有高相关性的变量,后向特征消除,前向特征选择,因子分析和PCA(主成分分析)。
优化方法
训练和评估可以通过优化监督算法的参数权重,找到最适合数据真实性的一组值,从而将监督学习算法转变为模型。算法通常将最速下降的变量用于优化程序,例如随机梯度下降,它是从随机起始点多次执行的最速下降。
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 3大常用的数据分析工具是什么?
- 4 数据分析的具体流程是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 rdd是什么?
- 10 数据分析的基本步骤