数据分析师必须掌握的7种回归分析方法
【摘要】数据分析师的日常工作包括制作报告、发现数据重点和收集数据并设置基础设施等内容,其中偏向技术性的工作就是收集数据本身,这当中必定少不了要利用一些数据分析法来辅助工作。那么,今天小编就为大家整理了数据分析师要掌握的一些数据分析方法,一起来看看吧!
1、线性回归
线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
2、逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=FAIlure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
3、多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:
明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。
4、逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
5、岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。
6、套索回归
它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7、回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。
关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?