如何用stata做稳健回归

发布时间：2020年09月28日 10:50:00 来源：点击量：926

【摘要】如何用stata做稳健回归大量的线性回归模型是基于最小二乘法实现的，但其仍存在一些局限性。比如说，样本点出现许多异常点时，传统的最小二

如何用stata做稳健回归

大量的线性回归模型是基于最小二乘法实现的，但其仍存在一些局限性。比如说，样本点出现许多异常点时，传统的最小二乘法将不再适用，此时则可以使用稳健回归（robust regression）代替最小二乘法。

操作

下面的稳健回归使用的是犯罪数据，该数据来自Alan Agresti和Barbara Finlay的《社会科学统计方法》。变量包括美国各州编号（sid）、州名（state）、每10万人犯罪案件数量（crime）、生活在贫困线以下人口的百分比（poverty）和单亲人口百分比（single）等。我们选择使用贫穷率和单状况来预测犯罪率。

获取数据

use https://stats.idre.ucla.edu/stat/stata/dae/crime, clear
summarize crime poverty single

导入数据，并描述各个变量的统计结果，输出表格中包含样本容量、平均数、标准差、最小值和最大值。

OLS回归
在稳健回归之前，我们先进行OLS回归，输出结果如下。

regress crime poverty single

样本点分析
首先我们通过“lvr2plot”绘制残差杠杆图，通过识别离群点和高杠杆值点（杠杆点）进而识别强影响点。假如存在杠杆点的话，要确定哪些是bad leverage point，对于这些离群点我们要评估它对拟合模型的影响。

lvr2plot, mlabel(state)

由图中我们可以看出，dc、ms、fl三个点残差较大或者杠杆值比较高。库克距离是杠杆值与残差大小的综合效应，一般而言，库克距离大于1，则可认为该样本点为强影响点。接下来我们计算各点的库克距离（Cook’s Distance），并输出结果。

predict d1, cooksdclist state crime poverty single d1ifd1>4/51, noobs

由结果可以看出，dc点库克距离大于1，表明dc这一样本点对于回归结果会产生较强的影响，在之后的稳健回归中我们会对dc点进行特殊处理。
接下来我们分析数据的残差。使用rstandard这一命令，它表示标准化残差的绝对值。

predict r1, rstandardgen absr1 = abs(r1)gsort -absr1clist state absr1in1/10, noobs

稳健回归
我们使用“rreg”命令进行稳健回归，并输出结果如下。