栏目分类

你的位置：开发制作小程序小程序 > 联系我们 > 开发制作小程序小程序 Heckman两阶段模子：取舍偏倚遍及校正器具，旨趣及达成方法

开发制作小程序小程序 Heckman两阶段模子：取舍偏倚遍及校正器具，旨趣及达成方法

发布日期：2024-08-08 14:05 点击次数：166

Heckman两阶段模子适用于科罚由样本取舍偏差（sample selection bias）变成的内素性问题。在经济学范围，样本取舍偏差的典型例子是征询女性的受讲授情况对女性工资的影响。按照这个念念路，一般会去问卷鸠集或在哪个网站下载部分女性的受讲授情况，工资，过火他特征数据，举例年事，毕业院校品级等个东谈主特征，然后作念归来。不外这么作念有一个问题，等于登记的女性，都是在责任的，但是很多受讲授进度较高的女性不责任，取舍作念家庭主妇，这部分样本就莫得算在内，样本失去赶快性。这就导致模子仅仅用到了在责任的女性，这么得出的论断是有偏差的。在治理学范围，一个典型的问题是企业的某个特征，或者董事/CEO的某个特征，对企业R&D插足的影响。亦然通常的问题，企业的R&D插足是企业自觉表露的内容，有的企业不表露，这时你作念归来时就不可包括这部分样本开发制作小程序小程序，也会变成样本取舍偏差，完了有偏。

对于这种情况，Heckman建议了一个方法，赫克曼矫处死（Heckman Correction，又称两阶段方法）。赫克曼矫处死分两个身手进行：

第一身手，征询者阐述治理学表面想象出一个谋略企业表露R&D插足概率的模子，而该模子的统计臆测完了不错用来预计每个个体的概率；

第二身手，征询者将这些被预计个体概率统一为一个独特的讲授变量，与其他适度变量等变量一谈来矫正自取舍问题。这个比率叫逆米尔斯比率，inverse Mills ration， imr，也等于说，在第一步谋略出imr，在第二步把imr动作一个适度变量。

以企业R&D插足问题为例，假定全样本是1000家公司，其中800家公司表露了其R&D插足。

第一阶段的模子，是一个包括全样本（1000家）的Probit模子，用来臆测一家公司是否会表露其R&D插足的概率。这里的因变量是二元的，暗示是否表露R&D插足；自变量是一些会影响是否表露R&D的外生变量，比如其他收入买卖收入，杠杆率，公司范围，所属行业等等。然后阐述这个Probit模子，为每一个样本谋略出imr，imr作用是为每一个样本谋略出一个用于修正样本取舍偏差的值。

第二阶段，在本来的归来方程，也等于本来惟有800家公司的样本的方程假如imr作为适度变量，其他都不变，然后臆测出归来参数。这时不论imr需要权贵，imr权贵性和整个标明了样本取舍偏差是否存在以及标的，阐扬样本取舍偏差竟然影响了你领先模子的臆测，这正标明了使用Heckman两步法更正样本取舍偏差的必要性。imr不权贵阐扬原模子不存在严重的样本取舍偏差，这时Heckman第二步得到的完了应该与原模子得到的完了差未几（需要比对一下）。第二步热心的对象是中枢讲授变量是否权贵。只消中枢讲授变量权贵，就阐扬完了得当。

小编这次征集到了heckman两阶段模子的stata do代码以及谋略数据案例，有需要的一又友千万不要错过！

达成身手

起初，谋略全部样本的IMR；随后，将遗漏变量IMR代入原归来方程中，具体来说：

第一步：用probit方法臆测取舍方程，其华夏归来方程的被讲授变量y是否被不雅测到或是否取值的编造变量y_dummy作为probit的被讲授变量，讲授变量包括原归来方程整个讲授变量和至少一个外生变量，该外生变量只影响y是否取值，而不影响y的大小，即称心联系性和外素性的要求（但不是器具变量）。臆测出整个变量的整个后，将样本数据代入至probit模子中，谋略出拟合值 y_hat，再将y_hat代入风险函数入网算出IMR。

有四点需要得当：（1）取舍方程的被讲授变量是原归来方程中被讲授变量y是否被不雅测到或是否取值的编造变量，即y_dummy，当y取值不为空（包括取值为0）时，y_dummy等于1，惟有当y_dummy取值为空（missing）时，y_dummy才等于0。对于这少量，现实应用中存在的问题是，即便咱们十分了了存在样本取舍偏差，但由于前期数据征集进程中径直暴戾了y取值为空的样本，因此无法采选样本取舍模子，因为样本取舍模子第一步取舍方程使用的是整个样本，包括y取值为空的样本和取值不为空的样本。

（2）取舍方程的被讲授变量只但是原归来方程中被讲授变量y是否被不雅测到或是否取值的编造变量，而不可是其他变量，更不可是讲授变量是否取值的编造变量。要是第一步归来的被讲授变量是原归来中讲授变量是否取值的编造变量，那么该模子就不再是样本取舍模子了，对于这少量，试验应用中平庸被搞混。

（3）第一步取舍方程的讲授变量必须要包括原归来中整个讲授变量和至少一个外生变量，也等于说，原归来的讲授变量是取舍方程讲授变量的真子集。要是只使用原归来中一部分的讲授变量或不引入外生变量，那么就不可确保IMR与原归来的赶快干涉项不联系，从而变成臆测整个仍是存在偏误。试验应用中，大量文件并未引入外生变量，部分文件甚而莫得申诉第一步取舍方程中的讲授变量，这么的作念法十分不推选。此外，论文中要是引入了外生变量，就需要对子系性与外素性进行具体阐扬，其中联系性不可只从外生变量的归来整个权贵这一个方面进行阐扬，还要从其他文件和从表面上进行分析；外素性的阐扬与之近似。

（4）第一步取舍方程只可使用probit模子进行归来，不可使用logit模子。在取舍方程中，假定扰动项死守正态散布，从而不错推导出将IMR代入原归来方程不错缓解样本取舍偏差问题，因此对于被讲授变量为0-1型的编造变量，只可使用probit模子而不可使用logit模子，因为logit模子不具有扰动项死守正态散布的假定。但问题是，probit假定时辰效应和个体效应与扰动项不联系，即第一步取舍方程中只可使用赶快效应模子，不可使用更一般化的固定效应模子。试验应用中，大量文件在申诉第一阶段归来完了时，在末尾加上“时辰固定效应 - Yes”、“个体固定效应 - Yes”等，这么的作念法是有待商榷的，因为这根柢就不是固定效应模子。

第二步：将第一步归来谋略得到的IMR作为适度变量引入原归来方程中。要是IMR权贵，阐扬原归来中存在样本取舍偏差，需要使用样本取舍模子进行缓解，而其余变量的归来整个则是缓解样本取舍偏差后更为得当的完了；要是IMR不权贵，阐扬原归来存在的样本取舍偏差问题不是很严重，不需要使用样本取舍模子，固然，使用了也不紧迫，因为引入适度变量的归来完了不错与原归来完了比较，作为一种款式的得当性考试。

这里有两点需要得当:（1）两步臆测法中第二步归来代入的是第一步归来的完了，因此第一步归来的臆测极度也将被代入第二步，变成完了蚀本，最终导致第二步臆测整个的模范误存在偏差，影响p值进而影响整个权贵性。

科罚方法有两种：

一是对第二步归来的模范误进行校正处理，但模范误的校正方法相对复杂，因此现阶段采选这种科罚有筹办的文件简直莫得；

二是使用极大似然臆测（Maximum Likelihood Estimate，MLE），径直对两阶段归来进行举座臆测，这种方法在试验应用中使用较多，但存在的问题在于要是样本量太大，谋略会相配耗时。因此，筹商到操作的便捷性、相识的直不雅性以及对散布的假定更为宽松，现在国内流运用用的如故两步臆测法。

（2）第二步归来使用的样本数量少于第一步。假定整个的讲授变量（包括第一步的外生变量）都莫得缺失值，仅被讲授变量y存在缺失值，那么第一步归来中使用的样本数量是全样本，因为第一步取舍方程的被讲授变量y_dummy成就为当y取值不为空（包括y取值为0）时y_dummy等于1，y取值为空时y_dummy等于0，故整个样本的y_dummy都有取值，因此都参与了第一步归来。而第二步归来中的被讲授变量y存在缺失值，存在缺失值的样本在参与归来时将径直被剔除。因此第二步归来使用的样本数量少于第一步，这亦然样本取舍模子一个最直不雅的特征。

stata达成范例大喊

联系大喊：heckman y x1 x2 x3, select (x1 x2 z1) (默许使用MLE（最大似然臆测），取舍方程的被讲授变量为y)heckman y x1 x2 x3, select (x1 x2 z1) twostep mills(newname) (两步法，取舍方程的被讲授变量为y)其中，小程序开发select( )暗示写入取舍方程，x1 x2为适度变量，z1为外生变量；twostep暗示使用两步臆测法，默许使用MLE；mills( )暗示生成万般本的imr，并以newname作为变量名。

stata示例数据阐扬

征询女性讲授（educ）与女性工资(wage)的关系，该例中，基准归来的被讲授变量是wage，讲授变量是educ和age；取舍方程中独特引入了两个外生讲授变量married和children。起初，咱们如故来先谈一下如何取舍排他性变量来处理取舍性偏误。了解女性讲授对工资的影响，那么这里需要得当到，有些受了讲授但也莫得参加责任，那这部分样本需要特殊处理。是以，咱们就先预计一个女性参加责任的可能性，然后再在那些参加了责任的女性样本中归来工资和讲授水平。预计一个女性参加责任的可能性通过age（年事） education（讲授） married（是否成婚） children（孩子数量）。平庸以为成婚与孩子的数量一般会与妇女愿不肯出来责任关联，但是与妇女赢得工资无关，是以称心排他性和联系性要求，取舍为排他性变量。

app范例大喊webuse womenwk.dta, clear //调用数据sum age educ married children wage //形色性统计数据reg wage educ age //浅易的模子est store OLS*第一种方法：heckman maximum likelihoodheckman wage educ age, select(married children educ age) //默许最大似然臆测est store HeckMLE*第二种方法 heckman two-step all-in-one（一步归来）heckman wage educ age, select(married children educ age) twostepest store Heck2s*第二种方法 heckman two-step step-by-step （分步归来）probit work married children educ ageest store Firstpredict y_hat, xb //谋略拟合值gen pdf = normalden(y_hat) //概率密度函数gen cdf = normal(y_hat) //积存散布函数gen imr = pdf/cdf //谋略逆米尔斯比率reg wage educ age imr if work == 1 //女性责任子样本est store Secondvif //方差膨大因子案例操作OLS基本归来：

参与归来的样本数量为1343个，即wage存在缺失值的样本（657个）在归来时径直被drop掉。基准归来中两个讲授变量的整个均权贵为正，模子拟合进度也较好

图片

Heckman两步法

MLE臆测：heckman wage educ age, select(married children educ age)

在第二阶段归来中，IMR（即lambda）的臆测整个为4.2244，但权贵性未知，该值等于rho和sigma的乘积，其中：sigma是原方程干涉项的模范差；rho是取舍方程干涉项和第二阶段归来干涉项的联系整个。要是rho等于0，暗示第二阶段归来中IMR的整个不权贵，阐扬样本取舍偏差在原方程中不怎样严重，反之则需要筹商样本取舍偏差带来的臆测偏误。归来完了的末尾是LR考试，考试的原假定是H0: rho = 0，p值阐扬至少不错在1%的水平下拒却原假定，不错以为rho权贵不等于0，这阐扬原模子中如实存在严重的样本取舍偏差，基准归来完了不简直。第二阶段归来完了中，两个讲授变量仍旧权贵为正，且相较于基准归来完了取值变化不大，阐扬筹商到样本取舍偏差后基准归来完了仍是是得当的。

图片

两步法臆测：heckman wage educ age, select(married children educ age) twostep

第二阶段归来中，IMR的归来整个等于4.0016，与MLE方法下的4.2244收支不大，但两步法下IMR归来整个不错径直进行z考试，何况统计完了阐扬IMR归来整个至少在1%的水平下权贵为正，这同期阐扬原方程中的样本取舍偏差问题不可暴戾。

第二阶段归来完了中，两个讲授变量仍旧权贵为正，且大小与基准归来完了比较变化不大，这阐扬在筹商样本取舍偏差的情况下，基准归来完了是简直的。

图片

手工完成两步臆测法

身手一：运用probit模子谋略影响所覆按变量的哑变量的影响身分

图片

身手二：谋略预计：predict y_hat, xb身手三：谋略IMR：gen IMR=normalden(y_hat)/normal(y_hat)身手四：终末将生成的逆米尔斯比率IMR引入主要覆按模子

图片

身手5：考试方差膨大因子，平庸情况下，VIFs值不跨越10，即以为不存在多重共线性问题。

图片

与样本取舍模子的两步臆测法完了比较，手工两步法臆测完了在整个值大小方面莫得任何改换，在整个模范误方面变化也不大，从而各个变量的整个权贵性保握高度一致。IMR权贵，阐扬原归来中存在样本取舍偏差，需要使用样本取舍模子进行缓解，而其余变量的归来整个则是缓解样本取舍偏差后更为得当的完了。

Q & A：

Q：两阶段模子：Heckman模子（处理样本取舍问题）和器具变量（处理内素性问题）之间的各异？

列位敦厚好，我想弄了了样本取舍和内素性之间的各异，以及Heckman模子与器具变量归来的不同之处。话说，样本取舍是一种特定款式的内素性是否正确呢？其中，内生变量是个体被处理的可能性吗？另外，在我看来，Heckman模子和 IV 归来都是两阶段模子，第一阶段预计个体被处理的可能性，但它们在达成的观点和假定方面校服有所不同，但具体是什么呢？

A1：样本取舍是内素性的一种特定款式（参见 Antonakis 等，2010 年对内素性和常见营救措施进行了综述），但内生变量并不是个体被处理的可能性，而是处理变量自己(处理变量的非赶快性分拨)。内素性，是指失实地细则了身分 X 和身分 Y 之间的因果关系的情况，不雅察到的“关系”试验上是由于另一个共同影响身分X 和Y的身分Z。换句话说，给定归来模子：

yi=β0+β1xi+...+ϵi

主攻（5人）：布萨、洛佐、拉佐维奇、米伦科维奇、乌泽拉奇

当一个或多个预计变量与模子中的极度项联系时，就会出现内素性，即当Cov(x,ϵ)≠0时。

内素性的常谅解因包括：

遗漏变量（一些咱们无法测量的东西）

动机/取舍

本事/资质

自取舍

测量极度（想包括 xj，但咱们只不雅察到了xj*）

同期性/双向性（在 5 岁以下儿童中，作为养分现象方针的“对应年事的体重”与儿童近期是否患病之间的关系可能是同期的。

不同类型的问题需要略略不同的科罚有筹办，这等于 IV 和 Heckman修正之间的各异场所。尽管这些方法的基本机制存在各异，但他们前提是疏浚的：即要扼节欲素性，逸想情况下称心捣毁终局条款（exclusion restriction），即在 IV 情况下有一个或多个器具变量或Heckman情况下有一个影响取舍但不影响完了变量的变量。

一方面，当一个或多个变量内生细则的，何况根柢莫得好的代理变量纳入模子中以扼节欲素性时，咱们应该使用器具变量 (IV) 法，但此时，要铭记在整个这个词样本中咱们都简略不雅测到整个协变量和完了变量。另一方面，当存在数据截断时，使用 Heckman 类型的修正方法，此时，在取舍变量的值 = 0 的样本中，咱们并不可不雅测到协变量和完了变量。

器具变量 (IV) 方法

使用两阶段最小二乘 (2SLS) 臆测量进行 IV 归来的经典计量经济学示例：讲授对收入的影响。

Earnings =β0+β1Education+ϵi (1)

在这里，讲授成等于内生的，因为它部分取决于个东谈主的动机和本事，这两者也会影响一个东谈主的收入。动机和本事平庸无法在家庭或经济走访中得到预计。因此，方程（1）不错写成包括动机和本事：

Earnings = β0+{β1Education+β2Motivation+β3Ability}+ϵ (2)

由于试验上莫得不雅察到 Motivation和Ability，因此方程（1）不错写为：

Earnings = β0+β1Education+u (3),

其中 u=β2Motivation+β3Ability+ϵ (4)。

因此，通过 OLS臆测讲授对收入影响的臆测是有偏差的。

在实证中，东谈主们将父母的讲授作为预计个体自身讲授水平的器具变量。它顺应灵验器具 (Z) 变量的 3 个要求：

Z必须与内生预计变量联系——Cov(z,x)≠0，

Z不可与完了变量径直联系——Cov(z,y)=0，何况

Z不可与不可不雅察的 (u) 特征联系（即Z是外生的）——Cov(z,u)=0

当在第一阶段使用父母的讲授（MumEducation 和 DadEducation）来臆测个体讲授（Education），并在第二阶段使用个体讲授的预计值（Education^）来臆测 Earnings，此时，臆测的Earnings是基于不受动机/本事决定的真正Education部分。

Heckman式校正

非赶快样本取舍是一种特定类型的内素性。在这种情况下，遗漏变量为个体是如何被选入样本的。平庸，当遭遇样本取舍问题时，完了变量只会在样本中“取舍变量 =1”时被不雅测到。此问题也称为“无意断尾”，科罚方法平庸称为 Heckman修正。计量经济学的经典例子是已婚妇女的工资：

Wage=β0+β1Education+β2Experience+β3Experience2+ϵ (5)

这里的问题是，Wage仅能在责任的女性群体中不雅测到，因此开头的臆测值会产生偏差，咱们不知谈对于那些不参与劳能源的东谈主的工资是若干。方程（5）不错重写以标明它是由两个潜在模子共同细则的：

Wage=Xβ′+ϵi (6)

LaborForcei*=Zγ′+νi (7)

即，要是LaborForce>0，Wage=Wage∗；要是LaborForce<=0， Wage=缺失值。

因此，这里的科罚方法是使用Probit模子善良应捣毁不休条款的变量（此处也适用于器具变量）预计第一阶段个体参与劳能源阛阓的可能性，谋略预计的逆米尔斯比率 λ^，在第二阶段，使用 λ^作为模子中的预计变量来臆测工资（不错望望Wooldridge 2009）。要是 λ^的整个在统计上等于 0，则标明不存在样本取舍问题（内素性），此时OLS 完了是一致的。要是 λ^的整个在统计上权贵不等于零，则需要讲述来自Heckman修正模子的整个。

A2：应该永诀特定的 Heckman样本取舍（ Heckman sample selection）模子（仅不雅测到一类样本和Heckman型校正（ Heckman-type corrections）以更正自取舍（适用于两类样本都能被不雅测到的情况）。后者被称为适度函数法，极度于在第二阶段中包含一个新变量以适度内素性。对于适度函数法，1.适度函数法CF, 处理内素性的广义方法，2.非线性模子及冲突内生变量处理利器, 应用计量经济学中的适度函数法！

以一个带有内生编造变量D、器具变量Z的方程作为例子：

Y = β+β1D+ε

D = γ+γ1Z+u

两种方法都先入手第一阶段（拿D对Z作念归来），IV 使用模范 OLS（即使 D 是编造变量），Heckman使用Probit模子。除此除外，主要区别在于他们将第一阶段用于主方程的样式：

IV：通过将 D 判辨为与 ϵ不联系的部分来扼节欲素性：Y=β+β1D^+ϵ

Heckman：保留内生变量D，但添加第一阶段预计值的函数。对于这种情况，这是一个极度复杂的函数：Y=β+β1D+β2[λ(D^)−λ(−D^)]+ϵ，其中 λ()是逆米尔斯比率。

Heckman进程的优点是它提供了对内素性的径直考试：整个 β2。另一方面，Heckman进程依赖于极度的王人集正态性假定，而IV不作念任何这么的假定。

是以在极度的王人集正态本性况下，适度函数会比IV更灵验（止境是要是使用MLE而不是这里的两步法），但要是正态性假定不成就，IV臆测会更好。跟着征询东谈主员对正态性假定的怀疑越来越多，IV试验上被更频繁地使用。

A3：来自 Heckman、Urzua 和 Vytlacil（2006 年）：

取舍偏差示例：筹商一项战术对国度GDP的影响。若那些即使在莫得该战术的情况下也能作念得很好的国度是继承该战术的国度，那么 OLS 的臆测等于有偏差的。

可采选两种主要方法来科罚此问题：（a）取舍模子和（b）器具变量模子。

取舍方法对条款均值的水平进行建模，IV 方法对条款均值的斜率进行建模，IV方法莫得识别出取舍模子中臆测的常数。

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

当使用带有曲率假定的适度函数时，在取舍模子中不需要扼杀终局条款(不需要Z不等于X)。通过假定极度项散布的函数款式，不错捣毁完了方程的条款均值等于条款适度函数的可能性，从而不错在莫得捣毁终局的情况下对取舍进行修正，如故建议望望Heckman和Navarro(2004)。

参考府上：

https://mp.weixin.qq.com/s/iZJlMAdmu81SWFzZtEWDnA

https://mp.weixin.qq.com/s/VgQWyw9py7Cc1Qb0AX39Tg开发制作小程序小程序

本站仅提供存储处事，整个内容均由用户发布，如发现存害或侵权内容，请点击举报。

上一篇：小程序开发公司资讯价格你咋还不信中医14：追忆与量度

下一篇：小程序开发公司资讯价格绕说念和中国作念生意，巴拉圭动起歪心想，未与中国建交，一切免谈