认识交互项的作⽤在看⽂献的过程中,会发现交互项频频出现在不同的模型⾥⽤以说明不同的故事,⽽有的时候还会发现,对于同⼀个故事有⼈⽤的是交互项回归有⼈⽤的却是分组回归。这似乎有点让⼈迷茫,究竟什么时候应该使⽤交互项、交互项在使⽤时⼜应该注意什么问题呢?今天结合⾃⼰的理解说⼀说交互项的实际应⽤。[⼀]⾸先回顾⼀下普通的线性回归模型:模型(1)其实隐含了⼀个假设,即三个解释变量对被解释变量y的影响都是独⽴的,互不⼲扰。这点从偏回归系数可以很直观地体现,偏回归系数为常数意味着每个解释变量对y的作⽤都不受其他解释变量的影响:接下来在模型(1)的基础上构建交互项看⼀看:其中,为交互项的偏回归系数如下所⽰:的回归系数。这时解释变量对Y的影响还是独⽴的吗?各解释变量很显然,虽然依然我⾏我素,但对Y的影响变得依赖于的取值,对Y的影响变得依赖于的取值。也就是说,在模型中加⼊交互项后,参与构造交互项的各组成部分对被解释变量的影响依赖于交互项中其他组成部分的取值。现在依据这个现象或结果反推原因:如果我们认为某个解释变量(主要是指核⼼解释变量)对被解释变量的作⽤还受到其他某个解释变量的影响,那么应该在模型中基于这两个解释变量引⼊交互项。⽤个经典的实际例⼦来具体说明⼀下,在“性别、⼯作年限和学历对⼯资的影响”这个研究问题中,如果没有交互项,那么模型是假定了⼀个⼈的学历对其⼯资的作⽤并不受其性别或⼯作年限的影响。然⽽⽣活经验告诉我们,学历的回报极有可能还依赖于⼯作年限,因此在回归分析时便可以基于学历和⼯作年限构造交互项,⽤以刻画⼀个⼈的学历对⼯资的作⽤是否真的受⼯作年限的影响。上⾯只是从理论或逻辑上说明了什么时候可以使⽤交互项,在此逻辑下,交互项主要体现的是⼀种“调节效应”或“联动效应”,但其实交互项在实际使⽤中⼗分灵活。依据交互项的不同形式,交互项还可以⽤来进⾏“异质性分析”,甚⾄还可以进⾏“机制分析”。[⼆]根据不同的变量类型,交互项可以分为三种:虚拟变量与虚拟变量交互;虚拟变量与连续变量交互;连续变量与连续变量交互。总的来说,这三种交互项没有本质区别,只是在结果的解读上稍有差异。1.虚拟变量与虚拟变量交互这种形式其实⼤家都不陌⽣,因为双重差分法的核⼼就是两个虚拟变量及其构造的交互项,此时交互项也是⼀个虚拟变量。以双重差分法模型为例:其中,du为处理组虚拟变量,dt为政策改⾰虚拟变量,只有当du和dt同时取值为1时才存在,也就是说,反映的是du取值为1且dt取值也为1时的效应。举DID的例⼦主要是为了加深对这种交互项形式的理解。其实,⼀般状况的虚拟变量与虚拟变量交互感觉在⽂献中还是相对⽐较少见的,因为这要求核⼼解释变量是0-1变量,同时它还得和控制变量⾥的某个0-1变量有牵扯。在之前的“性别、⼯作年限和学历对⼯资的影响”这个例⼦中,假定性别是核⼼解释变量,当个体是男性时取值为1,反之为0;继续假定学历这个控制变量也是虚拟变量,当个体是⾼学历时取值为1,反之为0。当把性别和学历进⾏交互时,交互项的回归系数反映的便是⾼学历的男性的⼯资⽔平,说明了性别对⼯资的作⽤取决于劳动者是否具有⾼学历。2.虚拟变量与连续变量交互这种形式相对⽐较常见,连续型DID便是如此(开始时便说了,不同的交互项类型没有本质的区别,所以接下来就不再列举模型了)。在这种情况下,核⼼解释变量⼀般为连续变量,虚拟变量是某个控制变量,两者的交互便体现了连续变量对Y影响的异质性。还是⽤“性别、⼯作年限和学历对⼯资的影响”这个例⼦来说明,假定学历是连续型核⼼解释变量,值越⼤表⽰学历越⾼(通常⽤受教育年限度量,尽管受教育年限是离散的,但并不影响);继续假定性别是控制变量,当个体是男性时取值为1,反之为0。当把学历和性别进⾏交互,如果交互项的回归系数显著为正,便可以说明,相对于⼥性⽽⾔,男性的学历越⾼时越有助于获取⾼⼯资;当然也可以反过来说,相对于男性⽽⾔,⼥性的学历并⽆助于她们获取⾼⼯资。因此,该结果便体现了学历对⼯资的影响具有典型的性别异质性。3.连续变量与连续变量交互这种形式相对也⽐较常见,⽽且更加接近于交互项最初的逻辑,即X对Y的影响还依赖于Z的取值的变化,X和Z之间存在联动效应。仍然⽤“性别、⼯作年限和学历对⼯资的影响”这个例⼦来说明,假定学历是连续型核⼼解释变量,值越⼤表⽰学历越⾼;继续假定⼯作年限这个控制变量也是连续变量,值越⼤表⽰⼯作年限越长。当把学历和⼯作年限进⾏交互,如果交互项的回归系数显著为正,便可以说明,当⼯作年限越长时,更⾼的学历有助于获取更⾼的⼯资。[三]尽管究竟应该在什么时候使⽤交互项在逻辑上或理论上是清晰的,但实践过程中究竟怎么使⽤交互项还是有不少值得注意的问题。对于交互项模型:1.、和缺⼀不可在模型中构造交互项时必须同时纳⼊交互项和所有组成部分,不能基于显著性等原因舍弃掉某⼀部分,就像使⽤DID时,du、dt以及du·dt⼀个都不能少⼀样。2.和的显著性不再那么重要,重点是很多⼈会很纠结,加⼊交互项后或由原来的三颗星显著变得不显著了怎么办?⾸先,引⼊交互项的⽬的是关注交互项的结果,就像DID中重点关注的是du·dt的结果⼀样,组成部分的显著性变得相对不重要。其次,在最开始我们计算过偏回归系数,在没有交互项时,的显著性可以直接体现的作⽤,但在引⼊交互项后,的偏回归系数变成了,也就是说,此时的显著性并不能真正反映对Y的作⽤是否显著。3.和的显著性判断既然的显著性不能真正反映对Y的作⽤是否显著,那该怎么判断呢?由于真正的偏回归系数是,因此应该检验是否具有统计显著性。在Stata⾥,⾸先对交互项模型进⾏回归,然后可以利⽤lincom这个命令进⾏检验。如果明显异于0,说明对Y的作⽤是显著的。4.和的回归结果不能直接解读虽然的回归系数是,但⼀般并不能直接基于进⾏解释,因为其真正的偏回归系数是。要想基于进⾏解释,必须得为0,但这在现实⽣活中基本不可能。⽐如,假设Y是房屋价格,是卧室数量,是住房⾯积,这时对的解释是:卧室数量对⼀套⾯积为0的房屋价格的影响。很显然没什么意义。不过,在⼀种情况下是可以的,即分别对和去均值后再引⼊交互项进⾏回归,这时交互项模型如下:其中,和分别是和的样本均值。这时便可以解释为:在的均值处对Y的偏效应。5.或与存在多重共线性由于由及构成,因此交互项与或⼀般有较强的相关性,从⽽容易导致多重共线性。为了尽量减轻这个问题,可以尝试进⾏第4点中提出的去均值处理,可以适当降低相关性。6.交互项还是分组回归?
两者不论是在理论或实践上都没有很显⽽易见的区分或标准,对于同⼀个研究问题可能有⼈采⽤前者有⼈则采⽤后者。这⾥简单说⼏点差异。
⾸先,分组回归的主要⽬的就是考察异质性,即基于某个虚拟变量,或将某个连续变量按均值、中位数等标准定义为虚拟变量,然后把全样本按照该虚拟变量分成不同的组别进⾏回归。⽽交互项回归则显得更灵活,连续变量与连续变量交互可以考察联动效应,连续变量与虚拟变量交互可以考察异质性,等等。
其次,分组回归只能说明X对Y的影响在不同组别存在差异,但并不能说明该差异是否具有统计显著性。如果想要考察差异的统计显著性,需要进⼀步的检验。但交互项回归则不然,在上⾯虚拟变量与连续变量交互的例⼦中,交互项的结果表明学历对男性⼯资的影响便要显著⼤于⼥性。
最后,交互项回归是基于全样本,分组回归则可能会存在个别组别样本量过少的情况,从⽽导致根本⽆法估计或估计效率下降。此外,就像上⾯说的,在有的时候,分组变量的选取是基于某个连续变量⽽⾮虚拟变量,因⽽如何对连续变量进⾏合适的划分以作为分组依据可能也是个问题,等等。
⽐较下来分组回归相较于交互项回归似乎⼀直处于下风,其实也不尽然,许多实际场景下两者都可以很好实现研究⽬的。不过,基于上⾯的⼀些论述,在选择时⼀般建议优先考虑交互项回归,之后再尝试分组回归。