第九章含虚拟变量的回归模型

来源：汇意旅游网

第九章含虚拟变量的回归模型

目前为止，在已学习的线性回来模型中，说明变量X差不多上定量变量。但有时候，说明变量是定性变量。

9.1 虚拟变量的性质

通常在回来分析中，应变量不仅受一些定量变量的阻碍，还受一些定性变量的阻碍(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。

如：

美国黑人的收入比相应的白人的收入低。

女学生的S.A.T.的数学平均分数比相应的男生低。

定性变量通常说明了具备或不具备某种性质，比如，男性或女性，黑人或白人，佛教徒或非佛教徒，本国公民或非本国公民。

把定性因素“定量化”的一个方法是建立人工变量，并赋值0和1，0表示变量不具备某种属性，1表示变量具备某种属性，该变量称为虚拟变量(dummy variable)，用符号D表示。

虚拟变量一样可用于回来分析，一个回来模型的说明变量能够仅仅是虚拟变量，称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪

Di =1，大学毕业

=0，非大学毕业

假定随机扰动项满足古典线性回来模型的差不多假定，依照模型( 9 - 1 )得到：非大学毕业生的初职年薪的期望为：

E(Yi｜Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 )

大学毕业生的初职年薪的期望为：

E(Yi｜Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 )

能够看出：

截距B1表示非大学毕业生的平均初职年薪，

“斜率”系数B2说明大学毕业生的平均初职年薪与非大学生的差距是多少； (B1+B2)表示大学毕业生的平均初职年薪。

零假设：大学教育没有任何益处(即B2=0)，可依照t检验值判定b2是否是统计显著的。

例9.1 大学毕业生和非大学毕业生的初职年薪

模型( 9-1 ) OLS回来结果如下：

Yi = 18.00 + 3.28Di ( 9 - 4 ) se = (0.31) (0.44) t = (57.74 ) (7.444) p值= ( 0.000 ) (0.000) r2=0.8737

估量的非大学毕业生的平均初职年薪为18000美元(=b1)，大学毕业生的平均初职年薪为21280美元(b1+b2)。

依照括号中的t值，专门容易验证b2是统计显著的，说明非大学毕业生和大学毕业生的初职年薪有差距。

图9-1描画了回来结果，回来函数是一个分段函数。

在社会学、心理学、教育学领域，ANOVA模型用得专门广泛，而经济学中专门少。在许多经济研究中，回来模型中的说明变量有些是定量的，有些是定性的，称为协方差模型( ANCOVA )。

9.2 包含一个定量变量，一个定性变量的回来模型

Yi=B1 + B2Di + B3Xi + ui ( 9 - 6 ) 其中 Yi — 公司职员的年薪

Xi — 工龄 Di =1，女职员

=0，男职员

模型( 9 - 6 )包含了一个定量的变量X(工龄)和一个定性变量(性别)。假定E(ui) = 0，则，男职员平均年薪：

E (Yi｜Xi，Di= 0) = B1 + B3Xi ( 9 - 7 ) 女职员平均年薪：

E (Yi｜Xi，Di= 1) = (B1 + B2) + B3Xi ( 9 - 8 )

图9 - 2描画了这两种不同的情形。(假定B1> 0 )

模型( 9 - 6 )说明男、女职员的平均年薪对工龄的函数具有相同的斜率(B3)，但截距不同。即男职员的平均年薪水平与女职员不同(多了B2)，但男、女职员平均年薪对工龄的变化率相同。

零假设：回来方程( 9 - 7 )和( 9 - 8 )有相同的截距(也即没有性别鄙视)。再依照t检验结果判定b2的统计显著性。

考虑：能否引入关于性别的两个虚拟变量？

模型( 9 - 6 )可写为：

Yi=B1 + B2Xi + B3D1i + B4D2i + ui ( 9 - 9 ) D1i =1，男职员

=0，女职员

D2i =1，女职员

=0，男职员

无法估量模型( 9 - 9 )，因为D1i与D2i存在完全共线性(即完全的线性关系)。专门容易验证：

D1= ( 1-D2)或D2= 1－D1，也即D1，D2完全共线性。

幸免完全共线性问题的一样规则是：假如一个定性的变量有m类，则要引进(m-1 )个虚拟变量。假如不遵循那个规则，就会陷入虚拟变量陷阱(dummy variable trap)，也即完全多重共线性情形。

虚拟变量的赋值是任意的。例子中令D= 1，代表女职员，D= 0，代表男职员；赋值可依照适应而定。

赋值为0的一类常称为基准类，对比类；(共同的)截距B1是基准类的截距。同样，关于基准类的选择也是依照研究目的而定的。

虚拟变量D的系数称为差别截距系数，说明了取值为1的类的截距值与基准类截距值的差距。

例9.3：职员年薪与工龄、性别的关系。

得到的OLS回来结果如下：

Yi = 17.969 + 1.3707Xi + 3.3336Di ( 9 - 10 )

Se = (0.191 9) (0.035 6) (0.155 4) t= (93.612 0) (38.454) (21.455) r2=0.9933

当性别变量为常量时，平均年薪将增加1371美元。当工龄变量保持不变时，男职员的平均年薪比女职员多3334美元。尽管男女职员平均年薪对工龄有相同的年增长率，但由于虚拟变量的系数是显著的，因此两类职员的平均年薪不同。

依照( 9 - 10 )的回来结果，能够推出男女职员的平均年薪函数：女职员平均年薪：

Yi = 17.969 + 1.3707Xi ( 9 - 11 a ) 男职员平均年薪：

Yi = (17.969+3.333 6) + 1.370 7Xi ( 9 - 11 b ) =21.302 6+1.3707Xi

9.3 虚拟变量有多种分类的情形

要做个人假期旅行的年支出对其收入与受教育水平的回来。假定教育水平有如下几等： 1.未达到中学水平， 2.中学水平， 3.大学水平。

依照虚拟变量的个数应比变量的分类数少一个的规则，引入两个虚拟变量来表示三种不同的教育水平。

假定教育水平不同的三个群体有相同的斜率，但截距不同，用下面的模型： Yi = B1 + B2D2i + B3D3i + B4Xi + ui ( 9 - 1 3 ) 式中

Yi— 用于假期旅行的年支出 Xi— 年收入

D2i =1，中学教育

=0，其他

D3i =1，大学教育

=0，其他

注意：在对虚拟变量的赋值中，将“未达到中学水平”视为基准类。因此，截距B1代表了这一类的截距。差别截距B2，B3说明了其他两类的截距与基准类的截距的差距有多大。

假定E(u) = 0，从( 9 - 13 )的回来结果可得：未达到中学水平的平均旅行支出：

E(Yi｜D2= 0，D3= 0，Xi) =B1+B4Xi ( 9 - 14 )

中学水平的平均旅行支出：

E(Yi｜D2= 1，D3= 0，Xi) = (B1+B2) + B4Xi

( 9 - 15 )

大学毕业的平均旅行支出：

E(Yi｜D2= 0，D3= 1，Xi) = (B1+B3) +B4Xi

( 9 - 16 )

对模型( 9 - 1 3 )估量之后，依照t检验的结果，专门容易验证差别截距B2，B3各自均是统计显著的。

例9.5：旅行支出与收入和教育的关系

依照表9 - 3的数据，得到的回来结果：

Yi = -1.2860 + 0.1722Xi - 0.0680D2i + 0.4472D3i Se = (0.2694) (0.0147) (0.1708) (0.3956)

(9-17)

t= (-4.7738) (11.7280) (-0.3982) (1.1304)

p值= (0.000) (0.000) (0.3490) (0.1412) R2= 0.9965

注：当D2=D3= 0，观看值表示了未中学毕业。

回来结果说明，在其他条件不变时，随着收入的增加，比如说收入增加一美元，平均的旅行支出将增加17美分。由于在5%的显著水平下，两个虚拟变量均是统计不显著的，因而

在收入不变时，受教育水平对平均旅行支出没有显著阻碍。

9.4 包含一个定量变量，两个定性变量的回来模型

回到公司职员年薪( 9 . 6 )一例中，然而现在假定除了工龄、性别以外，肤色也是一个重要的决定因素。为了简便，假定肤色有两种，白种和非白种。可将模型( 9 - 6 )重写为：

Yi = B1 + B2D2i + B3D3i + B4Xi + ui ( 9 - 1 8 ) 式中Yi—年薪

Xi—工龄

D2i =1，男职员

=0，非男职员

D3i =1，白种

=0，非白种

假定E(ui) = 0，则依照模型( 9 - 1 8 )得到不同的平均年薪函数如下：非白种女职员平均年薪：

E(Yi｜D2= 0，D3= 0，Xi) =B1 + B4Xi ( 9 - 1 9 )

非白种男职员平均年薪：

E(Yi｜D2= 1，D3= 0，Xi) = (B1+B2) + B4Xi

( 9 - 2 0 )

白种女职员平均年薪：

E(Yi｜D2= 0，D3= 1，Xi) = (B1+B3) + B4Xi

( 9 - 2 1 )

白种男职员平均年薪：

E(Yi｜D2= 1，D3= 1，Xi) = (B1+B2+B3) + B4Xi ( 9 - 2 2 ) 假定上述回来的截距是不同的，但斜率都相同，为B4。

利用OLS法对模型( 9 - 1 8 )进行估量，能够依照回来结果检验各种假设。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

第九章含虚拟变量的回归模型