学习札记:多元线性回归(Multiple Linear Regression)
定义: 在实际中,对解释变量的影响通常存在两个或以上的被解释变量。对呈现线性关系的解释变量和多个被解释变量进行回归分析,就属于多元线性回归。(从中也可以看出其适用条件,即要识别多个解释变量对被解释变量造成的影响,且一般被解释变量属于定序及以上层次)
皮尔逊相关: 在进行多元线性回归前,需要先将解释变量和被解释变量一一做皮尔逊相关(单变量筛查),一般皮尔逊相关性的绝对值在0.3以上时,可以认定这两个变量存在相关关系,否则将不相关的变量做回归是没有意义的。
皮尔逊相关在SPSS中的操作:分析→相关→双变量→(将所有解释变量和被解释变量全部拉入)→皮尔逊、双尾、标记显著性相关性
多元线性回归:分析 →回归→线性→(将解释变量和被解释变量拉入)→【统计】选择模型拟合、描述、共线性诊断、德宾-沃森,【图】将ZPRED设为X、ZRESID设为Y、勾选直方图、正态概率图,其它保持默认→方法一般选择步进
Durbin-Watson残差分析: 该值用于诊断是否存在自相关问题,一般在数据是年代数据一类的时间序列时参考用,若非时间序列可以不过度关注。若DW在1.5~2.5附近,则认为不存在序列相关(自相关)问题;若DW<1.5,则可能存在正自相关;若DW>2.5,则可能存在负自相关问题。
R方: 一般在0.6以上可以接受,修正后的R方可以剔除自变量个数对R方的影响。(但是一些核心期刊文章中,R方有0.3~0.4左右的情况,还是要根据实际数据来看)
虚拟变量(哑变量): 当数据中存在诸如“性别——男/女”、“季节——春/夏/秋/冬”这类虽然有变量值,但是变量值并无具体意义时,就会对回归产生影响。例如在回归方程 y_i=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_ix_i+\epsilon ,若x1代表性别,则x1=0代表性别为男,x1=1代表性别为女,而一旦性别为男这一项则会直接消失,显然与方程的实际意义不符,该变量的取值并无实际意义,是一个定类变量,因而不能直接进入模型中,需要对其进行设置虚拟变量的处理。
SPSS中设置虚拟变量的操作:转换→创建虚变量→(将需要操作的变量拖入,勾选创建主效应虚变量→输入根名称(一般和原变量保持一致即可)→其他保持默认
在进行回归时,如何使用虚拟变量?先将解释变量中非虚拟变量的部分拖入,然后点选“下一个”→再将创建好的虚拟变量拖(注意非虚拟变量的方法是步进,虚拟变量的方法是输入)
多重共线性的诊断: VIF值和DW值。DW值已叙述过。VIF介于1到5时,就认为没有多重共线性。大于10时,认为存在严重多重共线性。如果VIF值合格但是DW值不合格,就要使用广义差分法。
使用多元线性回归方法的论文:
[1]柳建坤,张云亮.方言能力与流动儿童的学业表现 来自中国教育追踪调查的证据[J].社会,2020,40(05):213-236.
(我按照这篇文章的变量设置方法用CEPS数据试了,但是跑不出原文的结果,而且方言能力和语文成绩、英语成绩这两个的系数居然还是相反的。。。R方倒是非常接近)
如有错误,欢迎指出。