多元线性回归模型的各种诊断_共线性诊断结果解读

相关文章推荐

活泼的金针菇 · 陈威· 1 年前 ·

严肃的烈酒 · 铝合金锅不粘锅对人体有害吗？· 1 年前 ·

神勇威武的泡面 · 甲流来势汹汹？莫慌！专家教你科学应对_重庆市 ...· 1 年前 ·

满身肌肉的充值卡 · 【世界民族文明史系列】古希腊人与古希腊文明1 ...· 1 年前 ·

严肃的跑步鞋 · 春季花粉过敏怎么办？专家教你这样防治--健康 ...· 1 年前 ·

数据说明在这里插入图片描述
回归分析：

在这里插入图片描述
从结果中可以看出，回归系数并不显著，模型的拟合效果不好.

学生化残差：
在这里插入图片描述
绘制残差图：

从残差图中可以看出，大部分数据位于两倍标准差内. 残差有递减的趋势，因而随机误差项的齐性假设可能不太合理.

绘制回归诊断图:
在这里插入图片描述
Residuals vs Fitted ：残差与估计值之间的关系，数据点应该大致落在两倍标准差也就是2、-2之间，且这些点不应该呈现任何有规律的趋势.
Normal QQ ：若满足正态假设，那么图上的点应该落在呈45度角的直线上；若不是如此，那么就违反了正态性的假设.
Scale-Location ：GM假设中的同方差可以通过这张图诊断，方差应该呈现基本确定或持平的样子.
Cook’s distance ：Cook距离，用于强影响点的诊断.

影响分析：
在这里插入图片描述
17号点的各种影响度量都很大，所以认为17号数据点是强影响点. 使用car包的influencePlot()函数，找出影响回归的异常点和强影响点.

图中圆很大的点可能是对模型参数的估计造成的较强影响的强影响点.

code:

yx=read.table("eg5.6_ch5.txt",header=T)
reg1=lm(y~.,data=yx)
summary(reg1)
sse = 0.2618**2*14
r2 =0.8104
sst = sse/(1-r2)
Ft = 11.97
ssr = sst - sse;ssr
(ssr/5)/(sse/14)
##学生化残差
rstandard(reg1)  # 学生化内残差
0.562611/(0.2618*sqrt(1-0.3369))
rstudent(reg1)  # 学生化外残差
##残差图
ri=rstandard(reg1)
yhat=predict(reg1);yhat  # y的估计
plot(ri~yhat)
abline(h=0,col="red",lty="dashed")
abline(h=2,col="blue",lty="dashed")
##残差诊断图4张
op<-par(mfrow=c(2,2))   # 2*2子图
plot(reg1,1:4)
par(op)
##影响分析
influence.measures(reg1)
library(car)
influencePlot(reg1,main="Influence Plot",sub="Circle size is proportional to Cook's distance")
例二 异方差性诊断
 
回归分析：
 
         回忆一下怎么读这个结果 
绘制残差图：
 
 
        从图中可以看出，从左到右各个点逐渐散开，说明误差项具有异方差性. 
等级相关系数法检验异方差性：
 
         $比较，和等级相关系数法一样.$  
GQ检验:
 
 White检验：
 
 通过加权最小二乘修正异方差：
 (anova方差分析)
 
        修正异方差性后模型的结果更加精确. 
code： 
saving=read.table("eg5.8_ch5.txt",header=T)
reg2=lm(y~x,data=saving)
summary(reg2)
plot(y~x,data=saving,col="red")
abline(reg2,col="blue")
##残差图
ri=rstandard(reg2)
yhat=predict(reg2)
plot(ri~yhat)
abline(h=0,col="blue",lty="dashed")
abline(h=-2,col="red",lty="dashed")
##spearman test
abe=abs(reg2$residual)
cor.test(~abe+x,data=saving,method="spearman")
##BP test
#检验结果
library(lmtest)
library(zoo)
bptest(reg2,studentize=FALSE)
bptest(reg2) #学生化具有修正异方差的作用
#辅助回归结果
e=residuals(reg2)
e2=(reg2$residuals)^2;
lmre=lm(e2~saving$x)
summary(lmre)
LM=31*0.2723; LM
##GQ test(lmtest包)
gqtest(reg2)
##white test(whitestrap包)
#检验结果
# install.packages('whitestrap')
library(whitestrap)
white_test(reg2)
#辅助回归结果
x=saving$x
lmre2=lm(e2~x+I(x^2))
summary(lmre2)
white=31*0.2974; white
##加权最小二乘
regw=lm(y~x,data=saving,weight=x^(-1/2))
anova(regw)
summary(regw)
例三 自相关性诊断
 
(和例二是同一份数据) 
DW检验: 记得看适用条件！！！
 
        DW=1.2529，R不会直接给对应的上下限，所以需要自己查DW分布表中的上下限，与DW比较. 或者看p值，p-value=0.008674与显著性水平 
通过广义差分法消除自相关性：只适用于一阶自相关
 
  
通过科克伦-奥克特迭代法消除自相关性：只适用于二阶及以上的高阶自相关
 
 code： 
saving=read.table("eg5.8_ch5.txt",header=T)
reg2=lm(y~x,data=saving)
##DW检验(lmtest包)
dwtest(reg2)
rho=1-0.5* 1.2529; rho  # DW = 2(1-rho自相关系数)
##拉格朗日乘数检验
bgtest(reg2,order=1)
bgtest(reg2,order=5)
##广义差分
n=nrow(saving)
st=saving[-1,]
stlag1=saving[1:(n-1),]
sn=st-rho*stlag1  # DW
cbind(st,stlag1,sn)  # 二三列滞后一期 最后两列广义差分
reg3=lm(y~x,data=sn)
summary(reg3)
##科克伦-奥克特法
# install.packages("orcutt")
library(orcutt)
cochrane.orcutt(reg2)
例四 多重共线性诊断
 

 相关系数矩阵直观诊断：
  
       从相关系数矩阵中可以看出解释变量中至少存在两组显著的负线性相关.
 回归诊断：
 
        这里只做了 $与其余解释变量的辅助回归方程，其他可以自己试.$  
方差膨胀因子诊断：
 
 判断方法一:一般方差膨胀因子大于10，认为存在严重的多重共线性. 所以上述结果说明存在两组严重的多重共线性.
 判断方法二:四个vif的平均值大于1，说明存在严重的多重共线性. 
特征根与条件数诊断法：
 
 至少存在一个特征根近似为0时，则解释变量之间必存在多重共线性.
 条件数大于100时认为存在严重的多重共线性. 
code： 
cement=read.table("eg5.10_ch5.txt",header=T)
reg4=lm(y~.,data=cement)
summary(reg4)
cor(cement)
summary(lm(x1~.-y,data=cement))
##VIF
# install.packages('DAAG')
library(DAAG)
vif(reg4,digit=3)
##特征根和条件数
xx=as.matrix(cbind(1,cement[,1:4]))
pho=cor(t(xx)%*%(xx)); pho
eigen(pho)
kappa(pho,exact=TRUE)
				本文详细介绍使用SPSS软件进行多元线性回归的理论基础、操作步骤及结果分析。多元线性回归模型是指含有多个自变量的线性回归模型，用于解释因变量与其他多个自变量之间的线性关系。多元线性回归分析的基本步骤
(1)确定因变量与自变量，并初步设定多元线性回归方程。
(2)估计参数，确定估计多元线性回归方程。
(3)利用检验统计量对回归预测模型进行各项显著性检验。
(4)检验通过后，可利用回归模型进行预测，分析评价预测值。
F检验是对整个模型而已的，看是不是自变量系数不全为0，这里F检验值23，对应P概率=0，显著性P<0.05,H1成立，说明显著性非常高
t检验则是分别针对某个自变量的，看每个自变量是否有显著预测效力。这里t检验对应概率大于0.05，即显著性一列为0.23和0.48，说明显著性很差
SPSS对于多重共线性的判断指标有以下几种：容忍度（Tolerance）、方差膨胀因子（V...
				多重共线性的诊断
1.方差扩大因子法
经验表明，VIFj≥10VIF_{j}\geq10VIFj≥10时，就说明自变量xjx_{j}xj与其余变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响最小二乘估计值。
代码实现如下：
data5.5&amp;amp;lt;-read.csv(&amp;quot;C:/Users/Administrator/Desktop/data5.5.csv&amp;quot;,head=TRUE)
lm5...
					(R，线性回归)R语言里的模型诊断图（Residuals vs Fitted，Normal QQ ， Scale-Location ，Residuals Leverage）
				线性回归，是概率统计学里最重要的统计方法，也是机器学习中一类非常重要的算法。线性模型简单理解非常容易，但是内涵是非常深奥的。尤其是线性回归模型中的Diagnostics plot的阅读与理解一直被认为是线性回归中的一个难点。
在任何线性模型中，能够直接“lm”（模型有意义），既要考虑各个参数的t-test所得出的p-value，也要考虑总体模型F-检验得出的p-value。在这之后，还要清楚一个...
呈现实际观测值与群体、个体预测值的一致性，反映模型对于实测值的拟合程度。
1、因变量-群体预测值（DV-PRED）
绘图：参考线，趋势线，x轴和y轴尺度一致。参考线一般为y=x的对角线；趋势线通常为LOESS回归线。一般坐标反映数值较大处偏差，对数坐标可反映数值较小处偏差。
如果群体预测值偏差较大，则需要优化基础模型（结构模型或统计学模型）。将基础模型与最终模型的DV-PRED图进行比较，通常
结果解读：
容忍度＞0.1，即方差膨胀因子VIF＜10，则变量之间不存在多重共线性。
PS：由于我们考察的自变量之间的关系，因变量的形式与方差膨胀因子无关。当因变量为分类变量时可以直接代入线性回归模型求得方差膨胀因子。
第一节　多元线性回归分析的概述
　　回归分析中所涉及的变量常分为自变量与因变量。当因变量是非时间的连续性变量(自变量可包括连续性的和离散性的)时，欲研究变量之间的依存关系,多元线性回归分析是一个有力的研究工具。 
　　多元回归分析的任务就是用数理统计方...
				多重共线性的确认：
做出自变量间的相关系数矩阵：如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。
【1】容忍度（Tolerance）:有 Norusis 提出，即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例，大小用1减决定系数来表示。该指标越小，则说明该自变量被其余变量预测的越精确，共线性可能就越严重...
				多重线性回归要求各个自变量之间相互独立，不存在多重共线性。所谓多重共线性，是指自变量之间存在某种相关或者高度相关的关系，其中某个自变量可以被其他自变量组成的线性组合来解释。
医学研究中常见的生理资料，如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等，这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时，把具有多重共线性的变量一同放在模型中进行拟合，就会出现方程估计的偏回归系数明显与常识不相符，甚至出现符号方向相反的情况，对模型的拟合带来严重的影响。
今天我们就来讨论一下，如果自变量之
				共线性，指的是线性回归方程中自变量之间存在着高度相关关系而使得方程的预测结果出现偏差。
当模型存在严重共线性时，OLS估计量虽仍可能出现较好的统计显著性，但实际上其预测结果已经失去统计意义。这是因为，自变量的共线性会使参数估计值的方差增大，而变大的方差会增大随机误差项，使预测失去意义。
那么，怎么在IBM SPSS Statistics中检验变量间是否存在共线性？接下来，一起通过实例详细学习一下吧。
一、数据准备
本例使用的是一组包含客流量、销售额与销售量的数据。
图1：销售数据
二、线性回
1. 强大的预测能力：多元线性回归模型可以通过对多个自变量的线性组合进行建模，从而更准确地预测因变量的值。
2. 解释性强：多元线性回归模型可以提供每个自变量对因变量的影响程度，从而帮助我们理解变量之间的关系。
3. 可以控制其他变量：多元线性回归模型可以通过引入多个自变量来控制其他可能对因变量产生影响的变量，从而减少误差的影响。
4. 可以检测变量之间的相互作用：多元线性回归模型可以通过引入交互项来捕捉变量之间的相互作用，从而更全面地分析变量之间的关系。
5. 可以进行模型诊断：多元线性回归模型可以通过残差分析、多重共线性检验等方法进行模型诊断，从而评估模型的拟合程度和可靠性。
需要注意的是，多元线性回归模型也存在一些限制，比如对于非线性关系的建模能力较弱，对异常值和缺失值比较敏感等。因此，在使用多元线性回归模型时需要结合实际情况进行判断和分析。