从总体上讲,回归诊断尚属较新的研究分支,因此关于它的研究范围及采用的术语,在各家笔下也不尽相同。这里,把残差分析、数据变换和影响分析等统统包罗在回归诊断这个总题目下。这是因为残差分析和数据变换可以看作模型的诊断,而影响分析则看作数据的诊断
回归诊断
1.残差分析
回归诊断中要解决的第一个基本问题——模型假设的合理性,不少文献概括为
残差分析
。这是因为这个问题的解决在很大程度是靠对
残差
作种种统计分析来实现。
在回归诊断中,残差分析的发展虽然相对说来比较早,但也只是廿年前的事.究其原因主要是这类问题计算量都很大,只有现代电子计算技术得到广泛应用之后,它的研究和应用才能成为可能。
残差
是最重要的一种回归诊断量,它蕴含了有关模型基本假设的许多重要信息。残差分折就是对残差进行统计处理,从中提炼出这些信息的方法.基于不同的考虑和模型的不同用处,人们定义了许多种残差——普通残差,学生化残差,递归残差、偏残差等。
残差图
是残差分析的一个重要工具.它通过简单的图示直观地显示出残差的各种趋势,以更方便诊断出模型假设的某些不合理性。
对统计推断都有一定影响,但这种影响又不要过大,不然的话,如果某组数据的影响过大,那末包含这组数据的
经验回归方程
与不包含这组数据的经验回归方程差异很大,于是经验回归方程关于数据就不具有“稳定”性。
在这里,需要研究两个基本问题:一是模型扰动的方式;二是度量扰动对统计推断影响大小的标准。
对前一问题,研究所采用的扰动方式多为每次剔除一组或多组数据.这似乎没有更多讨论的余地.而对后一个问题,人们从各种不同的角度出发,提出了许多度量影响的标准。如
Cook距离
、AP-统计量、似然距离等
回归诊断已经有了一定的发展,但现有的结果还远远不能满足应用实践的需要。为了不同的目的,还需要引进一些新的诊断量。此外,诊断方法一般计算量都很大,因此建立节省的算法也是很迫切的。面对着这些情况,对回归诊断的研究提出了一些原则
,归纳起来主要有
1.诊断方法在正确模型和某些条件不满足的模型下的统计性质应该是已知的或近似已知;
2.诊断量应当尽可能从模型参数化来导出,这样就把模型诊断问题归结为参数推断;
3.好的诊断量应当有有效的图法;
4.诊断方法本身应该建议数据的“治疗”方案。