Omitted Variable Bias (OBV) 指的是, 一个统计模型遗漏了一些变量, 而模型把遗漏变量对响应变量的影响, 算在了已经包含的变量头上(张冠李戴了)。
发生 OBV 的必要条件
假设真实的因果关系是这样的:
也就是说,响应变量 y 被 x ,z 影响,其中 u 是误差项。假设 x 和 z 有如下关系
把 (2)带入 (1) 中, 得到:
由 (3)可以得知, 当遗漏了 z 时, x 的系数就变成了 (b + cf) 而不是 b 。 其中 b 是 x 和 y 的直接关系, 而 cf 是间接关系。
cf 包含了 OBV 的 extend 和 direction
一个测算被雇佣与本科学历的回归如下
employed ~ college
分析: 在第一个模型中, 由于遗漏了 black 这个变量,导致高估了获得大学学位的重要性 (0.0244 vs 0.0231)。
基于以上两个回归结果, 黑人获得大学学位的情况如何 ?
对应公式 (1) (2) (3), 其中 :
college 是 x
black 是 z
从第一个模型可得: (b + cf) = 0.0244 , 第二个模型可得 b = 0.0231, 由此可得:
cf = 0.0244 - 0.0231 = 0.0013