R语言与回归分析几个假设的检验
一、从线性回归的假设说起
对于线性回归而言,若要求回归估计有一些良好性质比如无偏性,就需要加上一些假定条件。比如要达到估计的无偏性,我们通常需要加上高斯-马尔科夫条件:
A1、对参数而言的线性性
A2、样本的随机抽样性
A3、误差的条件均值为0
A4、不存在完全共线性
A5、同方差假设
在上述条件上加上误差项服从正态分布,就得到了经典线性回归模型的6大假定。保证了估计的良好性质。
现在我们来考虑一下这几个条件,它们真的十分容易达到吗?
我们先从比较容易满足的的假设A4入手分析:完全共线性导致的结果是最小二乘的结果不唯一。所以这里要求的是数据相关性不能为1,但并不是不能有相关性。导致完全共线性的原因不外乎以下三个:1、错误的将一系列已建立线性关系的因变量包括在处理的数据中(但其实这个的相关度还是达不到1的,但是会影响到回归的效果,更加会影响到你的解释)2、处理虚拟变量不当导致的错误。用r个虚拟变量表示离散变量取值时,多重共线性在所难免