Monday, July 4, 2016

线性回归时通过$R^2$与RSE判断变量有效性

$$R^2 = Cor(Y, \hat{Y})$$
$$RSE = \sqrt{\frac{1}{n-p-1}RSS}$$

$R^2$越趋近于1,则说明模型中的自变量能够解释大部分的因变量。所以我们在做线性回归时,应尽可能的追求$R^2 \to 1$。而这个过程可以伴随着自变量的筛选环节。

比如,当$X_1, X_2$对于$Y$的$R^2=0.89719$,再加入$X_3$后的$R^2=0.8972$,可以看出在加入第三个自变量时,其$R^2$值的增加很小,因此我们可以断定$X_1, X_2$对于因变量的解释程度已经足够好,而$X_3$对于因变量的解释程度很小,因此在回归模型中,可不考虑。

RSE = Residual Square Error,在做线性回归时,寻求RSE的较小值。依上例,自变量为$X_1, X_2$时,$RSE = 1.681$,加入$X_3$后,$RSE=1.686$,说明第三自变量加入时会增加RSE的值,因此也印证了上面所说,不考虑将$X_3$加入至线性回归模型中。

No comments:

Post a Comment