前言
岭回归分析是一种在构建多重线性回归模型时进行系数校正的统计方法。通过应用“最小二乘原理”,岭回归能调整估计回归系数的计算公式,从而使回归系数更为稳定,尤其当自变量间存在强烈的多重共线性时。
当多重线性回归模型得出的结果很不稳定,尤其是某些自变量回归系数的正负号与实际问题背景不符时,岭回归分析就派上了用场。
1. 实施步骤详解
岭回归分析通常先对X变量进行中心化和标准化处理,确保不同自变量处于同一数量级,便于比较。
第二步是确定k值。这可以通过岭迹图、方差膨胀因子法等方法实现。岭迹图是将各个回归系数的岭估计值βi(k)的岭迹画在同一图上,选择使各回归系数相对稳定的k值。
当选择k值时,应遵循以下原则:回归系数的岭估计基本稳定;不合理符号的回归系数岭估计变得合理;回归系数的大小应与实际情况相符;均方误差增加不应过多。方差膨胀因子cjj可以衡量多重共线性的严重程度。
根据岭迹图,可以进行变量筛选并重新确定k值。应去除那些岭回归系数稳定且绝对值较小的自变量,以及那些不稳定但随k值增加迅速趋近于零的自变量。
完成上述步骤后,即可对模型进行表达,并结合专业知识判断方程中各变量的系数是否符合实际情况。根据回归系数的大小,可以判断各变量对因变量的影响程度,并利用所求得的回归方程进行预测。
2. 案例分析
以一组儿童的智力测试数据为例,以IQ为因变量,常识、算数、理解、拼图、积木、译码等为自变量,拟合多重线性回归模型。
这些数据均为定量资料,适合采用多重线性回归模型进行分析。
3. SPSS操作指南
在SPSS中,首先拟合多重线性回归模型,然后输出结果。若要解释问题,只需列出系数表。
若发现变量间存在多重共线性(例如,VIF>10),则可以考虑使用岭回归分析来稳定多重线性回归模型。
对于SPSS的岭回归操作,需通过编写特定程序或调用已编写的程序文件(如'ridge regression.sps')来进行。
具体操作包括指定自变量、因变量、k值的起始值、终末值及步长等参数。
4. SPSS之岭回归详解
在SPSS中执行岭回归时,需包含相应的程序文件,并按照指定的格式输入命令。
例如,使用INCLUDE命令加载程序文件,使用RIGDEREG命令指定自变量和因变量,以及定义k值的起始、终止和步长等参数。
运行程序后,将得到岭迹图和不同K值情况下的回归系数表。当k值设定为特定值(如0.1)时,可以验证模型的拟合效果。
根据岭回归分析的结果,可以写出相应的回归方程。