一、研究目的
线性回归分析主要探讨自变量(X)与因变量(Y,定量数据)之间的影响关系。当只有一个自变量时,即为简单的一元线性回归;若有多个自变量,则称之为多元线性回归。这种分析方法在自然科学、社会科学等多个领域都有广泛应用,用以研究各种因素之间的关系,如吸烟、肥胖、运动与高血压发病率的关系,土壤、水分、光照与植物生长的关系等。
二、数据类型
线性回归要求因变量Y(被解释变量)必须是定量数据。若因变量Y为定类数据,则应采用“logit回归”等进阶方法。
三、分析要求
1. 自变量的数量:分析时,自变量的数量没有严格限制,但建议不要一次性放入过多自变量,以避免可能出现的多重共线性。若需处理哑变量,可在SPSSAU的“数据处理”模块中生成变量。
2. 正态性检验:SPSSAU提供多种正态性检验方法,如通用方法中的正态性检验、可视化中的直方图以及P-P/Q-Q图。理论上,线性回归中的因变量应满足正态性,但对于问卷数据,可跳过此步骤检验,因为问卷数据属于等级数据,很难保证正态性。
3. 线性趋势:要求自变量和因变量之间呈线,可通过SPSSAU的“可视化”模块中的散点图进行查看。若不呈线,则可使用曲线回归等方法。
四、补充说明:相关分析与回归分析
在进行回归分析之前,通常需要先进行相关分析。相关分析可以初步了解变量之间是否有关系,而回归分析则是进一步研究这些变量之间是否有影响关系。值得注意的是,有相关关系并不一定就有回归影响关系。
五、操作步骤
1. 上传数据:登录账号后进入SPSSAU页面,点击“上传数据”,处理数据后进行“点击上传文件”。
2. 拖拽分析项:在“通用方法”模块中选择“线性回归”方法,将Y定量数据放于上方分析框内,X自变量放于下方分析框内,点击“开始分析”。
3. 选择参数:勾选后可将残差和预测值保存,便于进一步分析使用。
六、结果解读
1. 模型公式与R方值:从上表可以看出模型的公式以及R方值,R方值表示模型中自变量可以解释因变量变化的百分比。
2. 模型检验与假设检验:对模型进行F检验,若F值显著,则说明自变量中至少有一项对因变量有影响。需检查模型的VIF值以判断是否存在多重共线性问题。D-W值用于检验模型是否存在自相关性。
3. 具体分析各变量:根据回归系数值及其显著性判断各自变量对因变量的影响方向和影响程度。
七、问题解答与补充内容
1. 多重共线性问题的解决办法:使用逐步回归分析、岭回归分析或进行相关分析后移除相关性非常高的分析项。
2. 控制变量的放置:控制变量是可能干扰模型的项,如年龄、学历等基础信息,可直接放入自变量X中。
3. 有效样本量不足的解决方法:一般要求样本量至少是变量数的5-10倍,以获得更有参考意义的结果。
4. 看标准化还是非标准化结果:标准化回归系数用于比较各变量的“重要性大小”,而预测模型时一般使用非标准化回归系数。
八、线性回归分析步骤总结
首先对模型情况进行全面分析,包括模型拟合情况、共线性问题以及F检验结果。然后分析各变量的显著性及对因变量的影响方向和程度。可对比各变量的影响程度大小以及其他相关指标,以获得更全面的分析结果。
九、其他注意事项与建议