在前面的《数据分析方法论及案例分享》中,我们曾提及了回归分析这一工具,它主要用于探索哪些因素会影响某一特定指标的现状。当数据量不大时,我们便可以借助Excel来进行简单的回归分析,因为它相对于SPSS、Python等工具来说更容易获取和使用。
回归分析主要分为线性回归和非线性回归。此次,我们将以线性回归为例,详细讲解如何利用Excel进行分析,并解读分析结果。
【如何调出Excel中的回归分析工具】
- 在工具栏左上角,点击“文件”选项。
- 下拉左侧导航栏至底部,找到并点击“选项”。
- 在弹出的面板中,选择“加载项”选项。
- 在加载项面板中,点击“转到(G)”按钮。
- 在可用加载宏列表中,勾选“分析工具库”,并点击“确定”。
- 返回至第一步的工具栏,在“数据”选项中,便会出现“数据分析”工具。
【如何使用回归分析工具】
接下来,我们以一个具体的案例来操作和解读。
案例背景:我们有一个从某个电商平台上每天爬取的商品相关数据集(共547天),其中包括“数据爬取时间”、“销量排名”、“价格”、“评论条数”、“评分”、“时间”等字段。我们希望探究价格、评论条数、评分、时间等维度对销量排名的影响程度。
具体操作步骤如下:
1. 导入数据列表并确定分析目的。
2. 点击“数据分析”,在弹出的面板中选择“回归”并点击“确定”。
3. 在回归参数设置面板上,输入因变量Y(即“销量排名”)和自变量X(即“价格”、“评论条数”、“评分”、“时间”)。
4. 点击“确定”,即可生成分析结论。
【如何解读线性回归分析结论】
从案例中我们可以看到,Excel输出了三组结果。前两组针对整体,第三组针对个体。解读时可以从以下角度进行:
整体解读:
(1) R Square(R2)表示因变量Y的变化能被自变量整体X解释的比例。R2值越大,解释性越好。但需注意样本数据和自变量数量。矫正后的R2(Adjusted R Square)能更准确地反映解释性。
(2) F值表示因变量Y与所有自变量整体X的关联程度。
个体解读:
(1) P-value越接近0,自变量与因变量的相关性越显著。
(2) t Stat的绝对值越大,相关性越显著。正负符号代表相关的方向。
我们还可以通过线性回归公式来预测未来变化。公式结构为Y=β0+β1X价格+β2X评论条数+β3X评分+β4X时间。
【如何提升线性回归的解释性】
针对案例中的情况,我们发现解释性并不强(Adjusted R2=40.14%)。一个可能的提升方法是使自变量与因变量之间呈现线性相关关系。例如,我们可以尝试将所有变量进行自然对数化处理(使用Excel中的LN函数),这样能够获得变量间的相对百分比变化。
对数化处理后,再次进行回归分析。我们发现Adjusted R2提升到了53.54%,说明自变量整体对因变量变化的解释性确实更强了。我们还发现评论条数不再与销量排名显著相关。