相关系数r与R_一样吗相关系数R_的2个公式

2025-01-2817:16:40销售经验0

知识小课堂开讲啦！每周都有满满干货等大家来发掘呢！

在机器学习的世界里，理解并评估模型的性能是至关重要的。无论是分类、聚类还是回归，我们都有一套评估指标来帮助我们了解模型的优劣。在机器学习的各个领域中，监督分类中的准确率得分、无监督聚类中的轮廓得分等都是常见的评估指标，它们各自有着不同的适用场景和优缺点。而今天，我们要深入探讨的是监督回归建模中常用指标的计算方法和意义。

为了更直观地理解这些计算方法，我们将通过一个实际问题来引导大家。具体来说，我们将尝试建立一个回归模型，该模型可以根据机载放射性钍数据预测地表钙质结石铜（Cu）的值。这样的模型在实际研究区域中，可以用于推断或插入钙质结石铜的值，成为传统克里金法的潜在替代方案。

我们要导入所需的Python库并读取预处理的数据集。数据以两列数据框的形式加载，Cu值以ppb为单位表示。我们会为这些数据拟合一个“简单回归模型”，该模型仅使用一个特征来预测目标变量。在这个例子中，钍是我们的特征x，Cu是我们的目标变量y。

接下来，我们会绘制这两个特征和一个拟合的线性回归模型来可视化它们之间的关系。从图中我们可以看到，随着放射性钍值的增加，钙质结垢样品中的Cu值也有增加的趋势。线性回归模型的拟合情况看起来还不错，但如何量化这种拟合的优度呢？这就是模型指标发挥作用的地方了。

我们将计算的常见指标包括平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）、判定系数（R²）以及调整后的判定系数（调整R²）。这些指标各有各的用处和最佳使用场景，能够帮助我们全面地了解模型的性能。

以MAE为例，它是一种简单但经过验证的方法，用于确定模型的稳健性。MAE的值范围从0到无穷大，单位与目标变量相同，这使得我们能够更容易地理解结果。在我们的例子中，如果MAE等于0.32，那就意味着该模型对我们研究区域中的每个铜预测的误差大约是0.32 ppb。

同样，R²值是一种非常常用的评估指标，它始终为1或更小的值（越接近1越好），且与变量上下文无关。这意味着无论我们的数据单位是什么，R²的值都是可比较的。对于我们的线性回归示例，R²等于0.45，表示模型在一定程度上解释了数据的变化。

除了这些基本指标外，我们还要注意模型的过度拟合问题。为了防止过度拟合，我们通常会将数据集分为训练集和测试集。模型在训练集上学习，而在测试集上评估其性能。但在我们的例子中，为了保持简单性，我们直接在相同的数据上计算了指标。这在实际操作中是不推荐的。

在选择使用哪个指标来评估模型性能时，没有绝对的标准。最好是评估所有指标，并根据具体情况综合判断。每个指标都有其优点和局限性，因此我们需要根据实际需求来选择最合适的指标。

我们要强调的是，除了模型指标外，还有其他重要的因素需要考虑。例如，主题专业知识和地球科学知识在解释模型结果时至关重要。即使我们的模型指标有所改善，我们仍然需要谨慎地考虑模型是否真正解释了数据之间的关系。考虑空间自相关等其他因素也是非常重要的。