pearson相关性分析_pearson值大小的意义-营销方案网

2025-02-2114:08:37营销方案0

统计指标的微妙密码——相关系数

相关系数，这一统计学的奥秘，最初由统计学家卡尔·皮尔逊精心设计。它是一把度量变量间线性相关程度的尺子。由于研究对象的千差万别，相关系数拥有多种定义方式，其中最为常见的便是皮尔逊相关系数。

相关表与相关图，它们如同一对探索者，揭示了两个变量之间的相互关系及其方向。它们无法确切地告诉我们这两个变量之间的亲密程度。这时，相关系数这一统计指标便派上了用场，它详细地反映了变量间关系的密切度。相关系数的计算基于积差方法，以两变量与各自平均值的离差为基础，通过两离差的相乘，来展示两变量之间的相关程度，尤其侧重于线性单相关系数的探究。

要明白，皮尔逊相关系数并非唯一的存在，但它无疑是最为普遍的相关系数。以下的解释，都将围绕皮尔逊相关系数展开。

让我们一探相关系数的导出过程。两个相互独立的随机变量之和的方差，其背后隐藏着协方差和相关系数的定义。

接着，通过图示的辅助，我们可以更直观地理解相关系数的内涵。当X和Y相互独立时，由于它们的协方差为0，因此其相关系数也为0。而当两者呈现出线，尤其是图二中所示的Y=kX+b情况，将此代入相关系数的计算公式中，结果便可能是1或-1。

综合图一和图二，我们得出结论：两个随机变量若是相互独立，其相关系数为0；若是线性相关，其相关系数则为1或-1。这三个极端情况为我们揭示了相关系数的基本属性。那么，相关系数处于-1和1之间又代表着怎样的意义呢？

继续观察图三、图四和图五，我们通过改变数据来观察相关系数的变化。图三中Y与X完全正线性相关，其相关系数自然为1。而图四中，相关系数降为0.91；再观图五，其数值已变为负数。这样的变化过程为我们展示了相关系数的深层次含义——其数值范围从最大的正线性相关的1逐渐变化至负线性相关的-1。

为什么会发生这样的变化呢？我们需回到相关系数的定义中寻找答案。定义中的分子涉及两个变量的差异与其各自平均值之积的期望值。以图三为例，X和Y的平均值及它们的差异要么同时为正，要么同时为负，因此图三的相关系数由多个正数相加而成，数值较大。而图四现的(X-E(X))和(Y-E(Y))正负相反的情况导致了正负抵消的结果，使得数值下降；而图五则是由于负数乘积的总和大于正数乘积的总和，导致最终的相关系数为负数。

值得注意的是，无论情况如何变化，相关系数定义中的分母始终为正数。