pearson相关性分析_pearson值大小的意义

2025-02-2114:08:37营销方案0

统计指标的微妙密码——相关系数

相关系数,这一统计学的奥秘,最初由统计学家卡尔·皮尔逊精心设计。它是一把度量变量间线性相关程度的尺子。由于研究对象的千差万别,相关系数拥有多种定义方式,其中最为常见的便是皮尔逊相关系数。

相关表与相关图,它们如同一对探索者,揭示了两个变量之间的相互关系及其方向。它们无法确切地告诉我们这两个变量之间的亲密程度。这时,相关系数这一统计指标便派上了用场,它详细地反映了变量间关系的密切度。相关系数的计算基于积差方法,以两变量与各自平均值的离差为基础,通过两离差的相乘,来展示两变量之间的相关程度,尤其侧重于线性单相关系数的探究。

要明白,皮尔逊相关系数并非唯一的存在,但它无疑是最为普遍的相关系数。以下的解释,都将围绕皮尔逊相关系数展开。

让我们一探相关系数的导出过程。两个相互独立的随机变量之和的方差,其背后隐藏着协方差和相关系数的定义。

接着,通过图示的辅助,我们可以更直观地理解相关系数的内涵。当X和Y相互独立时,由于它们的协方差为0,因此其相关系数也为0。而当两者呈现出线,尤其是图二中所示的Y=kX+b情况,将此代入相关系数的计算公式中,结果便可能是1或-1。

综合图一和图二,我们得出结论:两个随机变量若是相互独立,其相关系数为0;若是线性相关,其相关系数则为1或-1。这三个极端情况为我们揭示了相关系数的基本属性。那么,相关系数处于-1和1之间又代表着怎样的意义呢?

继续观察图三、图四和图五,我们通过改变数据来观察相关系数的变化。图三中Y与X完全正线性相关,其相关系数自然为1。而图四中,相关系数降为0.91;再观图五,其数值已变为负数。这样的变化过程为我们展示了相关系数的深层次含义——其数值范围从最大的正线性相关的1逐渐变化至负线性相关的-1。

为什么会发生这样的变化呢?我们需回到相关系数的定义中寻找答案。定义中的分子涉及两个变量的差异与其各自平均值之积的期望值。以图三为例,X和Y的平均值及它们的差异要么同时为正,要么同时为负,因此图三的相关系数由多个正数相加而成,数值较大。而图四现的(X-E(X))和(Y-E(Y))正负相反的情况导致了正负抵消的结果,使得数值下降;而图五则是由于负数乘积的总和大于正数乘积的总和,导致最终的相关系数为负数。

值得注意的是,无论情况如何变化,相关系数定义中的分母始终为正数。

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。