统计指标的微妙密码——相关系数
相关系数,这一统计学的奥秘,最初由统计学家卡尔·皮尔逊精心设计。它是一把度量变量间线性相关程度的尺子。由于研究对象的千差万别,相关系数拥有多种定义方式,其中最为常见的便是皮尔逊相关系数。
相关表与相关图,它们如同一对探索者,揭示了两个变量之间的相互关系及其方向。它们无法确切地告诉我们这两个变量之间的亲密程度。这时,相关系数这一统计指标便派上了用场,它详细地反映了变量间关系的密切度。相关系数的计算基于积差方法,以两变量与各自平均值的离差为基础,通过两离差的相乘,来展示两变量之间的相关程度,尤其侧重于线性单相关系数的探究。
要明白,皮尔逊相关系数并非唯一的存在,但它无疑是最为普遍的相关系数。以下的解释,都将围绕皮尔逊相关系数展开。
让我们一探相关系数的导出过程。两个相互独立的随机变量之和的方差,其背后隐藏着协方差和相关系数的定义。
接着,通过图示的辅助,我们可以更直观地理解相关系数的内涵。当X和Y相互独立时,由于它们的协方差为0,因此其相关系数也为0。而当两者呈现出线,尤其是图二中所示的Y=kX+b情况,将此代入相关系数的计算公式中,结果便可能是1或-1。
综合图一和图二,我们得出结论:两个随机变量若是相互独立,其相关系数为0;若是线性相关,其相关系数则为1或-1。这三个极端情况为我们揭示了相关系数的基本属性。那么,相关系数处于-1和1之间又代表着怎样的意义呢?
继续观察图三、图四和图五,我们通过改变数据来观察相关系数的变化。图三中Y与X完全正线性相关,其相关系数自然为1。而图四中,相关系数降为0.91;再观图五,其数值已变为负数。这样的变化过程为我们展示了相关系数的深层次含义——其数值范围从最大的正线性相关的1逐渐变化至负线性相关的-1。
为什么会发生这样的变化呢?我们需回到相关系数的定义中寻找答案。定义中的分子涉及两个变量的差异与其各自平均值之积的期望值。以图三为例,X和Y的平均值及它们的差异要么同时为正,要么同时为负,因此图三的相关系数由多个正数相加而成,数值较大。而图四现的(X-E(X))和(Y-E(Y))正负相反的情况导致了正负抵消的结果,使得数值下降;而图五则是由于负数乘积的总和大于正数乘积的总和,导致最终的相关系数为负数。
值得注意的是,无论情况如何变化,相关系数定义中的分母始终为正数。