近日有客户在处理一项重要工作,那就是评估公司的员工满意度。由于公司规模庞大,涉及全国多个大区,数千至数万不等的员工数量,使得在比较不同区域满意度指标时遭遇了挑战。这不禁让人思考,在如此庞大的样本量下,如何确保假设检验仍能保持其实际价值。
在此,我们不深入探讨针对此问题的具体咨询建议,而是讨论一个普遍存在的现象:在样本量过大的情况下,如何应对假设检验可能失效的问题。简单来说,当样本量过大时,样本信息过于丰富,抽样的标准误变小,即使是微小的样本差异也会被赋予统计学意义。
那么,有没有办法可以弥补这种假设检验过于敏感的缺陷呢?答案是肯定的。统计学家为此提出了一种名为“效应量”的指标。
何为效应量
效应量(Effect Size)是一种直接衡量总体均值间差异大小或影响因素作用强度的指标,它完全抛开了假设检验的束缚。由于它不受样本量大小的影响,因此可以在不同研究间进行比较。
严格来说,效应量的兴起与Meta分析密切相关。Meta分析需要整合的不同研究样本量可能相差悬殊,因此需要一个能够整合其效应大小的指标。如今,单研究也开始报告效应量。
理解了效应量的概念后,我们可以这样看待研究结果:
- 如果差异/影响无统计学意义,那么研究结果无进一步探讨的价值。
- 如果差异/影响有统计学意义,但计算出的效应量很小,这可能是由于样本量过大导致的,尽管存在差异,但其专业价值有限。
- 如果差异/影响有统计学意义,且效应量足够大,那么差异存在且具有专业价值。
虽然效应量的大小是衡量专业价值的一个指标,但终究还是需要从专业的角度进行判断。
在使用效应量时,有两点需要特别注意。效应量的计算不一定与统计模型相关联,其界值也是人为确定的,因此具有一定的主观性。在使用时最好仅适用于简单的分析方法。效应量指标有标化和未标化两种类型,Meta分析中通常使用标化的效应量以便进行效应合并,而在单纯衡量研究中的效应大小时则使用未标化的效应量。
效应量的家族
根据效应量所反映的效应不同,它可以大致分为三大类。
第一类是d-family(差异类),用于反映各组平均水平间的差异。常见的指标如Cohen's d、Hedges' g等,当我们谈论效应量时,往往指的是这些指标。
第二类是r-family(相关系数类),用于反映指标之间的关联性强度,如Pearson r、R²、η²、ω²、f等。
第三类是OR-family(分类变量类),主要用于反映分类指标之间的关联性强度,如odds ratio (OR)和risk ratio (RR)。
常见的效应量指标
统计学家们经过长期努力,已经提出了数十种效应量估算指标。虽然列表较长,但这里我们只列举最常用的几个。
- Cohen’s d:用于t检验的常见效应量指标,表示两个均数标准化后的差异大小。
- Hedges g:在d值的基础上对联合方差进行了进一步校正的指标。
- Cohen’s f和偏Eta²:用于方差分析的效应量评估。
效应量的计算与实现
理论固然重要,但实际操作同样不可或缺。我们不能手动计算效应量,需要依赖工具来实现。SPSS等软件可以计算效应量。以SPSS 27版为例,其成组t检验对话框和单因素ANOVA对话框已直接内置了d-family的计算选项。
对于r-family和OR-family指标,早在SPSS的早期版本中就已经提供了计算功能。至于偏eta方,可以在SPSS的一般线性模型对话框选项中找到对应选项。