在统计学的领域中,我们经常能够遇见一个名词:P值或者称为P-value。尤其是在进行回归分析时,P值被视为评判回归变量合理性的重要依据。
打开任何一本统计学书籍,你都会找到关于P值的官方解释:P值代表了原假设为真时,能够观测到当前样本结果或更为极端结果出现的概率。
这个解释听起来或许有些抽象,尤其是在面对统计学的新手学习者时。尽管如此,我们仍然需要去理解并掌握它的内涵。
对于假设检验来说,我们通常是根据计算出的z值与设定的临界值进行对比,以决定是否拒绝原假设。在统计图表的辅助下,如果观测值落在了拒绝域内,那么我们就有理由拒绝原假设;反之,我们则选择接受原假设。
在实际的分析工作中,我们更多的是依赖P值来进行统计量的检验。那么,这个P值究竟意味着什么呢?
要理解这一点,我们可以从显著性水平入手。假设显著性水平设定为0.05,这实际上意味着我们设定的错误拒绝原假设的概率(即第一类错误)最大为5%。那么,在统计图中,这相当于两侧面积所对应的概率。
如果在一次计算中,得到的z值落在了图示左侧的蓝色小区域内(标以红色标记),那么这个z值所对应的概率——即红色曲线下的面积——是可以被精确计算的。比如,如果z值计算出来为-2.5,那么对应的概率就是0.00621。
借助Excel等工具,我们可以轻松计算出这个概率值。而这个计算出的概率,正是我们所说的P值(P-value)。
当这个P值小于我们设定的显著性水平,比如0.05时,这表示原假设所代表的事件是一个小概率事件,几乎不可能发生。我们就有理由拒绝这个原假设。
再回到文章开头的解释:P值就是原假设为真时观测到当前样本结果或更为极端结果的可能性。这其实是在强调P值反映了原假设真实性的可能性大小。如果P值小到一定程度,就意味着我们应该质疑原假设的正确性。