导语:前文我们探讨了假设检验的基本原理及R语言在其中的应用。本篇继续探讨拟合优度检验及多重假设检验的方法。
1. 拟合优度检验
拟合优度检验主要用于评估模型与样本数据之间的拟合程度,即检验样本数据是否来自某一特定分布。以掷骰子为例,我们可以通过多次投掷骰子并记录各面出现的次数,来检验其是否符合均匀分布。
1.1 定义
拟合优度检验旨在衡量观测数据与理论分布的契合程度。比如,要判断骰子是否均匀,可观察实际投掷中各面出现的频率是否接近理论上的1/6。
1.2 数学模型
以骰子检验为例,设事件Xi为第i点正面向上(i = 1, 2, 3, 4, 5, 6),原假设H0:各面出现的概率均为1/6。若实际观测值与期望值(即1/6)相差较大,则可能拒绝原假设。
统计量通常基于观测值与理论值的差异计算,且该统计量近似服从卡方分布(χ²),这是卡方检验的基础。
1.3 代码实现
R语言中可实现卡方分布的图像绘制及卡方检验。通过R语言,我们可以轻松地对上述两组数据进行卡方检验,并得出相应的p值。
2. 多重假设检验
当进行多个假设检验时,需要考虑错误发现的概率。常用的方法包括Bonferroni校正和FDR校正。
2.1 Bonferroni校正
这是一种较为严格的校正方法。它直接将单次检验的显著性水平α除以检验次数n。在GWAS研究中,为了控制假阳性,常常采用Bonferroni校。
2.2 FDR校正(False Discovery Rate)
FDR是一种较为宽松的校正方法。它通过计算每个p-value的q-value来进行校正。q-value = p-value × n / rank,其中rank是p-value从小到大排序后的序号。
具体实施时,首先将所有的p-value从小到大排序;然后根据设定的FDR值,找到最大的k值,使得p(k) ≤ φk/m;最后拒绝rank < k的假设检验。
通过R语言代码,我们可以轻松地实现FDR校正,并据此判断哪些差异表达基因是真实的。
结语:拟合优度检验及多重假设检验是统计学中的关键概念。正确理解和应用这些概念,对于科研工作的准确性和可靠性具有重要意义。