导语:
一、负二项分布
负二项分布与二项分布类似,但适用于描述一系列伯努利试验中的特定事件出现次数的情况。已知在一个伯努利试验中,每次试验事件发生的概率是p,当我们在一连串的伯努利试验中,刚好在第r次试验后第r+k次出现第r次概率时,负二项分布便派上了用场。例如,在生产零件的情境中,我们想要知道抽到合格零件的次数服从何种分布,当抽查至r个次品停止时,此时抽查到的正品数量即遵循负二项分布。
负二项分布的期望和方差分别为μ=pr/(1-p)和σ2=pr/(1-p)2,可以看出其方差大于期望。这一分布在模拟RNA-Seq数据中的counts数(即每个基因的reads数)时尤为有用。由于RNA-Seq数据通常呈现期望小于方差的特点,因此我们通常采用负二项分布来模拟这类数据。
二、多项式分布
多项式分布可以看作是二项式分布的扩展。在试验结果非单一的情况下,例如扔一个骰子得到点数可能为1到6,重复扔n次骰子时,1到6出现的次数便服从多项式分布。再如,一段DNA序列由ATCG四种碱基构成,每种碱基的比例各不相同,那么每种碱基的个数便服从多项式分布。我们可以想象n个小球随机落入大小不一的四个盒子里,每个盒子里球的个数也服从多项式分布。
当以DNA序列中的碱基为例进行具体计算时,我们可以使用R语言进行验证。比如,已知四种碱基的比例分别为p(A)、p(T)、p(C)、p(G),我们可以随机模拟小球落入盒子的情景并计算各项概率。
三、检验功效
在统计学中,检验功效是衡量我们能否有效地拒绝无效假设的一个重要指标。它与第Ⅱ类错误相反,即当原假设不正确时我们能够正确识别的概率。在机器学习中,检验功效的应用广泛存在于各类假设检验中。
以DNA碱基的例子来说明,当我们要检测DNA序列中四种碱基数目是否一致时,即假设四种碱基的比例均为1/4。我们可以通过蒙特卡洛方法进行假设检验。首先使用rmultinom函数从零假设中生成模拟数据,然后构造统计量来衡量预测值与期望值的偏差。通过直方图等方式我们可以得出检验功效的值。
四、小结
在R语言学习笔记系列的这两期中,我们主要介绍了几种常见的离散分布,包括二项分布、泊松分布、负二项分布和多项式分布。通过这些分布的学习,我们可以更好地理解和分析各种实际问题的概率模型。我们也学习了如何使用蒙特卡洛方法进行模拟计算,这对于解决复杂的问题具有重要意义。
二项分布适用于抛等典型的伯努利试验情景。当我们需要模拟RNA-Seq数据时,负二项分布是一个很好的选择。而多项式分布则适用于描述具有多个可能结果或级别的离散事件,如DNA序列中的碱基组成。