在相同条件下,进行N次独立重复试验,我们称之为n次独立重复实验。设事件A在试验中的发生次数为随机变量X,每次试验中事件A发生的概率为P。当这样的情况下,我们说随机变量X服从二项分布,记作X~B(n,p)。
具体来说,二项分布描述的是这样一个概率分布模式:在重复试验中,结果只有成功与失败两种可能性,且成功的概率在每次试验中保持不变。比如,我们反复抛一枚经过特殊处理的,这枚出现正面的概率恒定为1/3,那么出现反面的概率自然就是2/3。
假如我们连续抛这枚10次,想要知道其现正面6次的概率是多少。这实际上是在询问,在10次抛的行动中,有6次是正面,剩余4次是反面的概率是多少。而且,我们还需要考虑到每次正反面出现的具体顺序。
值得注意的是,不要遗漏了选择的过程。当二项分布表示为X~B(n,p)时,它的数学期望为E(X)=np,其方差为D(X)=np(1-p)。
这种分布的图像被称为正态分布密度曲线,简称正态曲线。在这个曲线中,μ代表正态分布的数学期望,它是曲线的对称轴,曲线在x=μ处达到峰值。而σ,即正态分布的标准差,决定了曲线的形状。
σ值越小,数据波动越小,数据越集中,曲线越高;相反,σ值越大,数据波动越大,数据越分散,曲线越低。正态分布表示的数据通常是标准差,但在表示方式中给出的是方差,需要注意二者的区别。
别被一开始的公式吓到,这并不是高中对正态分布的考察重点。我们高中考正态分布主要考察其对称性。
解决正态分布的对称性问题就像是在做拼图游戏。从图形可以看出,整个正态分布曲线被几道线分为几部分,且各部分面积有特定关系。例如,若题目告知x>0部分的面积为0.8,减去x>2部分的面积0.5,就可以得到0<x<2部分的面积为0.3。
这道题的答案是0.3。就是这么简单。
还需了解几个重要的概率区间:
(1) P(μ-σ<X≤μ+σ)对应着约68.26%的数据;
(2) P(μ-2σ<X≤μ+2σ)则包含约95.44%的数据;
(3)而P(μ-3σ<X≤μ+3σ)则覆盖了约99.74%的数据。
这些数据在各种正态分布中是固定的,考试时会提供具体数值。
关于超几何分布的概念是学生们经常询问的。简单来说,超几何分布就是利用排列组合的方式去求概率。
好了,概率部分的基础内容我们就讲解到这里。下节课我们将开始学习统计的相关知识。