在大学的时候,我曾经觉得统计学是一个非常棘手的科目,差点因此挂科。等到工作后,我才意识到,真正让人头疼的并不是统计学本身,而是当时的教材实在写得太晦涩。相比起高等数学那些繁复的公式和抽象的概念,统计学中的很多原理其实要简单得多。
比如,什么是泊松分布和指数分布呢?很多人可能并不太理解这两个概念。
不过不用担心,我可以在短短几分钟内,用一种非常直观的方式,帮助你轻松掌握这两个概念。
在我们的日常生活中,有很多事件发生的频率是比较固定的。比如:
某医院每小时平均接生3个婴儿
某公司每10分钟接到1个电话
某超市每天卖出4包xx品牌的奶粉
某网站每分钟会收到2次访问请求
这些事件都有一个共同的特点——它们的发生是有固定频率的,我们能够大致预测它们的总数,但却无法准确预测它们的具体发生时刻。比如,已知某医院每小时出生3个婴儿,接下来一个小时内,究竟会出生几个呢?
答案可能是6个,也可能是一个都没有,甚至可能会出现其他任何情况。我们无法确切知道下一个小时的结果。
这时候,泊松分布就派上用场了。它的作用是,帮助我们计算在某段时间内,某一特定事件发生的概率。
泊松分布公式如下:
公式中的“P”表示事件发生的概率,“N”是某种数学关系,t是时间,“n”则是我们预期的事件数量。比如,若每小时出生3个婴儿,假设我们想计算在下一个小时内,出生恰好3个婴儿的概率,那么我们就可以通过泊松分布的公式来计算。
在实际应用中,如果我们设定一个时间段,想要知道某个事件的发生概率,可以使用泊松分布来做出估算。例如,如果接下来的两个小时内,医院不出生婴儿的概率是0.25%,也就是几乎不可能发生,而至少出生两个婴儿的概率则大约是80%。
泊松分布的图形大致呈现的是,事件发生频率较高的地方,概率最大,向两侧偏移时,概率急剧下降。这也意味着,事件发生的次数离预期值越远,出现的可能性就越小。
接下来我们讲讲指数分布。
指数分布描述的是事件发生的时间间隔的概率。就像这些例子:
婴儿出生之间的时间间隔
接到电话之间的时间间隔
销售奶粉之间的时间间隔
网站访问之间的时间间隔
实际上,指数分布可以从泊松分布推导出来。比如,如果下一个婴儿的出生时间间隔为t,那么意味着在t之前,医院内没有任何婴儿出生。
从这个角度看,事件发生在某一时间段内的概率,可以通过1减去没有发生的概率来得到。
比如,在接下来的15分钟内,婴儿出生的概率是52.76%,而在15到30分钟之间,出生婴儿的概率是24.92%。
指数分布的图形呈现出一种典型的衰减趋势。随着时间间隔的增加,事件发生的概率迅速下降。假设每小时出生3个婴儿,那么接下来2小时内才出生婴儿的概率是0.25%,间隔3小时、4小时的概率就几乎接近零了。
简而言之:
泊松分布描述的是单位时间内,独立事件发生的次数的概率分布。
指数分布则是描述独立事件之间的时间间隔的概率分布。
需要特别注意的是,这两种分布的前提条件是事件必须是独立的,换句话说,事件之间不应存在任何依赖关系。如果事件之间存在关联,那么就不能使用这两种分布的公式来计算。