置信区间:机器学习估计结果的可靠性度量
机器学习的核心是对条件概率或概率分布进行估计,但如何评估这些估计的可靠性呢?统计学中的置信区间与置信度概念为我们提供了一种直观的度量方法。本文将简要介绍置信区间的核心概念,帮助我们理解如何评估机器学习模型预测结果的优劣。
假设我们想知道美国有多少人热爱足球。理想情况下,我们需要询问每一位美国公民,才能得到100%准确的答案。但面对超过3.25亿的人口,这显然是不现实的。我们需要通过调查更少的人来估计结果。
我们可以随机抽取一部分美国人进行调查,并计算热爱足球的人的百分比。我们无法确定这个数字与真实比例之间的差距。我们需要一个区间来表示估计结果的范围和可靠性,例如:"我们有95%的信心认为,在美国,热爱足球的人口比例在58%到62%之间"。这就是置信区间的含义:一个包含估计值的范围,以及对该范围包含真实值的信心程度。
为了确保估计结果的可靠性,样本的随机性至关重要。例如,我们不能仅调查某个城市的居民,因为这无法代表整个美国。同样,仅调查Facebook用户也无法反映真实情况,因为并非所有美国公民都使用Facebook。
假设我们随机调查了1000名美国人,发现其中63%的人热爱足球。我们能否以此推断整个美国人口的情况呢?
为了更好地理解这个问题,让我们假设美国热爱足球的人口比例已知为65%。那么,在随机抽取的1000人中,只有63%的人热爱足球的概率是多少?我们可以使用Python进行模拟实验。
我们创建一个包含3.25亿个元素的NumPy数组,用1表示热爱足球,0表示不热爱。通过计算数组的平均值,我们可以得到热爱足球的人口比例,即65%。
接下来,我们进行多次抽样实验,每次随机抽取1000个样本,观察得到的热爱足球人口比例:
每次抽样的结果可能会有所不同,但根据统计学理论,随着样本数量的增加,样本均值会越来越接近真实比例。我们可以通过模拟大量样本进行验证。
我们创建了10000个样本,计算每个样本中热爱足球人口的比例,并计算所有样本比例的平均值,结果为64.98%,非常接近真实比例65%。
将所有样本比例绘制成直方图,可以发现其形状非常接近正态分布。随着模拟次数的增加,直方图会越来越接近正态分布,我们可以根据正态分布的性质推断任意数值范围内样本的数量。
例如,我们可以说大约一半的样本比例大于65%,大约25%的样本比例大于67%,甚至可以粗略地说,只有2.5%的样本比例大于68%。
回到现实问题,我们并不知道美国热爱足球人口的真实比例,只能通过一次抽样得到63%的估计值。那么,如何利用这些信息呢?
虽然我们不知道真实比例,但可以通过模拟实验了解到,如果进行无数次抽样,样本比例的分布将接近正态分布。根据正态分布的性质,我们可以推断出,95%以上的样本比例将在真实比例±3%的范围内。
尽管我们只进行了一次抽样,但可以95%的信心认为,美国热爱足球人口的真实比例在60%到66%之间。这就是置信区间的意义:它为我们提供了一个基于有限样本估计真实比例的可靠范围。
对称性是距离的本质属性。如果 95% 的样本落在真实百分比 ±3% 的范围内,那么真实百分比落在样本百分比 ±3% 范围内的概率同样是 95%。
举例来说,假设我们抽取的样本结果为 63%,则可以 95% 确信真实比例位于 60%(63%-3%)到 66%(63%+3%)之间。
这就是置信区间,在本例中即为 63% ±3%,置信水平为 95%。
希望上述解释能帮助大家更好地理解置信区间。这只是一个简要介绍,省略了部分技术细节。读者可以通过阅读相关文献资料来深入学习。