在两节课的时间里,我们深入探讨了数据收集采样的方法及其后续的数据分析技术。数据采集完成后,紧接着的步骤就是对这些数据进行科学评估。那么,我们如何量化这些数据呢?
我们首先接触到的统计量就是平均数,这是统计学中的基础概念。其算法与我们初中学过的计算平均数的方法相同,即将所有数值相加后除以总数的结果。平均数反映了数据的总体水平,但它有一个缺点,那就是其中任何一个数值的变化都会对平均数产生影响,尤其是当数据离散程度较大时,这种影响更为明显。
接下来我们学习了方差的计算方法,它与初中学过的知识相类似。方差是反映数据波动程度的一个重要指标,数值越小表示数据越集中,反之则表示数据越离散。我们也提到了标准差的概念,它是方差的平方根。
除了方差和平均数,我们还介绍了众数这一概念。众数是出现次数最多的数值,需要注意的是,如果一组数中有超过一个数的出现次数最多,那么这几个数都是众数。众数体现了这组数据的最大集中点,但它的缺点是只能反映样本数据的一部分信息,无法全面客观地反映整体情况。
中位数也是我们关注的重点之一。中位数是将一组数据按照大小顺序排列后,处于最中间的那个数。如果数据的数量是奇数,中位数就是中间那个数;如果是偶数,则是中间两个数的平均值。中位数的特点是不受极端数据的影响,但同样也无法反映数据中的极端情况。
我们还探讨了极差的概念,极差是一组数中最大值与最小值之间的差值,它反映了这组数据的覆盖范围与偏离程度。
在讲解过程中,我们还详细介绍了频率分布直方图这一概念。它与我们初中学过的条形图相似但有本质区别。在频率分布直方图中,我们关注的是每个矩形的面积而非单个数据点,因为这是我们进行数据分析时真正需要使用的数据。我们也强调了如何计算频率分布直方图的平均数、方差、众数等统计量。