对于把握全貌的情境,通常只要简单的数据分析便能捕捉其特性。比如计算技术团队所有工程师的平均薪资,了解某公司全部研发人员所占的比例分布,亦或是统计公司全体职员的学历分布情况等。这种通过全数据获取整体特性的方式显得十分直观。
当面对范围广阔的总体时,例如饮料公司需要了解其所有消费者的口味偏好,直接对全体进行测定往往不切实际。抽样调查成为了有效手段。我们可以用样本信息来推断总体特性。例如,通过样本均值来估计总体均值,用样本比例来推测总体比例,以及用样本方差来估计总体方差等。
在统计学中,描述总体特性的数值如均值、方差等被称为参数,而描述样本特性的统计量如样本均值、样本方差等则被称为统计量。利用样本统计量来推测总体参数的过程被称作参数估计,如图8-5所示。
图示展示了总体参数与样本统计量之间的关联。
若要评估个体对知识的掌握程度,常规做法便是通过考试。难道需要考察一个人学过的所有知识点吗?显然不是。学校通常的做法是出题,通过一套覆盖重要知识点的来评估学生。这里,学生学过的所有知识点构成总体及总体参数,则为抽取的样本,学生的考试成绩即样本统计量。最终,我们以成绩推断掌握程度,即以样本统计量来推测总体参数。
学生在备战高考时经常做模拟,尽管每次得分有所差异,但这是因为的不同即每次抽样的不同所致。若某学生多次模拟考试数理化生的平均分稳定在95分左右(百分制),且最低分也高于90分,说明其在理科方面的成绩优异。反之,若其语文分数波动较大,则表明对语文知识的掌握有待加强。
关于高考的争议之一即是“一考定终身”。尽管如此,出题专家仍竭力使尽可能公平地反映学生的整体学习成果。对于每位考生而言,这其中充满了不可预知的偶然性。
相较之下,的大学申请机制则显得更为综合。除了入学考试(如SAT)外,还会综合考虑中学时期的全部成绩。这种多次抽样的方式避免了因一次考试失利而影响学生的未来。但这也带来了新的问题:若学生在中学初期表现不佳而在最后阶段奋起直追,其早期成绩的不佳仍可能对其产生不利影响。从统计学角度看,早期的成绩是基于某一阶段的抽样结果,可能存在较大的抽样误差。
考虑饮料公司的例子中,如果想知道喜欢低糖饮料的消费者比例,全面调查虽能获得精确结果却耗时耗力。此时抽样调查就派上了用场。假设调查了1万名目标人群中的1100名喜欢低糖饮料的人。这里,所有消费者中喜欢低糖饮料的比例被称为总体参数p,而样本中喜欢低糖饮料的比例则是样本统计量p^。
由上可见,通过分析样本统计量(如11%的喜好比例),我们可以对总体的特性做出“大概”的估计。但需注意这里的“大概”是带有一定误差范围的。因为样本与总体之间总是存在差异的。