物数据检测后,对所收集的数据进行科学分析和结果判定显得尤为重要。接下来,让我们一同探讨一些常用的统计概念。
算术均值(M):此概念用于衡量观测值分布的中心趋势或集中程度。它最适合描述对称分布观察值的情形,但会受到非对称性分布(形状)和极值的影响。简单来说,算术均值即为样本数据之和除以数据的个数。
几何均值(GM):几何均值是通过将每个数值取对数后求和,再取反对数得到。
中位数:作为观测值中心趋势的另一种度量方式,中位数在数据分布不均或存在异常值时,往往能更准确地代表数据的中心位置。若数值个数为奇数,中位数为第(n+1)⁄2个值;若为偶数,则取中间两个数值的算术平均值。
极差:极差描述了样本中最大值与最小值之间的差异,是衡量样本变异的另一种度量方式。当样本量适中或较大时,需谨慎使用此指标,因为最小值和最大值通常波动性较大。通常来说,样本的标准差能更准确地描述数据的离散程度。
方差与标准差:方差用于描述样本数据的变异度,其计算公式为观测值与其均值的差方和再除以自由度。而标准差,也称为标准偏差,是方差的正平方根。
标准误差:此概念用于描述样本统计量(如样本均值)的抽样分布离散程度。它反映了样本统计量与总体参数之间的差异程度,是衡量样本均值变异性的重要指标。标准误差越小,说明样本统计量越接近总体参数,估计的精确度越高。
变异系数:变异系数用于描述数据的相对离散程度,它是标准差与均值的比值,通常以百分数的形式呈现。此指标有助于比较不同数据集的离散程度,特别是在数据集的均值差异较大的情况下。
Z-分数:Z-分数衡量单个数据点与数据集平均值之间的差异,单位为标准差。又被称为标准分数或离均差,Z-分数表示数据点与平均值的距离。
残差:残差反映了观测值与模型预测值之间的差异,是评估回归模型拟合优度的重要手段。通过分析残差,可以检查模型假设是否得到满足,如线、误差项的独立性等。残差图则是在图中绘制残差,常用于模型构建后的诊断。
置信区间:此概念用于表示对未知总体参数的估计范围。置信区间的宽度取决于样本大小、样本变异性(标准差或方差)以及所选的置信水平,如90%、95%和99%等常见水平。
正态分布:正态分布又称高斯分布,其概率密度函数曲线呈现特定的形状。
自由度:在统计学中,自由度指的是在以样本统计量估计总体参数时,样本中能自由变化的变量的个数。例如,在计算样本方差时,若样本大小为n,则其自由度为n−1。
有效数字:在进行计算和报告值时,需考虑用于计算的数字位数和报告值中的数字位数。为减小总体误差,中间计算结果的修约处理至关重要。报告值的有效数字位数与方法的精密度相关,精密度越高,需要保留的有效数字位数越多。
异常值的处理:当观测到的分析结果与预期结果存在较大差异时,此类结果被称为异常值或离群值。对于这类结果,应进行记录、解释和处理。在存在异常值时,需进行系统的实验室和生产过程调查,以确定异常原因,并据此决定是否剔除异常数据。