在数据分析领域,我们会频繁地使用到一些关键概念和公式。先来探讨平均值这一简单而又实用的概念。它的基本原理就是将所有数据的总和除以数据点的个数,用以表示数据集的平均大小。其数学定义如下:
平均值的概念:
通过将所有数值相加,然后除以数值的总数,我们可以得出平均值,这是用来描述数据集的平均大小的数学工具。
接下来我们来看看方差的定义。方差是衡量数据集中各数据点离散程度的重要指标。
方差:
它反映了数据点与其平均值之间的差异程度,数值越大表示数据越分散。
再来说说标准差。标准差与方差类似,也是用来表示数据点的离散程度,但不同的是它是方差的平方根。
标准差:
它是方差的平方根,用来衡量数据点偏离平均值的程度。一个较大的标准差意味着数据点与平均值之间的差异较大,而较小的标准差则表示数据点较为接近平均值。
更具体地说,当面对一组数据时,我们可以计算出每一个数与平均值的差的平方,然后将这些平方值相加,并除以数据的个数(或个数减一,即变异数),最后将所得值开根号,就能得到这组数据的标准差。
下面是一个简单的标准计算公式:
假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值(算术平均值)为μ,如图1所示。
为了更好地理解这些概念,让我们看一个实例。假设有两组学生的分数,尽管它们的平均分相同,但标准差的差异揭示了两组学生分数分布的不同情况。
使用标准差来表示数据点的离散程度有三大好处:它提供的数字与样本数据点的数量级一致,便于我们形成对数据样本的感性认知;其单位与样本数据的单位一致,方便后续的分析运算;在样本数据大致符合正态分布的情况下,标准差具有方便的估算特性。
在编程中,我们可以利用特定的函数来计算这些值。
计算平均值
使用np.mean函数可以轻松求得数组的平均值。
计算方差
通过np.var函数,我们可以快速得到方差的数值。
计算标准差
标准差的计算则依赖于np.std函数,参数ddof=1表示无偏样本的标准差。
打印出这些计算结果,方便我们查看和分析。
打印平均值、方差和标准差: