描述性统计案例 统计分析案例

2025-02-0110:44:16营销方案0

统计学是一个涉及数据解析和推理的领域,分为描述统计学和推断统计学两大类。描述统计学借助数字和图表展示数据的集中与离散程度,如平均数、中位数、众数、方差、标准差等指标;而推断统计学则是通过样本数据对总体特征进行推断,如产品质检中的抽检制度就是以此为理论依据。

在科学计算中,常常需要计算数据的统计特征。NumPy和SciPy这样的工具包可以帮助我们实现这一目标。Matplotlib是绘制图表的得力助手,满足对图分析的需求。

与Python原生List类型不同,NumPy中的ndarray类型专为描述一组数据而设计。

首先考虑的是数据的中心位置。我们通过平均数、中位数和众数等来获取数据的一些基本情况。其中,平均数对于预测新数据十分有用,而中位数则为定量数据的中心度量。对于定量数据,我们使用NumPy计算均值和中位数。

对于定性数据来说,众数是出现次数最多的值,反映了一种常见的趋势或倾向。利用SciPy工具可以轻松计算众数。

了解数据的中心位置后,我们还需要关注数据的发散程度。极差、方差、标准差和变异系数等指标帮助我们描述这种发散性。这些指标各有特点,使用NumPy可以进行相关计算。

值得一提的是,在面对包含异常值的数据时,我们需要评估这些值的偏离程度。z-分数就是衡量这一偏离程度的工具,其计算同样可以使用NumPy。

当涉及到两组或多组数据时,我们关心它们之间的相关性。协方差和相关系数是衡量这种关系的工具。协方差的正负值表示正负相关,而相关系数则进行了无量纲处理,更便于比较。

在Python中,Matplotlib是不可或缺的绘图工具。

【例1】以CBA球员的体重为例。

(1)直方图的绘制

· 确定数据的范围并找出最大值与最小值。

· 整理数据并分组(确保每组都有数据),然后计算频数分布表。

· 根据频数分布表绘制频数直方图。以频数为纵坐标,分组类别为横坐标。此图可直观展示数据分布。

还可以绘制频率直方图,其中纵坐标为频率/组距。

图1展示了频数分布直方图。

图1 频数分布直方图

(2)箱线图的绘制

· 下四分位数Q1和数据按升序排序后位于25%处的数据是同一概念。

· 上四分位数Q3和数据按升序排序后位于75%处的数据同样如此。

· 四分位距IQR是描述数据离散程度的统计量,计算方式为Q3减去Q1。

· 异常值是小于Q1-1.5IQR或大于Q3+1.5IQR的值以外的数据点。

· 下边缘和上边缘分别代表除异常点外的数据中的最小值和最大值。

图2展示了箱线图的绘制结果。

图2 箱线图

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。