在探讨数据分析的必学知识时,不得不提的是统计学的重要性。对于与数据密切打交道的数据分析师而言,掌握统计学知识是不可或缺的。难道我们可以对最基础的统计学知识一无所知吗?
试想一下,如果连置信区间这样的基本概念都不理解,我们又如何能够妥善处理数据呢?如果连统计学最基本且核心的思想——用样本估计总体都没有概念,那么自称会数据分析就有些站不住脚了。
尽管统计学的书籍中充满了复杂的推理公式,使许多人感到头疼,但对于大多数数据分析师而言,其实并不需要深入到每个细节。学习统计学应当是有侧重点的。
我整理了一系列需要掌握的统计学知识模块,以便大家对统计学有个大致的了解,并据此进行有针对性的学习。
我们要明确的是,统计学并非研究统计行为本身,而是研究不确定性。而描述这种不确定性的唯一量化标准就是概率。尽管我们无法通过概率来预测独立随机事件何时发生,但我们可以利用概率来描述事件发生的可能性。
以下是几个主要掌握的模块:
- 随机事件的概率:了解并掌握不同类型随机事件的概率计算。
- 离散随机变量与连续随机变量的概率分布:熟悉并分析这两种类型随机变量的分布情况。
在工作中,业务人员或老板经常将一堆数据摆在我们面前,希望我们进行分析。面对这种情况,我们首先需要通过概括性的度量指标来宏观地把握数据中的初步信息。
- 集中趋势的度量:学习并应用适当的度量指标来描述数据的集中趋势。
- 离散程度的度量:理解并使用相关指标来分析数据的离散程度。
- 分布形态的度量:熟悉如何评估和比较数据分布形态。
在数据科学中,回归分析扮演着重要角色。它的易用性和实用性使它成为日常工作中解决问题的重要工具和思路。
- 相关系数:理解并计算不同变量之间的相关程度。
- 回归分析:掌握并应用不同类型的回归分析模型。
- 最小二乘法:了解最小二乘法在回归分析中的应用。
- 显著性检验:熟悉如何进行假设检验和显著性检验。
抽样是统计学中的一个重要概念。它涉及到从总体中选取一部分个体作为样本进行研究,然后通过样本结果来推断总体情况。
- 统计量的基本概念:了解统计量的定义和计算方法。
- 常用统计量:熟悉常用的统计量及其应用场景。
- 正态分布:理解并掌握正态分布的概念和性质。
参数估计是确定某个分布参数的过程。这涉及到对分布参数的假设和估计。
- 参数:理解参数在统计学中的定义和作用。
- 点估计与区间估计:了解点估计法和区间估计法的基本原理和应用。