你可能听说过比萨斜塔的故事。在建造过程中,这座塔逐渐向一边倾斜。
假设吉诺(Gino)是其中一位工程师,他想要预测塔的未来倾斜度。他关心倾斜度是否会增加,特别是明年会增加多少。吉诺的唯一信息是下面的表格,其中包含了每年以十分之一毫米为单位的倾斜度数据。
为了更好地分析这些数据,吉诺绘制了散点图。
- 图1:散点图展示了两个定量变量之间的关系。
在散点图中,年份放在横轴上作为自变量,倾斜度放在纵轴上作为因变量。这样,我们可以直观地看到数据点之间的关系。
当一组数据点呈上升趋势时,变量之间呈正相关。反之,如果呈下降趋势,则呈负相关。如果数据点大体在一条直线上,那么变量之间的相关性较强。反之,如果数据点分散,相关性则较弱。
吉诺的目标是使用他的散点图来预测塔的未来倾斜度。这可以通过计算最适合给定数据点的直线的函数来实现,这个过程叫做线性回归。
在谈论线性回归之前,我想先谈谈相关系数r。r不仅可以告诉我们是否值得做线性回归,它在线性回归中还起着非常重要的作用。
r显示了一个线的强度和方向。当两个变量之间存在正向关系时,r为正;存在负相关时,r为负。如果数据点正好描述了一条直线,r的值可以是1或-1。当完全没有相关关系时,r为0。
为了计算r,我们可以使用皮尔逊公式。这个公式可以帮助我们量化两个变量之间的线强度。
皮尔逊公式的背后是逻辑很简单。它通过计算数据点之间的差异来得出一个值,这个值可以告诉我们数据点是如何分布的。如果大多数点都靠近一条直线,那么r的值就会很高,表示两个变量之间有很强的线。
使用皮尔逊公式和其他统计方法,吉诺可以计算出他数据的r值。如果r值很高,那么他就可以有信心地使用线性回归来预测未来的倾斜度。
假设吉诺计算出的r值为0.995,这是一个非常高的值,表示他的数据点之间有很强的正相关关系。这意味着他可以使用线性回归来预测1888年的倾斜度。
通过线性回归,吉诺可以得出一个函数,这个函数可以描述年份和倾斜度之间的关系。对于1988年,他可以使用这个函数来预测倾斜度。
文章最后提到,吉诺预测1988年的倾斜度为767.8毫米。这只是一个例子,实际的数值可能会有所不同,但这个过程和思路是相似的。
这篇文章的主要目的是展示如何通过数据分析来预测未来趋势。虽然文章中涉及了一些数学和统计概念,但我们的目标是理解这些概念背后的逻辑和思考过程。
希望这篇文章能帮助你更好地理解线性回归和相关系数的概念。记住,数据分析不仅仅是一组公式和计算,更重要的是理解数据背后的故事和含义。