亲爱的朋友们,今天我要与大家分享一些关于多版本测试的统计方法。我是喜欢探索学习的小xiong熊妹。
先前,我们谈到了ABtest的基本原理,那时有朋友提出,如果我们不止有AB两个版本,而是有三个甚至更多的版本,那应该怎么办呢?这确实是一个非常有趣且重要的问题!而今天我要告诉大家的是,我们依然可以使用统计学中的方差分析来处理这种情况。
当只有AB两个版本进行对比时,我们进行假设检验的依据是:A版本的均值或比例与B版本是否相等。如果测试结果了原假设,那么我们就认为AB版本的均值或比例存在差异,从而可以判断哪个版本更为优秀。相对应的统计量就是基于这一原理设计的。
当有ABCDE等更多的版本时,问题就稍微复杂一些了。这些版本中可能有些差异显著,有些则不然。如果逐一进行对比,那么就需要进行多次测试,既费时又费力。那么,有没有一种更为高效的方法呢?
答案是肯定的!我们可以采用两步走的方法:
第一步是进行方差分析。我们要检验这些版本的均值是否都相等。此时我们的原假设是:A版本、B版本、C版本等的均值都是相同的。如果这个假设被,那么就说明这些版本的均值存在差异。如果能原假设,我们再进一步观察它们两两之间的差距。
第二步则是对于那些在第一步中检测出存在差异的版本进行进一步的对比。我们可以使用fisher 方法,对各总体均值进行两两比较,以确定具体哪些版本之间存在显著差异。
今天我们先重点讲解第一步的方差分析。
方差分析是一种用于检验多个版本(三个及以上)对应的多组数据是否存在均值差异的方法。其原理虽然稍显复杂,但我们可以简单理解为:通过一个F统计量来衡量各组数据的组间差异与组内差异的比值。当组间差异大而组内差异小时,F统计量的值就会很大,这时我们就可以原假设,认为这些样本不可能都来自同一总体。
进行方差分析时,我们需要遵循三个步骤:明确要对比的版本、明确要对比的数据指标、收集不同版本的测试数据。然后计算F统计量的值,进行假设检验。
让我们通过一个简单的例子来加深理解。假设我们有产品ABC三个版本,我们需要测试不同用户在使用这三个版本后的每日留存时间。我们可以按照上述步骤进行操作:首先确认要对比的版本是ABC;其次确认要比对的指标是三个版本下用户的每日留存时间;然后筛选用户、发布版本并收集测试数据;最后进行计算。这种只考虑“版本”一个影响因素的实验被称为单因素方差分析,我们甚至可以使用Excel来求解。
如果计算结果显示出这三组测试结果的均值存在差异,那么我们就可以进行第二步的检验了。如果想省事一些,我们可以先认为版本C的效果相对较差。
掌握了方差分析的思路后,我们就可以进行多种对比了。实际上,区分N个组别、测试版本/方法/属性对某个指标影响的做法是数据实验的基本方法之一。通过不断地实验我们可以测试出新版本/新方法的实际效果和作用大小。
方差分析还有更进一步的应用场景。例如在本例中我们需要考虑不同用户的行为差异问题,这需要我们从用户行为中剔除个人差异或者提前找到一些可能影响结果的因素(如用户是否为重度用户),然后将相似的人组成一组进行测试。如果影响结果的因素不止一个那么又需要用到更复杂的方法进行分析了。