在 A/B 测试中,频繁地查看结果并试图判断显著性是一个常见错误。这种做法会导致错误的判断,即使数据显示出显著性,也可能并非真正的显著。这是因为统计学上,多次检验显著性会导致虚假阳性的概率增加。
在 A/B 测试中,我们试图确定某个变体(例如,新的网站设计)是否比对照组(例如,旧版设计)更好。我们通常使用 p 值来衡量这个结论是偶然发生的可能性。p 值低于某个阈值(例如,0.05)表示结论很可能不是偶然发生的。
如果我们在测试过程中不断地检查结果,那么即使变体和对照组之间没有真正的差异,我们也可能在某个时刻发现一个看似显著的结果。这是因为每次检查都相当于进行一次独立的假设检验。当我们进行多次假设检验时,即使每个检验的 p 值都高于阈值,我们也越来越有可能在某个时刻得到一个 p 值低于阈值的显著结果。
这就像连续抛硬币,如果你抛够多次,总会有可能连续出现几次正面。但这些正面并不意味着硬币是偏向正面的。
为了避免这个问题,最好的做法是在 A/B 测试开始之前就确定好样本量,并一直收集数据直到达到预定的样本量。这样,我们就可以确保在整个测试过程中,我们进行的假设检验次数是固定的,从而使 p 值的解释更加准确。
在实际应用中,我们通常会使用一些工具来帮助我们确定样本量。例如,我们可以使用 A/B 测试工具来帮助我们计算出需要多少样本才能检测到我们想要的最小效果。
记住,A/B 测试的目的是为了找到最有效的方案,而不是为了找到一个看似显著的结果。我们应该始终坚持科学的方法,并使用正确的统计方法来分析数据。