测试是什么？原理及应用案例分析

发布时间：2023-11-27 03:10:01源自：http://www.zuer8.com阅读

在当前数字化时代，产品的迭代速度不断加快，如何准确地评估每一次改动所带来的影响，已经成为各大公司和团队关注的焦点。因此，AB测试作为一种关键的工具，被广泛应用于各个行业。在本章中，我们将深入探讨AB测试的概念、原理及其应用，帮助你更好地理解和掌握这一重要工具。我们将介绍AB测试的定义，以及其背后的统计学原理。接着，我们将讨论如何运用AB测试降低风险并准确评估改动影响，以实现快速迭代过程中的高效决策。我们将通过一个生动的案例，详细解读如何运用AB测试进行产品和策略优化，以提升企业的竞争力和市场占有率。ABTEST系列文章将围绕以下六个问题进行展开，帮助你系统地梳理数据分析师应掌握的AB测试技巧，本章为ABTEST系列文章的第一章，“什么是AB测试和AB测试的统计学原理”。那么，什么是AB测试呢？

AB测试的原理解读：

1. 什么是AB测试？

2. AB测试的统计学原理？

3. 统计功效是什么？

4. 关于AB实验需要持续多长时间以及需要多少样本量的疑问！

5. 如何优雅地分析AB实验的结果？

6. AB实验常见的注意事项

一个重要的任务是优化竞选页面，以提高用户的注册率和获得更多的募捐奖金。竞选团队共设计了6个具有不同特色的页面，但最终需选出一个作为主打页面。请问您能帮助他们确定最佳页面吗？

在历史事件中，竞选团队实施了一个方案：他们在小范围内同时推出这6个页面，并随机分配每个页面相同数量的访问量。记录下每个页面的注册率后发现，最优页面的注册率达到了11.6%，相较于最初版本的8.26%提高了40.6%。这个优化带来了2,880,000个新增电子邮件地址，并成功转化为约6,000万美元的额外捐款。虽然定性地选择最佳页面颇具挑战，但是通过AB测试这种定量方法可以更好地指导决策。

下面是关于AB实验的解释：

AB实验，由王晔博士给出定义：“为了验证一个新的产品交互设计、产品功能或策略、算法的效果，在同一时间段内，给多组用户（通常称为对照组和实验组，用户分组方式随机，各组用户在统计学上的差异较小；用户分组的角度则没有差别）分别展示优化前的产品和优化后的产品交互设计，并通过数据分析，判断优化前后方案在一个或多个评估指标上是否符合预期的一种实验方法。”

这段话可能较为冗长，建议对其进行简化。

下面我们用更通俗的语言再解释一遍，AB实验就是我们可以在线切割一部分用户（降低风险），然后完全随机地将他们分成两组或多组（确保人群一致）。其中一组保持现有的方案，称为对照组；另一组则采用改进的方案，称为实验组。通过使用统计方法分析两组之间的指标差异，以评估这些改动是否符合预期。

为什么要进行A/B实验？

A/B实验的核心价值在于降低风险和精确评估改动的影响。接下来我们看两个场景：

场景A：

小A是一位拥有300万日活的产品的产品经理。在新版上线时，他充满信心地引入了一个新功能（改动），但发布后的结果显示，线上留存率大幅下降，给产品带来了巨大的损失。

场景B：

小A和小B在新版同时上线了一个新功能。发布后，线上留存率大幅上升，两人都认为这是他们的功能提高了留存。因此，他们开始争执不休。

如果没有AB测试，以上的两个场景可能在互联网公司的日常工作中经常发生。快速迭代是互联网产品的一个重要特征。如何在迭代过程中降低因错误尝试而带来的损失，并准确评估每一个功能对产品的影响是快速迭代的关键。AB实验为我们提供了解决方案。由于它可以切割一小部分用户进行实验，从而降低了风险。而变量的唯一性使我们能够精确地评估功能带来的影响。

AB实验的统计学原理

AB实验的核心统计学原理是“假设检验”。假设检验是一种用于判断样本与样本、样本与总体之间的差异是否由抽样误差引起还是本质差异所导致的统计推断方法。其基本原理是先对总体特征做出某种假设，然后通过抽样研究的统计推理，对这一假设应被拒绝还是接受进行判断。假设检验采用了一种类似于反证法的推理方式。通过AB实验，我们需要验证的实际上是一对假设，即原假设和备择假设。

以一个简单的例子来说明：假设我们认为将按钮从圆形改为正方形可以提高用户的人均点击率。那么，我们的原假设就是“将按钮从圆形改为正方形可以提高用户的人均点击率”，备择假设则是“将按钮从圆形改为正方形不能提高用户的人均点击率”。这两者是一对互斥的假设。如果能够证明原假设不成立，那么备择假设在一定程度上就可以被认为是成立的。

假设检验的基本思路是“小概率事件在大量实验中是几乎不可能出现的”。如果在实验中出现了小概率事件，那么我们可以推断原假设是错误的，进而推断备择假设可能是正确的。

需要注意的是，由于假设检验是基于有限样本信息的总体推断，因此我们得出的结论都可能会因为抽样误差而产生错误的判断。例如，我们可能会认为瑞士的平均收入高于我国，但实际上这是错误的。

在对比研究中，如果抽取的对象包括我国知名企业家如马云、马化腾、王健林、李嘉诚以及我本人，那么得出的结论可能就不再适用了，这是抽样误差可能导致的一种误导。在假设检验的过程中，我们可能会犯两种错误，即第一类错误（弃真）和第二类错误（纳伪）。

为了更直观地解释这两种错误，我们可以参考以下图片。在这里，我们的原假设是“没有怀孕”，备择假设是“怀孕了”。对于图1来说，如果没有怀孕却被认为是怀孕了，这就意味着我们错误地拒绝了原假设，也就是所谓的弃真；而对于图2，实际上怀孕了但却被认为是没有怀孕，这被称为纳伪。

在AB测试中，这两种错误的表现通常如下：弃真是指我们的实验改变实际上并没有产生预期效果，但我们却认为它有效；纳伪则是指我们的实验改变实际上产生了效果，但我们却认为它没有效果。

在统计学中，我们使用显著性水平（α）来衡量犯第一类错误的概率，使用统计功效（β）来衡量犯第二类错误的概率。通常情况下，我们认为第一类错误的危险性更大。

例如，如果我们进行了一次产品的改进并通过AB测试发现它对留存产生了积极的影响，但如果在这个过程中我们犯下了第一类错误，即改进上线后留存并没有增加反而降低了，那么就有可能会导致重大的损失。因此，我们会尽力降低犯第一类错误的风险，而第二类错误虽然也需要避免，但其优先级相对较低。

显著性水平（α）是一个重要的概念。

在数据分析过程中，测量误差可能导致二类错误的风险。幸运的是，统计学提供了一些指标来量化我们犯错的可能性的大小。在统计学中，我们用显著性水平（α）来衡量犯第一类错误的概率，用统计功效（β）来衡量犯第二类错误的概率。

那么如何应用显著性水平（α）呢？首先要认识到，由于抽样误差的存在，我们每次从总体中抽取样本计算指标均值可能会与“真实均值”存在误差。然而，根据中心极限定理，如果我们不断在总体样本中抽取样本并计算指标均值，所得到的结果应该会近似于正态分布，分布以真值为中心，均值越接近真值，出现的概率就越大。

举个例子，假设我们设计了一种新策略，并认为它可以提高用户的人均停留时长。因此，我们提出的原假设是“策略不能提高用户的人均停留时长”，备择假设是“策略可以提高用户的人均停留时长”。已知策略生效前的用户使用时长分布如图所示，呈正态分布。

现在，我们在总体中随机抽取一部分样本并施加策略，计算其样本使用时长的均值。如果发现均值落在非红色区域，那么由于抽样误差，这也可能是随机出现的，但如果均值落在红色区域，我们就认为“小概率的事件发生了”。根据假设检验的基本思想，“小概率事件在大量实验中是几乎不可能出现的”。

我们可以拒绝原假设“策略不能提高用户的人均停留时长”，从而具有很高的信心推断策略生效了。

若以上理解存在困难，我将举一个更通俗的例子。我有一个朋友自称是一位射箭八环选手，他的平均成绩是八环，但我对此表示怀疑。我让他射一次试试看，结果他只命中了一环。在这种情况下，我有理由怀疑他在欺骗我，因为对于一位平均成绩为八环的射箭选手来说，仅射中一环的概率是非常小的。

显然，红色区域的面积设置得越小，我们拒绝原假设的条件就越严格，犯第一类错误的概率就越小。显著性水平（α）是我们能接受的第一类错误概率，通常业界将显著性水平（α）设定为5%。

转载请注明: http://www.zuer8.com/shenghuobaike/1218.html

上一篇：养老保险缴费凭证号的查询方法"

下一篇：清真食品的含义及与非清真食品的区别解析

猪儿生活

测试是什么？原理及应用案例分析

相关文章

猜你喜欢

文章推荐

专题tag