当前位置: 首页 > 科技观察

关于A-B测试所要了解的五个要点_0

时间:2023-03-16 23:27:26 科技观察

关于A/B测试有用性等的五件事。A/B测试是一项随机实验,其中“A”和“B”指的是2个变体,以确定哪个变体更“有效”。作为网络分析中的常用工具,A/B测试并不为所有人所熟知,包括那些经常使用它的人。合理的A/B测试应该牢固地植根于统计假设检验,但情况并非总是如此。除了假设检验之外,在设计、执行和解释A/B测试结果时还存在各种其他问题。查看本文涵盖的基础知识。本文涵盖有关A/B测试的五个要点。图11.不要根据小样本得出结论。对于对统计知识略知一二的人来说,这似乎是显而易见的,但它非常重要,值得首先介绍。A/B测试的样本量很棘手,并不像大多数人想象或希望的那样简单。但这实际上只是与统计置信度相关的更大难题的一部分;仅当您拥有必要的样本量和完成实验所需的时间时,才能获得统计置信度。正确的试验设计将考虑所需统计置信度所需的样本量和转换次数,从而使试验能够完全运行,而不是因为它似乎有成功的结果而过早停止试验。您可以在此处了解有关样本大小和计算A/B测试统计置信度的更多信息。2.不要忽视A/B测试的心理方面。假设您正在进行电子邮件A/B测试。准备好进行实验,以便两组都具有相同的电子邮件内容,但主题行不同。这些标题行变化是测试的主题,并且由于这些标题行在用户打开电子邮件之前是可见的(实际上用于衡量电子邮件的有效性),因此这里要测试的指标显然是电子邮件打开率,哪个不是?这取决于。促销活动的目标是什么?您是否只对打开它(或间接阅读)感兴趣?更有可能的是,目标是让用户完成某种行动号召(CTA,例如点击),因此CTA或点击率可能是更准确的指标。但是,打开电子邮件时,已经可见的标题行如何导致不同的点击率?都是心理因素。示例:您的电子邮件正在宣传数据科学巨星JaneQ.Public在波士顿举行的数据科学会议。您有2个标题行可供选择:向最佳专家学习数据科学!与JaneQ.Public一起参加今年11月在波士顿举行的2018年数据会议。您对这些头条新闻设定了期望,其中只有一个是现实的。以第一个钩子开头并不能使读者为电子邮件可能的内容做好准备,而且失望或未满足期望的可能性要大得多,因此点击率无疑会受到影响。另一方面,第二封预期的电子邮件包含实际信息,打开它的人更有可能点击。图23.注意局部最小值;A/B测试并不适用于所有情况。A/B测试不会解决所有问题,因为它并不适合所有问题。更改着陆页可以是很好的A/B测试,更改网站或表单上的按钮位置可以是很好的A/B测试。一个完整的网站重新设计是否是好的A/B测试取决于你如何试验。增量更改通常非常适合A/B测试。但是,仅仅因为您假设自己从正确的地方开始,渐进式更改可能无法实现您想要实现的目标。局部最小值将您的产品概念化为数学函数,类似于已建立的设计惯例。如果您不考虑这一点:如果以更全面的方式重新设计产品以获得全局最小值(甚至更好,局部最小值),则调整现有产品没有任何价值。这是多余的。关键是,一头扎进A/B测试并不是一个好主意。首先确定您的目标,然后在您确定A/B测试可以帮助您实现目标后决定进行实验。之后,设计实验。只有这样才能实施A/B测试。4.桶是重点。让我们首先考虑如何在不知道种群中属性分布的情况下,在分配桶之前最有效地确保桶之间的可比性。答案很简单:随机选择和桶分配。假设可用人口足够大,随机选择和桶分配是一种统计上合理的方法,不考虑人口的任何属性。例如,假设您正在测试对网站功能的更改并且只对来自特定区域(美国)的响应感兴趣。首先分成两组(control和treatment),不管用户区域(假设人口足够多),分配的美国访客应该分成这两组。从这两个桶中,您可以检查访客属性以进行测试,例如:"):#dosomethingcontrol-relatedhereelse:#catch-allfornon-US(andnotrelevanttotestingscenario)图3中的第二个问题是分桶倾斜。之前在Etsy从事A/B测试的数据科学家EmilyRobinson写道:桶倾斜(又名样本比率不匹配)是指人们在变体之间的分配与您计划的不同。例如,您可能想在对照组和治疗组之间分配50/50,但几天后,您发现40%这些人在治疗组,60%在对照组。这是个问题!如果你有很多用户,即使看到49.9%的人在对照组和50.1%的人在治疗组也可能表明你的实验有问题。要检查是否有问题,请进行比例测试使用每个组中的访问者数量,查看p值是否小于.05。如果确实存在桶倾斜,则存在错误。遗憾的是,这个bug很难找到,但一个好主意是查看bucket倾斜是否因web浏览器、国家或其他访问者因素而异。Emily文章的其余部分也很出色,我推荐阅读。5.分析中只包括可能受到变化影响的人。正如Emily阐述的那样,第11点探讨了这一点:如果您的实验中有用户的体验不受更改的影响,那么您就是在增加噪音并削弱您检测效果的能力。很好的建议!Emily随后举了两个直观的例子:1.如果你改变了某个特定页面的布局,只有当用户实际访问了该页面时才将他们添加到实验中。2.如果您试图将免费送货门槛从$X降低到$Y,那么只有那些购物车商品在$X和$Y之间的用户才应该包含在实验中;他们将是治疗组和对照组中唯一看到差异的用户。Emily提出了相关建议:仅在用户访问相关页面后才开始跟踪您的指标:假设您在搜索页面上运行实验,有人访问您的网站,从主页进行购买,然后访问搜索页面,开始测试。显然,A/B测试本身就是一种职业,开始实验只会导致混乱。希望这五个简单的要点对您有所帮助。原标题:5ThingstoKnowAboutA/BTesting,作者:MatthewMayo