A/B测试,简而言之,是通过创建可信的克隆来研究因果关系,即两个相同的项目(或更典型的是两个统计上相同的组),然后观察不同的处理方法的效果。两个相同的项目不仅仅是相似,我的意思是比下图中的两只猫更相似,关键是要找到“可靠的克隆”,或者让随机化和大样本量为你创造它。科学的、受控的实验是一种极好的工具:它允许人们讨论原理和原因。没有它们,所有人都知道相关性,这通常对决策没有太大帮助。可以说,实验是在文明对话中使用“因为”这个词的许可。但可悲的是,贪图结果而不是付出、自欺欺人地推论自己、声称自己是科学实验而没有进行适当的实验,这些都太常见了。在不确定的情况下,除非以下三个原因全部存在,否则你所做的不会算作实验:使用了不同的方法随机分配方法经过科学检验的假设(见我的解释:http://bit.ly/quaesita_damnedlies)要理解为什么实验被用作推断因果关系的工具,请参阅最简单的实验之一背后的逻辑——A/B测试。快速说明如果您不想阅读详细示例,请查看此GIF,然后跳至最后一节(“秘密在于随机性”)。详细描述想象一下,您的公司有一个已经使用了几年的灰色徽标。现在,您所有的竞争对手都在使用灰色徽标(模仿是最真诚的奉承形式),而您的高管坚持要将品牌重塑为更亮的颜色……但是,什么颜色?尽管您的用户看到的徽标是灰色的,但这种情况即将发生变化。在仔细评估贵公司网站配色方案的实用性后,您的设计团队只确定了两个可行的候选方案:蓝色和橙色。CEO最喜欢的颜色是蓝色,所以她选择批准蓝色作为默认方案。换句话说,她认为如果没有其他原因,她会很乐意偏爱蓝色。但幸运的是,她是一位强大的数据驱动领导者,并且愿意在数据驱动时将她的想法变成橙色。但CEO只有在看到有形数据时才愿意妥协,她要求提供证据证明橙色标志在当前用户群中对网站的某些部分(相对于蓝色标志)产生了更多点击。你是公司的资深数据科学家,到了你搬砖的时候,你立马判断CEO的决策方式符合频率统计中的框架。仔细听她讲完后,您确定她的原假设和备择假设是因果关系,这意味着需要进行实验。总结一下她告诉您的内容:默认情况:批准蓝色徽标。备选方案:批准橙色徽标。零假设:橙色徽标不会比蓝色徽标多至少10%的点击次数。备择假设:橙色徽标的点击率至少比蓝色徽标高10%。对于这样的设置,A/B测试是理想的实验设计。(对于其他因果决策,可能需要其他设计。虽然我在这里只介绍A/B测试,但更复杂的设计背后的逻辑是相似的。)有几种方法可以运行A/B测试以进行实时流量实验.我们在心理学实验室(和焦点小组研究)中看到的是人们经常被邀请到街上,随机向不同的人展示不同的刺激,然后问他们问题。但CEO想要的更难。她的问题只能通过实时流量实验来回答:当不同的用户在您的网站上开展日常业务时,向他们提供不同版本的徽标。实验基础设施如果你想用实时流量进行实验,那么你需要一些特殊的基础设施。与工程师合作,构建向不同用户随机提供不同优惠的能力,以及根据优惠条件跟踪CEO期望指标(某些网站元素的点击率)的能力。人们不经常试验实时流量的原因往往与高昂的前期成本有关。就像谷歌在我们甚至不知道要运行什么实验之前就在我们的大多数系统中构建实验基础设施一样,传统公司可能会忘记首先添加此功能,并发现自己落后于更多精通技术的竞争对手。但要注意,如果你想进入应用型ML/AI游戏,那么实验性基础设施是必须的。示例您注意不要用弹出的新徽标来吓唬用户。明智的做法是对一部分用户进行实验性抽样,然后逐步推出(如果出现不可预见的不良结果,可以选择将更改恢复为灰色)。控制如果你想知道用户对新奇事物的反应(他们是否因为徽标更改而点击更多),你可以使用灰色徽标处理作为对照组。但这不是CEO想要回答的答案,她的重点是单独橙色相对于蓝色的因果关系,因此根据她的决策方式,对照组应该是显示蓝色徽标的用户。首先,您的系统会尝试将蓝色徽标基线应用于示例中的所有用户。然而,在系统实际向用户显示蓝色徽标之前,实验性基础设施抛出一枚虚拟硬币,随机将一些用户重新分配给橙色处理,向他们显示橙色。然后橙色版本随机显示给一些用户而不是其他用户。如果随后观察到橙色版本具有更高的平均点击率,则可以认为橙色方案导致了行为差异。如果统计差异高于10%,CEO就会像她承诺的那样愉快地换成橙色。如果没有,那么她会选择蓝色。为什么是10%?因为这是CEO愿意接受的最小效应值。如果决策者关心效果大小,那么他们应该包括在假设检验中。检验“无差异”的原假设是一个明确的声明,表明您对效果大小没有任何疑问。如果处于橙色处理状态的用户对控制条件的反应不同,则可以说显示橙色版本比蓝色版本产生更多的点击。秘密在于随机性。如果这不是随机进行的,例如,如果向所有登录用户显示橙色方案,而向其他所有人(访问者)显示蓝色方案,则不能说橙色方案造成了差异。因为不管你用什么颜色的logo,可能登录的用户对你的公司更忠诚,更喜欢你的产品。无论颜色如何,登录用户都可能有更高的点击倾向。随机化是关键,它可以让你得出因果结论,这就是随机性如此重要的原因。样本量很大(没有大量的统计能力就无法进行实验),随机选择会创建具有较大方差的组。从统计上看,这两个群体是彼此值得信赖的克隆人。决策标准越直接,样本量越大,实验设计所需的复杂性就越低。A/B测试很棒,但更高级的实验设计允许您明确控制一些混杂因素(例如,2x2设计将登录用户与未登录用户分开,并在每个组中运行一个迷你A/B。B测试让随机性为你处理剩下的事情)。当您对橙色徽标如何以不同方式影响登录用户并希望将其纳入您的决策时,这尤其有用。无论哪种方式,随机选择都是必须的。依靠随机选择,A/B测试的蓝色和橙色条件下的用户组在所有方面(总体上)始终相似,传统上人们会考虑选择参与者来平衡他们的研究:例如性别、种族、年龄、教育水平、政治观点、宗教信仰等。但通常我们无法控制的其他方面,随机选择也会让他们保持相似:爱猫人士、饮茶者、游戏玩家、哥特人、高尔夫球手、尤克里里琴拥有者,慷慨的给予者擅长游泳的人,暗地里恨自己配偶的人,几天没洗澡的人,对橙子过敏却没有意识到的人,等等。这就是大的美样本量加上随机选择,而不必依靠自己的聪明才智来找出要控制的正确混杂因素。当您使用随机数创建两个大组时,您会得到一个统计上的空白画布——这两个组在统计上是相同的,唯一的区别是将对它们执行的操作。如果你观察到两组结果之间存在实质性差异,那么你可以说发生的差异是由于你的操作造成的,这就是实验的惊人力量!探究因果关系是一个挑剔的游戏——这是科学家们所做的,如果你想出两个劣质的“克隆”并试图将不同的结果归因于不同的协议方法,没有大量样本你怎么知道这不是他们的鼻子影响结果的(这两个小猫的小斑点呢?本文转载自微信公众号“读芯”,可通过以下二维码关注,转载请联系芯阅读公众号。
