没有好的实验指导和好的平台支持,大多数人无法设计出有效的AB实验,也无法正确消化这些问题。数百个实验指标的结果。根据一项调查,可能有三分之一的AB实验存在问题。对AB实验的误解会导致非最优决策和对业务增长的不准确预期,从而损害公司的长期利益。AB实验结果被误判的原因有很多,从有偏见的实验设计,有偏见的用户选择,到有偏见的统计分析,以及试图将AB实验的结果推广到实验人群,在实验时间范围之外等等。本文主要从AB实验的基本流程和AB实验需要的基本技术要素出发,总结AB实验过程中各个环节可能出现的问题。1.关于实验参与者的三个问题关于实验参与者的三个主要问题。实验参与者是否合理随机化。在实际工程中,涉及随机函数选择、正交分层框架设计等问题。本质是考虑随机过程是否真的是随机的,能否消除不同实验组之间用户选择的偏差。即使使用性能最好的哈希函数进行分组,也可能会出现冲突等问题。另外,在随机化的过程中,少量的极值和异常对象都会对随机化的数据指标产生很大的影响。需要考虑检测和解决这些问题。参与实验的被试是否相互独立。AB实验的结果需要满足一个基本假设——稳定单位处理值假设(SUTVA)才能使结果有效。这个假设指的是任何实验单元的潜在结果都不会随着分配给其他单元的处理而变化,并且每个组中参与者的行为不受分配到其他组的参与者的影响。在大多数实际应用中,这是一个合理的假设。然而,在某些情况下,这种假设并不成立。一旦这个假设不成立,AB实验的结果就是无效的。实验参与者的数量是否足以进行实验评估也是需要考虑的问题。如果参与实验的被试样本量不足,即使得到了实验结果,也无法进行有效的实验评价。2、实验中随机分配的三个问题实验参与者随机分配过程中存在三个关键问题。最小流媒体单元、元素级别、页面级别、会话级别或用户级别的最佳粒度是什么?选择不同粒径的最小分流单元时,在评估实验效果时有何不同,需要注意哪些问题?拆分流量时,如何在不增加实验评估复杂度的情况下实现流量复用?基于产品和各个系统的综合考虑,什么样的流量框架最合适?什么样的随机函数可以用来提高随机分流的性能?在同一个实验中,它们在不同的受试者组中是同质的吗?是否存在SRM问题?如果存在这些问题,那么实验组和对照组观察到的差异不是实验造成的,而是引入了其他系统偏差,可能导致结论有偏,甚至推翻结论。得到有偏见的结果是一场噩梦,它使整个AB实验变得徒劳无功。如果没有正确的诊断算法,找到这些偏差的根本原因并加以修复通常比运行AB实验本身花费的时间更长。根据一项调查,仅此SRM问题就占所有因AB实验而导致的无效实验的10%左右。三、关于实验指标的两个问题实验指标体系包含两个关键问题。如何建立完整的产品指标体系,包括指标设计、评价、演化、计算等一系列相关问题。如何选择合适的实验评价指标,包括从产品角度和工程角度,综合考虑实验指标的指向性和敏感性,以及如何将多个目标指标组合成一个整体评价标准(OverallEvaluationCriterion,OEC)等问题。4、实验分析评价的三个问题实验分析评价中的问题较多,解决起来也比较困难。这部分的问题往往更加个性化和多样化。上述问题,如参与实验的单位数量、随机分布、指标体系等问题,可以通过搭建实验平台等工具来避免、监控和解决。实验分析与评价是针对单个实验的,每个实验从目标到指标都有自己的差异,不仅需要系统化处理和标准化,还需要具体问题具体分析。分析过程需要对实验设计、产品特性、数据指标、统计分析等有比较透彻的了解,才能更好的进行深入的实验评价。与分析评价相关的问题可以归纳为以下三类。1)对统计结果的理解是否正确,如何解释实验结果中P值、置信水平、置信区间等之间的关系?从实验中获得的相对改进是自然波动还是真正的实验改进?实验参与者的数量是否足以检测到所需的实验效果?实验统计的功效值是否足够?实验数据的统计准确性能否检测到业务的提升?2)实验分析过程是否正确?实验过程中有AA实验吗?实验过程中是否进行了任何SRM测试?实验过程中有没有进行偷窥实验?在实验分析过程中,是否存在幸存者偏差、辛普森悖论等问题?如何将局部实验的结果推导出为全局改进,转换过程是否正确?3)实验分析结果外推是否正确。如果之前的实验每个环节都没有问题,并且实验组的效果是正向的,那么实验决定决定将本次实验的全部量释放(也称为释放)给所有用户。总的来说,这个环节并不太难。在某些特定情况下,会出现问题,即实验结果超出了实验设置,不再有效。人口外推:将结果推广到实验人口之外,对子人口进行实验并假设整个人口的效果相同。随着时间的推移进行外推:同样危险的是在实验时间范围之外进行概括,因为无法保证长期和短期效果相同。通常受限于AB实验的机会成本,一般实验不会运行超过两周,而全量实验意味着这个策略会在很长一段时间内在线工作。一两周的效果是否等于一个月甚至六个月后的效果是无关紧要的。定。在进行AB实验时,除了选择正策略外,还需要衡量这个策略的长期影响。因为参与实验的人希望得到的结果是“如果我们采用某种策略,下个季度指标X会不会增加?”。该陈述隐含地假设在为期两周的实验中,测量的效果持续四分之一,当实验效果具有时间依赖性时,这显然是不正确的。更复杂的是,并非所有实验指标都显示与实验时间相关。如果没有自动检测手段,即使是最有经验的实验者也很难筛选成千上万的指标来寻找时间相关的实验效果。上面介绍的实验分析问题,在很多AB实验中都没有得到很好的解答。它们特别容易出现在AB实验中,影响实验结果。最后得出一些错误的解释和结论。统计一个数字很容易,但要得出可信可靠的实验结论却并不容易。我们可以很容易地计算出B组策略的点击率比A组策略高2.7%。B组攻略推出后真的能提升2.7%的点击率吗?如果没有实验体系和科学的实验方法,就很难保证最终的效果。大部分参与AB实验的人都遇到了一个头疼的问题:实验结果是正面的,但是全面上线后行情数据却没有上涨。这是一个复杂的系统问题,可能有多种原因。除了上面我们提到的影响AB实验的问题之外,还有一个原因就是统计学本身的概率问题。因为我们在统计学中使用假设检验来判断实验结果,所以有出错的概率。比如我们使用95%的置信度,那么犯第一类错误的概率就是5%(AB实验中,A组没有效果,实验系统判断A组有效,这是第一类错误)。II类错误的概率高达95%。在实验系统中,用户设置置信度为95%,此时需要承担第一类错误5%的风险。在一切正常的情况下,A组的实验有效果,全面上线后有5%的风险没有效果。这种情况无法避免,大约每20次实验就会出现一次。也就是说,如果在20次或30次实验中有1次或2次实验,虽然实验的效果是正面的,但全剂量后没有效果,这其实是正常现象,在可以接受的范围内。如果做的实验少于10次,有阳性效果和全量后无效果的实验多于2~3次,那么大概率是实验方法和系统有问题,问题出在很可能来自本文讨论的问题。问题。本文节选自机械工业出版社的《AB实验:科学归因与增长的利器》,经出版社授权发布。
